IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization

Fajri Koto; Jey Han Lau; Timothy Baldwin

doi:10.18653/v1/2021.emnlp-main.833

我ndo公司BERT（误码率）weet：一个预先训练的语言模型我印尼人T型具有有效领域特定词汇初始化的witter

摘要

我们介绍了IndoBERTweet，这是第一个针对印尼推特的大规模预处理模型，该模型是通过扩展一个单语言训练的印尼BERT模型和添加的领域特定词汇来训练的。我们特别关注词汇不匹配情况下的有效模型自适应，并为新单词类型的BERT嵌入层初始化的不同方法进行基准测试。我们发现，在七个基于Twitter的数据集上，用平均BERT子词嵌入进行初始化可以使预训练速度快五倍，并且在外部评估方面比所提出的词汇适应方法更有效。

选集ID：: 2021.emnlp-main.833
体积：: 2021年自然语言处理实证方法会议记录
月份：: 十一月
年份：: 2021
地址：: 多米尼加共和国Online和Punta Cana
编辑：: 玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛（Scott Wen-tau Yih）
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 10660–10668
语言：
网址：: https://aclantology.org/2021.emnlp-main.833
内政部：: 10.18653/v1/2021.emnlp-main.833
比比键：
引用（ACL）：: Fajri Koto、Jey Han Lau和Timothy Baldwin。2021IndoBERTweet:一种预训练的印尼推特语言模型，具有有效的领域特定词汇初始化.英寸2021年自然语言处理实证方法会议记录，第10660–10668页，在线和多米尼加共和国卡纳角。计算语言学协会。
引用（非正式）：: IndoBERTweet:一种预训练的印尼推特语言模型，具有有效的领域特定词汇初始化（Koto等人，EMNLP 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.emnlp-main.833.pdf
视频：: https://aclantology.org/2021.emnlp-main.833.mp4网址
代码: indolem/indobertweet

PDF格式引用搜索代码视频