ndo公司BERT(误码率)weet:一个预先训练的语言模型印尼人T型具有有效领域特定词汇初始化的witter

法里·库托,Jey Han Lau(杰·汉·刘),蒂莫西·鲍德温


摘要
我们介绍了IndoBERTweet,这是第一个针对印尼推特的大规模预处理模型,该模型是通过扩展一个单语言训练的印尼BERT模型和添加的领域特定词汇来训练的。我们特别关注词汇不匹配情况下的有效模型自适应,并为新单词类型的BERT嵌入层初始化的不同方法进行基准测试。我们发现,在七个基于Twitter的数据集上,用平均BERT子词嵌入进行初始化可以使预训练速度快五倍,并且在外部评估方面比所提出的词汇适应方法更有效。
选集ID:
2021.emnlp-main.833
体积:
2021年自然语言处理实证方法会议记录
月份:
十一月
年份:
2021
地址:
多米尼加共和国Online和Punta Cana
编辑:
玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛(Scott Wen-tau Yih)
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
10660–10668
语言:
网址:
https://aclantology.org/2021.emnlp-main.833
内政部:
10.18653/v1/2021.emnlp-main.833
比比键:
引用(ACL):
Fajri Koto、Jey Han Lau和Timothy Baldwin。2021IndoBERTweet:一种预训练的印尼推特语言模型,具有有效的领域特定词汇初始化.英寸2021年自然语言处理实证方法会议记录,第10660–10668页,在线和多米尼加共和国卡纳角。计算语言学协会。
引用(非正式):
IndoBERTweet:一种预训练的印尼推特语言模型,具有有效的领域特定词汇初始化(Koto等人,EMNLP 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.emnlp-main.833.pdf
视频:
 https://aclantology.org/2021.emnlp-main.833.mp4网址
代码
indolem/indobertweet