@正在进行{koto-etal-2021-indobertweet,title=“{I}-ndo{BERT}-weet:一个有效的领域特定词汇初始化的{I}印尼语{T}-witter预训练语言模型”,author=“Koto、Fajri和Lau、Jey Han和蒂莫西·鲍德温“,editor=“Moens、Marie-Francine和黄、玄静和Specia、Lucia和Yih,Scott Wen tau”,booktitle=“2021年自然语言处理实证方法会议记录”,月=11月,年=“2021”,address=“多米尼加共和国Online和Punta Cana”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.emnlp-main.833”,doi=“10.18653/v1/2021.emnlp-main.833”,pages=“10660--10668”,抽象=“我们展示了印尼推特的第一个大规模预处理模型IndoBERTweet,该模型是通过使用添加的领域特定词汇扩展单语训练印尼BERT模型来训练的。我们特别关注词汇不匹配情况下的有效模型适配,并对初始化BERT嵌入的不同方法进行基准测试新单词类型的图层。我们发现,使用平均BERT子字嵌入进行初始化使预训练速度提高了五倍,并且在七个基于Twitter的数据集的外部评估方面,比提出的词汇自适应方法更有效。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“koto-etal-2021-indobertweet”><标题信息><title>IndoBERTweet:一个针对印尼推特的预训练语言模型,具有有效的特定领域词汇初始化</title></titleInfo><name type=“personal”>Fajri传真Koto公司<角色>作者</角色></name><name type=“personal”>Jey(Jey)韩语<namePart type=“family”>Lau<角色>作者</角色></name><name type=“personal”>蒂莫西鲍德温<角色>作者</角色></name><原始信息>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2021年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>玛丽·弗朗辛<namePart type=“family”>Moens公司</namePart><角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>宣静</namePart>黄<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”>斯科特文涛<namePart type=“given”>文涛</namePart>Yih(Yih)<角色>编辑器</角色></name><原始信息>计算语言学协会<位置>在线和多米尼加共和国卡纳角</place></originInfo>会议出版物</relatedItem><abstract>我们展示了IndoBERTweet,这是第一个针对印尼推特的大规模预处理模型,该模型通过扩展一个单语言训练的印尼BERT模型和添加的特定领域词汇进行训练。我们特别关注词汇不匹配情况下的有效模型自适应,并为新单词类型的BERT嵌入层初始化的不同方法进行基准测试。我们发现,使用平均BERT子字嵌入进行初始化使预训练速度提高了五倍,并且在七个基于Twitter的数据集的外部评估方面,比提出的词汇自适应方法更有效</摘要>koto-etal-2021-indobertweet</identifier>10.18653/v1/2021.emnlp-main.833<位置><网址>https://aclantology.org/2021.emnlp-main.833</url></位置><部分>2021-11年<扩展单元=“page”><开始>10660</开始><end>10668</范围></部分></mods></modsCollection>
%0会议记录%T IndoBERTweet:一种预训练的印尼推特语言模型,具有有效的领域特定词汇初始化%阿库托,法杰里%刘杰翰%蒂莫西·鲍德温%玛丽·弗朗辛·Y·莫恩斯%Y Huang,宣景%露西娅·Y·斯佩西亚%Y Yih、Scott Wen-tau%2021年自然语言处理实证方法会议论文集%D 2021年%11月8日%计算语言学协会%C Online和Punta Cana,多米尼加共和国%F koto-etal-2021-indober推特%X我们展示了IndoBERTweet,这是第一个针对印尼推特的大规模预处理模型,该模型是通过使用添加的领域特定词汇扩展单语训练印尼BERT模型来训练的。我们特别关注词汇不匹配情况下的有效模型自适应,并对初始化新单词类型的BERT嵌入层的不同方法进行基准测试。我们发现,在七个基于Twitter的数据集上,用平均BERT子词嵌入进行初始化可以使预训练速度快五倍,并且在外部评估方面比所提出的词汇适应方法更有效。%R 10.18653/v1/2021.emnlp-main.833号%U型https://aclantology.org/2021.emnlp-main.833%U型https://doi.org/10.18653/v1/2021.emnlp-main.833%电话:10660-10668
降价(非正式)
[IndoBERTweet:印尼推特的预训练语言模型,具有有效的领域特定词汇初始化](https://aclantology.org/2021.emnlp-main.833)(Koto等人,EMNLP 2021)
国际计算语言学协会