@进行中{goyal-etal-2021较大,title=“多语言屏蔽语言建模的大规模变形金刚”,author=“戈亚尔、纳曼和杜景飞和Ott、Myle和Anantharaman、Giri和亚历克西斯·康诺“,editor=“罗杰斯、安娜和卡利克斯托、莱瑟和Vuli、Ivan和萨弗拉、内奥米和Kassner、Nora和坎布鲁、Oana Maria和班萨尔、特拉皮特和施瓦尔茨,韦里德“,booktitle=“第六届NLP表征学习研讨会论文集(RepL4NLP-2021)”,月=八月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclcollectory.org/2021.repl4nlp-1.4”,doi=“10.18653/v1/2021.repl4nlp-1.4”,pages=“29--33”,abstract=“最近的工作已经证明了跨语言语言模型预训练对跨语言理解的有效性。在这项研究中,我们给出了两个较大的多语言屏蔽语言模型的结果,参数分别为3.5B和10.7B。我们的两个新模型比XLM-R更名为1.8{\%}和2.4{\%{XNLI的平均精度。在GLUE基准测试的几个英语任务上,我们的模型平均比RoBERTa-Large模型要好0.3{\%},同时处理了99种以上的语言。这表明用于语言理解的更大容量模型可以在高资源语言上获得强大的性能,同时大大改进低资源语言。我们公开了我们的代码和模型。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“goyal-etal-2021-larger”><标题信息>多语言屏蔽语言建模的大规模变形金刚</titleInfo><name type=“personal”><namePart type=“given”>Naman戈亚尔<角色>作者</角色></name><name type=“personal”>景飞<namePart type=“given”>杜氏<角色>作者</角色></name><name type=“personal”>迈尔奥特<角色>作者</角色></name><name type=“personal”>女孩阿南塔拉曼<角色>作者</角色></name><name type=“personal”>亚历克西斯康诺<角色>作者</角色></name><originInfo><发布日期>2021-08</发布日期></originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第六届NLP表征学习研讨会会议记录(RepL4NLP-2021)</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>证书Calixto公司<角色>编辑器</角色></name><name type=“personal”>伊凡Vulić<角色>编辑器</角色></name><name type=“personal”>娜奥米萨弗拉<角色>编辑器</角色></name><name type=“personal”>诺拉卡斯纳<角色>编辑器</角色></name><name type=“personal”>Oana-Maria公司坎布鲁<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>陷阱</namePart>班萨尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>修订</namePart><namePart type=“family”>Shwartz</namePart><角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>最近的工作证明了跨语言模型预训练对跨语言理解的有效性。在这项研究中,我们给出了两个较大的多语言掩蔽语言模型的结果,参数分别为3.5B和10.7B。我们的两款新机型在XNLI上的平均准确度分别比XLM-R高1.8%和2.4%。在GLUE基准测试的多个英语任务中,我们的模型平均比RoBERTa-Large模型要好0.3%,同时还能处理99种以上的语言。这表明用于语言理解的更大容量模型可以在高资源语言上获得强大的性能,同时大大改进低资源语言。我们公开了我们的代码和模型</摘要>goyal-etal-2021较大10.18653/v1/2021.repl4nlp-1.4<位置><网址>https://aclantology.org/2021.repl4nlp-1.4</url></位置><部分>2021-08年<扩展单元=“page”><开始>29</开始><end>33</范围></部分></mods></modsCollection>
%0会议记录%用于多语言屏蔽语言建模的T大尺度变换器%纳曼·A Goyal%阿杜、景飞%米尔·奥特%阿南塔拉曼,吉里%亚历克西斯·A·康诺%安娜·罗杰斯%伊莎·卡利克斯托%伊万·Y Vulić%Y Saphra,内奥米%诺拉·Y·卡斯纳%奥纳马利亚省Y Camburu%Y Bansal,特拉皮特%Y Shwartz,弗瑞德%第六届NLP表征学习研讨会论文集(RepL4NLP-2021)%D 2021年%8月8日%计算语言学协会%C在线%F goyal-etal-2021更大%X最近的工作证明了跨语言模型预训练对跨语言理解的有效性。在这项研究中,我们给出了两个更大的多语言屏蔽语言模型的结果,参数分别为3.5B和10.7B。我们的两款新机型在XNLI上的平均准确度分别比XLM-R高1.8%和2.4%。在GLUE基准测试的多个英语任务中,我们的模型平均比RoBERTa-Large模型要好0.3%,同时还能处理99种以上的语言。这表明用于语言理解的更大容量模型可以在高资源语言上获得强大的性能,同时大大改进低资源语言。我们公开我们的代码和模型。%R 10.18653/v1/2021.回复4nlp-1.4%U型https://aclcollectory.org/2021.repl4nlp-1.4%U型https://doi.org/10.18653/v1/2021.repl4nlp-1.4%电话29-33
降价(非正式)
[用于多语言屏蔽语言建模的大规模转换器](https://aclantology.org/2021.repl4nlp-1.4)(Goyal等人,RepL4NLP 2021)
国际计算语言学协会
- Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman和Alexis Conneau。2021用于多语言屏蔽语言建模的大规模变换器.英寸第六届NLP表征学习研讨会会议记录(RepL4NLP-2021),第29-33页,在线。计算语言学协会。