Larger-Scale Transformers for Multilingual Masked Language Modeling

Naman Goyal; Jingfei Du; Myle Ott; Giri Anantharaman; Alexis Conneau

doi:10.18653/v1/2021.repl4nlp-1.4

用于多语言屏蔽语言建模的大规模变换器

摘要

最近的工作证明了跨语言模型预训练对跨语言理解的有效性。在这项研究中，我们给出了两个更大的多语言屏蔽语言模型的结果，参数分别为3.5B和10.7B。我们的两款新机型在XNLI上的平均准确度分别比XLM-R高1.8%和2.4%。在GLUE基准测试的多个英语任务中，我们的模型平均比RoBERTa-Large模型要好0.3%，同时还能处理99种以上的语言。这表明用于语言理解的更大容量模型可以在高资源语言上获得强大的性能，同时大大改进低资源语言。我们公开了我们的代码和模型。

选集ID：: 2021.回复4nlp-1.4
体积：: 第六届NLP代表性学习研讨会论文集（RepL4NLP-2021）
月份：: 八月
年份：: 2021
地址：: 在线的
编辑：: 安娜·罗杰斯,伊塞尔·卡利克斯托,伊万·武利奇,纳奥米·萨弗拉,诺拉·卡斯纳,奥安娜·玛丽亚·坎布鲁,特拉皮特·班萨尔,韦里德·施瓦茨
地点：: 回复L4NLP
SIG公司：
出版商：: 计算语言学协会
注：
页：: 29–33
语言：
网址：: https://aclantology.org/2021.repl4nlp-1.4
内政部：: 10.18653/v1/2021.回复4nlp-1.4
比比键：
引用（ACL）：: Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman和Alexis Conneau。2021用于多语言屏蔽语言建模的大规模变换器.英寸第六届NLP表征学习研讨会会议记录（RepL4NLP-2021），第29-33页，在线。计算语言学协会。
引用（非正式）：: 用于多语言屏蔽语言建模的大规模变换器（Goyal等人，RepL4NLP 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.repl4nlp-1.4.pdf
数据: 补体第四成份, CC100型, 胶水, MLQA公司, MultiNLI公司, QNLI公司, 不锈钢, XQuAD公司, mC4型

PDF格式引用搜索