Lifting the Curse of Multilinguality by Pre-training Modular Transformers

Jonas Pfeiffer; Naman Goyal; Xi Lin; Xian Li; James Cross; Sebastian Riedel; Mikel Artetxe

doi:10.18653/v1/2022.naacl-main.255

通过对模块化变压器进行预培训，解除多语言的诅咒

乔纳斯·菲佛,纳曼·戈亚尔,席琳,西安丽,詹姆斯·克罗斯,塞巴斯蒂安·里德尔,米凯尔·阿特克斯

摘要

众所周知，多语言预训练模型会受到多语言的诅咒，这会导致每种语言的性能下降，因为它们涵盖了更多的语言。我们通过引入特定于语言的模块来解决这个问题，它允许我们增加模型的总容量，同时保持每种语言的可训练参数总数不变。与之前学习特定语言组件的后期工作相比，我们从一开始就预先学习了跨语言模块（X-Mod）模型的模块。我们在自然语言推理、命名实体识别和问答方面的实验表明，我们的方法不仅缓解了语言之间的负面干扰，而且能够实现正向迁移，从而提高了单语和跨语言性能。此外，我们的方法能够在性能没有明显下降的情况下添加后期语言，不再将模型使用限制为预先训练的语言集。

选集ID：: 2022.naacl-main.255年
体积：: 计算语言学协会北美分会2022年会议记录：人类语言技术
月份：: 七月
年份：: 2022
地址：: 美国西雅图
编辑：: 海洋木瓜,玛丽·凯瑟琳·德·马内夫,伊万·弗拉基米尔·梅扎·鲁伊斯
地点：: NAACL公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 3479–3495
语言：
网址：: https://aclantology.org/2022.naacl-main.255
内政部：: 10.18653/v1/2022.naacl-main.255
比比键：
引用（ACL）：: 乔纳斯·菲佛、纳曼·戈亚尔、希林、冼丽、詹姆斯·克罗斯、塞巴斯蒂安·里德尔和米凯尔·阿特克斯。2022通过预训练模块化变压器消除多语言诅咒.英寸计算语言学协会北美分会2022年会议记录：人类语言技术，第3479–3495页，美国西雅图。计算语言学协会。
引用（非正式）：: 通过预训练模块化变压器消除多语言诅咒（Pfeiffer等人，NAACL 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.naacl-main.255.pdf
视频：: https://aclantology.org/2022.naacl-main.255.mp4
数据: MLQA公司, 小队, XNLI公司, XQuAD公司

PDF格式引用搜索视频