通过对模块化变压器进行预培训,解除多语言的诅咒

乔纳斯·菲佛,纳曼·戈亚尔,席琳,西安丽,詹姆斯·克罗斯,塞巴斯蒂安·里德尔,米凯尔·阿特克斯


摘要
众所周知,多语言预训练模型会受到多语言的诅咒,这会导致每种语言的性能下降,因为它们涵盖了更多的语言。我们通过引入特定于语言的模块来解决这个问题,它允许我们增加模型的总容量,同时保持每种语言的可训练参数总数不变。与之前学习特定语言组件的后期工作相比,我们从一开始就预先学习了跨语言模块(X-Mod)模型的模块。我们在自然语言推理、命名实体识别和问答方面的实验表明,我们的方法不仅缓解了语言之间的负面干扰,而且能够实现正向迁移,从而提高了单语和跨语言性能。此外,我们的方法能够在性能没有明显下降的情况下添加后期语言,不再将模型使用限制为预先训练的语言集。
选集ID:
2022.naacl-main.255年
体积:
计算语言学协会北美分会2022年会议记录:人类语言技术
月份:
七月
年份:
2022
地址:
美国西雅图
编辑:
海洋木瓜,玛丽·凯瑟琳·德·马内夫,伊万·弗拉基米尔·梅扎·鲁伊斯
地点:
NAACL公司
SIG公司:
出版商:
计算语言学协会
注:
页:
3479–3495
语言:
网址:
https://aclantology.org/2022.naacl-main.255
内政部:
10.18653/v1/2022.naacl-main.255
比比键:
引用(ACL):
乔纳斯·菲佛、纳曼·戈亚尔、希林、冼丽、詹姆斯·克罗斯、塞巴斯蒂安·里德尔和米凯尔·阿特克斯。2022通过预训练模块化变压器消除多语言诅咒.英寸计算语言学协会北美分会2022年会议记录:人类语言技术,第3479–3495页,美国西雅图。计算语言学协会。
引用(非正式):
通过预训练模块化变压器消除多语言诅咒(Pfeiffer等人,NAACL 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.naacl-main.255.pdf
视频:
 https://aclantology.org/2022.naacl-main.255.mp4
数据
MLQA公司小队XNLI公司XQuAD公司