一种尺寸的所有多语言模型

本·彼得斯,安德烈·F·T·马丁斯


摘要
本文介绍了DeepSPIN提交给SIGMORPHON 2020共享任务的任务0和任务1。对于这两项任务,我们都提供了多语言模型,联合培训所有语言的数据。我们没有执行特定于语言的超参数调优-我们提交的每个文件对所有语言都使用相同的模型。我们的基本架构是带有entmax注意力和损失的稀疏序列到序列模型,它允许我们的模型学习稀疏的局部对齐,同时仍然可以使用基于梯度的技术进行训练。对于任务1,我们使用基于RNN和基于变换的稀疏模型都取得了很好的性能。对于Task 0,我们将基于RNN的模型扩展到多编码器设置,其中单独的模块对引理和屈折序列进行编码。尽管我们的模型缺乏特定于语言的调优,但它们在Task 0中并列第一,在Task 1中排名第三。
选集ID:
2020年sigmorphon-1.4
体积:
第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集
月份:
七月
年份:
2020
地址:
在线的
编辑:
加勒特·尼古莱,凯尔·戈尔曼,瑞恩·科特雷尔
地点:
SIGMORPHON公司
SIG公司:
SIGMORPHON公司
出版商:
计算语言学协会
注:
页:
63–69
语言:
网址:
https://aclantology.org/2020.sigmorphon-1.4
内政部:
10.18653/v1/2020。sigmorphon-1.4
比比键:
引用(ACL):
本·彼得斯和安德烈·F·T·马丁斯。2020一种尺寸的所有多语言模型.英寸第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集,第63-69页,在线。计算语言学协会。
引用(非正式):
一种尺寸的所有多语言模型(彼得斯和马丁斯,SIGMORPHON 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.sigmorphon-1.4.pdf