One-Size-Fits-All Multilingual Models

Ben Peters; André F. T. Martins

doi:10.18653/v1/2020.sigmorphon-1.4

一种尺寸的所有多语言模型

摘要

本文介绍了DeepSPIN提交给SIGMORPHON 2020共享任务的任务0和任务1。对于这两项任务，我们都提供了多语言模型，联合培训所有语言的数据。我们没有执行特定于语言的超参数调优-我们提交的每个文件对所有语言都使用相同的模型。我们的基本架构是带有entmax注意力和损失的稀疏序列到序列模型，它允许我们的模型学习稀疏的局部对齐，同时仍然可以使用基于梯度的技术进行训练。对于任务1，我们使用基于RNN和基于变换的稀疏模型都取得了很好的性能。对于Task 0，我们将基于RNN的模型扩展到多编码器设置，其中单独的模块对引理和屈折序列进行编码。尽管我们的模型缺乏特定于语言的调优，但它们在Task 0中并列第一，在Task 1中排名第三。

选集ID：: 2020年sigmorphon-1.4
体积：: 第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集
月份：: 七月
年份：: 2020
地址：: 在线的
编辑：: 加勒特·尼古莱,凯尔·戈尔曼,瑞恩·科特雷尔
地点：: SIGMORPHON公司
SIG公司：: SIGMORPHON公司
出版商：: 计算语言学协会
注：
页：: 63–69
语言：
网址：: https://aclantology.org/2020.sigmorphon-1.4
内政部：: 10.18653/v1/2020。sigmorphon-1.4
比比键：
引用（ACL）：: 本·彼得斯和安德烈·F·T·马丁斯。2020一种尺寸的所有多语言模型.英寸第17届SIGMORPHON语音学、音韵学和形态学计算研究研讨会论文集，第63-69页，在线。计算语言学协会。
引用（非正式）：: 一种尺寸的所有多语言模型（彼得斯和马丁斯，SIGMORPHON 2020）
复制引文：
PDF格式：: https://aclantology.org/2020.sigmorphon-1.4.pdf

PDF格式引用搜索