F类acebook公司人工智能WMT公司20新闻翻译任务提交

陈鹏仁,安·李,王长汉(Changhan Wang),纳曼·戈亚尔,安吉拉·范,玛丽·威廉姆森,顾嘉涛


摘要
本文描述了脸书人工智能提交WMT20共享新闻翻译任务。我们关注低资源设置,并参与两种语言对,泰米尔语英语和因纽特人英语,其中存在有限的域外双文本和单语数据。我们使用两种主要策略来解决资源不足的问题,即利用所有可用数据和使系统适应目标新闻领域。我们探索了利用所有语言的双文本和单语数据的技术,如自我监督模型预训练、多语言模型、数据增强和重新分类。为了更好地使翻译系统适应测试领域,我们探索了数据集标记和域内数据的微调。我们观察到,基于语言对的可用数据,不同的技术提供了不同的改进。基于这一发现,我们将这些技术集成到一个训练管道中。对于En->Ta,我们使用附加的泰米尔语位文本和单语数据探索了一种无约束设置,并表明可以获得进一步的改进。在测试集上,我们提交的最佳系统的Ta->En和En->Ta分别达到21.5和13.7 BLEU,Iu->En和En->Iu分别达到27.9和13.0 BLEU。
选集ID:
2020年,wmt-1.8
体积:
第五届机器翻译会议记录
月份:
十一月
年份:
2020
地址:
在线的
编辑:
洛伊克·巴罗,Ondřej Bojar公司,费提·布加雷斯,拉金·查特吉,Marta R.Costa-jussá,克里斯蒂安·费德曼,马克·费舍尔,亚历山大·弗雷泽,伊维特·格雷厄姆,帕科·古兹曼,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,安德烈·马丁斯,森下诚,克里斯托夫·蒙兹,长田正树,中泽俊一(Toshiaki Nakazawa),马泰奥·内格里
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
113–125
语言:
网址:
https://aclantology.org/2020.wmt-1.8
内政部:
比比键:
引用(ACL):
陈鹏仁、李安、王长汉、纳曼·戈亚尔、范安琪、玛丽·威廉姆森和顾嘉涛,2020年。脸书AI的WMT20新闻翻译任务提交.英寸第五届机器翻译会议记录,第113-125页,在线。计算语言学协会。
引用(非正式):
脸书AI的WMT20新闻翻译任务提交(Chen等人,WMT 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.wmt-1.8.pdf
视频:
 https://slideslive.com/38939624