Facebook AI’s WMT20 News Translation Task Submission

Peng-Jen Chen; Ann Lee; Changhan Wang; Naman Goyal; Angela Fan; Mary Williamson; Jiatao Gu

F类acebook公司人工智能的WMT公司20新闻翻译任务提交

陈鹏仁,安·李,王长汉（Changhan Wang）,纳曼·戈亚尔,安吉拉·范,玛丽·威廉姆森,顾嘉涛

摘要

本文描述了脸书人工智能提交WMT20共享新闻翻译任务。我们关注低资源设置，并参与两种语言对，泰米尔语英语和因纽特人英语，其中存在有限的域外双文本和单语数据。我们使用两种主要策略来解决资源不足的问题，即利用所有可用数据和使系统适应目标新闻领域。我们探索了利用所有语言的双文本和单语数据的技术，如自我监督模型预训练、多语言模型、数据增强和重新分类。为了更好地使翻译系统适应测试领域，我们探索了数据集标记和域内数据的微调。我们观察到，基于语言对的可用数据，不同的技术提供了不同的改进。基于这一发现，我们将这些技术集成到一个训练管道中。对于En->Ta，我们使用附加的泰米尔语位文本和单语数据探索了一种无约束设置，并表明可以获得进一步的改进。在测试集上，我们提交的最佳系统的Ta->En和En->Ta分别达到21.5和13.7 BLEU，Iu->En和En->Iu分别达到27.9和13.0 BLEU。

选集ID：: 2020年，wmt-1.8
体积：: 第五届机器翻译会议记录
月份：: 十一月
年份：: 2020
地址：: 在线的
编辑：: 洛伊克·巴罗,Ondřej Bojar公司,费提·布加雷斯,拉金·查特吉,Marta R.Costa-jussá,克里斯蒂安·费德曼,马克·费舍尔,亚历山大·弗雷泽,伊维特·格雷厄姆,帕科·古兹曼,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,安德烈·马丁斯,森下诚,克里斯托夫·蒙兹,长田正树,中泽俊一（Toshiaki Nakazawa）,马泰奥·内格里
地点：: WMT公司
SIG公司：: SIGMT公司
出版商：: 计算语言学协会
注：
页：: 113–125
语言：
网址：: https://aclantology.org/2020.wmt-1.8
内政部：
比比键：
引用（ACL）：: 陈鹏仁、李安、王长汉、纳曼·戈亚尔、范安琪、玛丽·威廉姆森和顾嘉涛，2020年。脸书AI的WMT20新闻翻译任务提交.英寸第五届机器翻译会议记录，第113-125页，在线。计算语言学协会。
引用（非正式）：: 脸书AI的WMT20新闻翻译任务提交（Chen等人，WMT 2020）
复制引文：
PDF格式：: https://aclantology.org/2020.wmt-1.8.pdf
视频：: https://slideslive.com/38939624

PDF格式引用搜索视频