Selecting Backtranslated Data from Multiple Sources for Improved Neural Machine Translation

Xabier Soto; Dimitar Shterionov; Alberto Poncelas; Andy Way

doi:10.18653/v1/2020.acl-main.359

从多个来源选择反译数据用于改进的神经机器翻译

Xabier Soto公司，迪米塔尔·施特里奥诺夫，阿尔贝托·蓬塞拉斯，安迪·韦

摘要

机器翻译（MT）得益于使用源于翻译单语语料库的合成训练数据，这种技术称为反译。与单独使用此类数据相比，组合来自不同来源的反向翻译数据可以获得更好的结果。在这项工作中，我们分析了使用基于规则、基于短语的统计和神经机器翻译系统翻译的数据对新机器翻译系统的影响。我们使用真实世界中的低资源使用案例（临床领域中的巴斯克语到西班牙语）以及高资源语言对（德语到英语）来测试不同的反译场景，并使用数据选择来优化合成语料库。我们利用不同的数据选择策略，以减少使用的数据量，同时保持高质量的机器翻译系统。我们进一步调整了数据选择方法，考虑了用于回译的机器翻译系统的质量和结果语料库的词汇多样性。我们的实验表明，合并来自不同来源的反向翻译数据是有益的，并且利用数据选择可以提高性能。

选集ID：: 2020.acl-main.359
音量：: 计算语言学协会第58届年会会议记录
月份：: 七月
年份：: 2020
地址：: 在线的
编辑：: 丹·朱拉夫斯基，乔伊斯·柴，娜塔莉·施卢特，乔尔·特特劳特
地点：: 国际计算语言学协会
SIG公司：
发布者：: 计算语言学协会
注：
页：: 3898–3908
语言：
网址：: https://aclantology.org/2020.acl-main.359
内政部：: 10.18653/v1/2020.acl-main.359
比比键：
引用（ACL）：: 夏比尔·索托（Xabier Soto）、迪米塔尔·什特里诺夫（Dimitar Shterionov）、阿尔贝托·蓬塞拉斯（Alberto Poncelas）和安迪·韦（Andy Way）。2020从多个源中选择反向翻译数据以改进神经机器翻译.英寸计算语言学协会第58届年会会议记录，第3898–3908页，在线。计算语言学协会。
引用（非正式）：: 从多个源中选择反向翻译数据以改进神经机器翻译（Soto等人，ACL 2020）
复制引文：
PDF格式：: https://aclantology.org/2020.acl-main.359.pdf
视频：: http://slideslive.com/38929436

PDF格式引用搜索视频