神经机器翻译中使用单语数据的系统研究

弗兰克·伯洛,弗朗索瓦·伊冯


摘要
神经机器翻译(MT)从根本上改变了系统的开发方式。与前一代(基于短语的机器翻译)的一个主要区别是这两种范式中使用单语目标数据的方式,这两种数据往往非常丰富。虽然基于短语的机器翻译可以无缝地集成经过数十亿句子训练的超大语言模型,但神经机器翻译开发人员的最佳选择似乎是通过回译生成人工并行数据,这是一种无法充分利用现有数据集的技术。在本文中,我们对回译进行了系统研究,比较了单语数据的替代用途以及多种数据生成过程。我们的发现证实了反向翻译非常有效,并对为什么会出现这种情况给出了新的解释。我们还引入了新的数据模拟技术,这些技术几乎同样有效,但实施起来要便宜得多。
选集ID:
W18-6315号
体积:
第三届机器翻译会议记录:研究论文
月份:
十月
年份:
2018
地址:
比利时布鲁塞尔
编辑:
Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,Aurélie Névéol公司,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
144–155
语言:
网址:
https://aclantology.org/W18-6315
DOI(操作界面):
10.18653/v1/W18-6315
比比键:
引用(ACL):
Franck Burlot和François Yvon。2018在神经机器翻译中使用单语言数据的系统研究.英寸第三届机器翻译会议记录:研究论文,第144-155页,比利时布鲁塞尔。计算语言学协会。
引用(非正式):
神经机器翻译中使用单语数据的系统研究(Burlot&Yvon,WMT 2018)
复制引文:
PDF格式:
https://aclantology.org/W18-6315.pdf
代码
franckbrl/nmt-伪源识别器