基于数据选择方法的神经机器翻译领域内训练语料库提取

卡塔琳娜·克鲁斯·席尔瓦,刘朝洪,阿尔贝托·蓬塞拉斯,安迪·韦


摘要
数据选择是一个用于选择机器翻译(MT)系统训练的并行数据子集的过程,以便1)减少训练资源,2)训练模型比使用整个语料库训练的模型性能更好,和/或3)训练模型更适合特定领域。研究表明,对于统计机器翻译(SMT),使用数据选择有助于显著提高机器翻译的性能。在本研究中,我们回顾了机器翻译的三种数据选择方法,即术语频率-反向文档频率、交叉熵差分和特征衰减算法,并使用这三种方法对所选数据进行了神经机器翻译(NMT)实验。结果表明,对于NMT系统,使用数据选择也提高了性能,尽管增益不如SMT系统。
选集ID:
W18-6323型
体积:
第三届机器翻译会议记录:研究论文
月份:
十月
年份:
2018
地址:
比利时布鲁塞尔
编辑:
Ondřej Bojar公司,拉简·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西亚特色菜,马尔科·图尔奇,卡林·弗斯普尔
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
224–231
语言:
网址:
https://aclantology.org/W18-6323
内政部:
10.18653/v1/W18-6323
双钥匙:
引用(ACL):
Catarina Cruz Silva、Chao-Hong Liu、Alberto Poncelas和Andy Way。2018基于数据选择方法的神经机器翻译领域内训练语料库提取.英寸第三届机器翻译会议记录:研究论文,第224-231页,比利时布鲁塞尔。计算语言学协会。
引用(非正式):
基于数据选择方法的神经机器翻译领域内训练语料库提取(Silva等人,WMT 2018)
复制引文:
PDF格式:
https://aclantology.org/W18-6323.pdf