Extracting In-domain Training Corpora for Neural Machine Translation Using Data Selection Methods

Catarina Cruz Silva; Chao-Hong Liu; Alberto Poncelas; Andy Way

doi:10.18653/v1/W18-6323

基于数据选择方法的神经机器翻译领域内训练语料库提取

摘要

数据选择是一个用于选择机器翻译（MT）系统训练的并行数据子集的过程，以便1）减少训练资源，2）训练模型比使用整个语料库训练的模型性能更好，和/或3）训练模型更适合特定领域。研究表明，对于统计机器翻译（SMT），使用数据选择有助于显著提高机器翻译的性能。在本研究中，我们回顾了机器翻译的三种数据选择方法，即术语频率-反向文档频率、交叉熵差分和特征衰减算法，并使用这三种方法对所选数据进行了神经机器翻译（NMT）实验。结果表明，对于NMT系统，使用数据选择也提高了性能，尽管增益不如SMT系统。

选集ID：: W18-6323型
体积：: 第三届机器翻译会议记录：研究论文
月份：: 十月
年份：: 2018
地址：: 比利时布鲁塞尔
编辑：: Ondřej Bojar公司,拉简·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西亚特色菜,马尔科·图尔奇,卡林·弗斯普尔
地点：: WMT公司
SIG公司：: SIGMT公司
出版商：: 计算语言学协会
注：
页：: 224–231
语言：
网址：: https://aclantology.org/W18-6323
内政部：: 10.18653/v1/W18-6323
双钥匙：
引用（ACL）：: Catarina Cruz Silva、Chao-Hong Liu、Alberto Poncelas和Andy Way。2018基于数据选择方法的神经机器翻译领域内训练语料库提取.英寸第三届机器翻译会议记录：研究论文，第224-231页，比利时布鲁塞尔。计算语言学协会。
引用（非正式）：: 基于数据选择方法的神经机器翻译领域内训练语料库提取（Silva等人，WMT 2018）
复制引文：
PDF格式：: https://aclantology.org/W18-6323.pdf

PDF格式引用搜索