低资源目标语言翻译中的大规模并行跨语言学习

钟洲,马蒂亚斯·斯珀伯,亚历山大·怀贝尔


摘要
我们致力于从丰富资源语言到低资源语言的翻译。我们发现的主要挑战是缺乏低资源的语言数据、有效的跨语言迁移方法以及神经系统中常见的变量绑定问题。我们建立了一个翻译系统,以八个欧洲语系作为我们的测试场地,来应对这些挑战。首先,我们添加来源和目标家庭标签,研究家庭内和家庭间对有效跨语言迁移的影响。与单族多源多目标基线相比,我们使用八个族实现了英语-西班牙语翻译的BLEU分数提高了+9.9。此外,我们发现,对最接近低资源语言的两个相邻家庭进行培训通常就足够了。其次,我们构建了一个消融研究,发现即使目标数据少得多,也可以获得相当好的结果。第三,我们通过建立一个订单提供服务的命名实体翻译模型来解决变量绑定问题。在初步研究中,我们获得了60.6%的定性评估准确率,其中我们的翻译与人类翻译相似。
选集ID:
W18-6324型
体积:
第三届机器翻译会议记录:研究论文
月份:
十月
年份:
2018
地址:
比利时布鲁塞尔
编辑:
Ondřej Bojar公司,拉简·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西亚特色菜,马尔科·图尔奇,卡林·弗斯普尔
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
232–243
语言:
网址:
https://aclantology.org/W18-6324
内政部:
10.18653/v1/W18-6324
双钥匙:
引用(ACL):
Zhong Zhou、Matthias Sperber和Alexander Waibel。2018低资源目标语言翻译中的大规模并行跨语言学习.英寸第三届机器翻译会议记录:研究论文,第232-243页,比利时布鲁塞尔。计算语言学协会。
引用(非正式):
低资源目标语言翻译中的大规模并行跨语言学习(周等人,WMT 2018)
复制引文:
PDF格式:
https://aclantology.org/W18-6324.pdf