我们提出了一个任务来衡量机器翻译系统根据给定上下文翻译歧义词的能力。该任务基于德语-英语词义消歧(WSD)测试集ContraWSD(Rios Gonzales et al.,2017),但已对其进行过滤以减少噪音,并且已对评估进行调整,以直接评估机器翻译输出,而不是对现有翻译进行评分。我们评估了WMT’18共享翻译任务的所有德语-英语提交文件,以及前几年的一些提交文件,发现与2016年WMT提交的文件相比,任务表现有了显著改善(81%→WSD任务的准确率为93%)。我们还发现,未经监督的任务提交具有较低的WSD能力,并且主要翻译具有相同含义的歧义源词。
本文描述了Prompsit Language Engineering提交给WMT 2018并行语料库过滤共享任务的报告。我们提交的四份材料基于一个自动分类器,用于识别相互翻译的句子对。在分类器之前应用了一套手工制定的硬规则,用于丢弃有明显缺陷的句子。我们探索了不同的策略来实现具有不同词汇和流利句子的训练语料库:语言模型评分、主动学习启发的数据选择算法和n-gram饱和。与其他参与者相比,我们提交的1亿单词训练语料库非常有竞争力。