计算机科学>计算与语言
标题: 单语数据何时有助于多语翻译:领域和模型尺度的作用
摘要: 基于并行数据和单语数据混合训练的多语言机器翻译(MMT)是改进低资源语言对翻译的关键。 然而,对于包含单语数据的不同方法的性能,文献提供了相互矛盾的结果。 为了解决这个问题,我们研究了在不同的数据条件和模型尺度下,去噪自动编码(DAE)和反翻译(BT)如何影响MMT。 与之前的研究不同,我们使用了一个包含100个翻译方向的真实数据集,并考虑了单语和测试数据的许多领域组合。 我们发现单语数据通常有助于MMT,但模型对领域失配的脆弱性令人惊讶,尤其是在较小的模型尺度下。 当并行、单语和测试数据源相似时,BT是有益的,但在其他方面可能是有害的,而DAE则不如以前报告的有效。 接下来,我们分析了规模的影响(从90M到1.6B的参数),发现这对两种方法都很重要,尤其是DAE。 随着规模的增加,DAE从性能不佳的90M并行基线过渡到与BT性能趋同的1.6B,甚至在低资源方面超过它。 这些结果为如何在MMT中最佳使用单语数据提供了新的见解。