When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale

Baziotis, Christos; Zhang, Biao; Birch, Alexandra; Haddow, Barry

计算机科学>计算与语言

arXiv公司：2305.14124（cs）

【提交日期：2023年5月23日(第1版)，最新修订日期：2024年3月30日（本版本，第3版）]

标题：单语数据何时有助于多语翻译：领域和模型尺度的作用

作者：克里斯托斯·巴齐奥蒂斯,张彪,亚历山大·伯奇,巴里·哈多

查看PDF HTML（实验性）

摘要：基于并行数据和单语数据混合训练的多语言机器翻译（MMT）是改进低资源语言对翻译的关键。然而，对于包含单语数据的不同方法的性能，文献提供了相互矛盾的结果。为了解决这个问题，我们研究了在不同的数据条件和模型尺度下，去噪自动编码（DAE）和反翻译（BT）如何影响MMT。与之前的研究不同，我们使用了一个包含100个翻译方向的真实数据集，并考虑了单语和测试数据的许多领域组合。我们发现单语数据通常有助于MMT，但模型对领域失配的脆弱性令人惊讶，尤其是在较小的模型尺度下。当并行、单语和测试数据源相似时，BT是有益的，但在其他方面可能是有害的，而DAE则不如以前报告的有效。接下来，我们分析了规模的影响（从90M到1.6B的参数），发现这对两种方法都很重要，尤其是DAE。随着规模的增加，DAE从性能不佳的90M并行基线过渡到与BT性能趋同的1.6B，甚至在低资源方面超过它。这些结果为如何在MMT中最佳使用单语数据提供了新的见解。

评论：	接受NAACL 2024（主要会议）
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2305.14124【cs.CL】
	（或 arXiv:2305.14124v3【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2305.14124

提交历史记录

发件人：Christos Baziotis[查看电子邮件]
[第1版]2023年5月23日星期二14:48:42 UTC（1795 KB）
[版本2]2023年10月18日星期三09:17:37 UTC（4924 KB）
[v3]2024年3月30日星期六08:49:04 UTC（4924 KB）

计算机科学>计算与语言

标题：单语数据何时有助于多语翻译：领域和模型尺度的作用

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：单语数据何时有助于多语翻译：领域和模型尺度的作用

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目