Beyond English-Centric Multilingual Machine Translation

Angela Fan; Shruti Bhosale; Holger Schwenk; Zhiyi Ma; Ahmed El-Kishky; Siddharth Goyal; Mandeep Baines; Onur Celebi; Guillaume Wenzek; Vishrav Chaudhary; Naman Goyal; Tom Birch; Vitaliy Liptchinsky; Sergey Edunov; Michael Auli; Armand Joulin

现有的翻译工作通过训练能够在任何一对语言之间进行翻译的单一模型，证明了大规模多语言机器翻译的潜力。然而，这项工作大多以英语为中心，只对翻译成英语的数据进行培训。虽然这得到了大量培训数据来源的支持，但它并没有反映世界各地的翻译需求。在这项工作中，我们创建了一个真正的多对多多语言翻译模型，可以在任意一对100种语言之间直接翻译。我们构建并开源了一个训练数据集，该数据集使用大规模挖掘创建的并行数据覆盖数千个语言方向。然后，我们探索如何通过结合密集缩放和特定于语言的稀疏参数来有效地增加模型容量，以创建高质量的模型。我们专注于非英语中心模式，在直接在非英语方向之间进行翻译的同时，在机器翻译研讨会（WMT）上竞争性地使用最佳单个系统时，可获得超过10个BLEU的收益。我们开源了我们的脚本，以便其他人可以复制数据、评估和最终的M2M-100模型。

超越以英语为中心的多语言机器翻译

摘要