A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

Xu, Haoran; Kim, Young Jin; Sharaf, Amr; Awadalla, Hany Hassan

计算机科学>计算与语言

arXiv:2309.11674（cs）

【2023年9月20日提交(第1版)，上次修订日期：2024年2月6日（此版本，v2）]

标题：机器翻译的范式转换：提高大型语言模型的翻译性能

作者：徐浩然,小金,阿姆尔·沙拉夫,哈尼·哈桑·阿瓦达拉

查看PDF

摘要：生成性大语言模型（LLM）在各种NLP任务中取得了显著进步。然而，这些进步并没有反映在翻译任务中，尤其是那些具有中等模型大小（即7B或13B参数）的翻译任务，它们仍然落后于传统的监督编码器-解码器翻译模型。以往的研究试图提高这些中等水平的语言学习者的翻译能力，但成果有限。在本研究中，我们提出了一种专门为翻译任务设计的LLM微调方法，消除了传统翻译模型通常依赖的大量并行数据的需要。我们的方法包括两个微调阶段：对单语数据进行初始微调，然后对少量高质量并行数据进行后续微调。我们介绍了通过该策略开发的LLM，即基于高级语言模型的trAnslator（ALMA）。基于LLaMA-2作为我们的底层模型，我们的结果表明，该模型在WMT’21（2个方向）和WMT’22（8个方向）测试数据集的10个平移方向上，相对于其零快照性能，可以平均提高12个BLEU和12个COMET。该性能明显优于所有先前的工作，甚至优于NLLB-54B模型和GPT-3.5-text-davinci-003，只有7B或13B参数。该方法为机器翻译中的新型训练范式奠定了基础。

评论：	ICLR 2024验收
学科：	计算与语言（cs.CL）
引用为：	arXiv:2309.11674【cs.CL】
	（或 arXiv:2309.11674v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2309.11674

提交历史记录

发件人：徐浩然[查看电子邮件]
[第1版]2023年9月20日星期三22:53:15 UTC（325 KB）
[版本2]2024年2月6日星期二08:03:27 UTC（326 KB）

计算机科学>计算与语言

标题：机器翻译的范式转换：提高大型语言模型的翻译性能

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：机器翻译的范式转换：提高大型语言模型的翻译性能

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目