计算机科学>计算与语言
标题: 机器翻译的范式转换:提高大型语言模型的翻译性能
摘要: 生成性大语言模型(LLM)在各种NLP任务中取得了显著进步。 然而,这些进步并没有反映在翻译任务中,尤其是那些具有中等模型大小(即7B或13B参数)的翻译任务,它们仍然落后于传统的监督编码器-解码器翻译模型。 以往的研究试图提高这些中等水平的语言学习者的翻译能力,但成果有限。 在本研究中,我们提出了一种专门为翻译任务设计的LLM微调方法,消除了传统翻译模型通常依赖的大量并行数据的需要。 我们的方法包括两个微调阶段:对单语数据进行初始微调,然后对少量高质量并行数据进行后续微调。 我们介绍了通过该策略开发的LLM,即基于高级语言模型的trAnslator(ALMA)。 基于LLaMA-2作为我们的底层模型,我们的结果表明,该模型在WMT’21(2个方向)和WMT’22(8个方向)测试数据集的10个平移方向上,相对于其零快照性能,可以平均提高12个BLEU和12个COMET。 该性能明显优于所有先前的工作,甚至优于NLLB-54B模型和GPT-3.5-text-davinci-003,只有7B或13B参数。 该方法为机器翻译中的新型训练范式奠定了基础。