计算机科学>计算与语言
标题: 提高大型语言模型翻译能力的新范式
摘要: 本文研究了在机器翻译(MT)任务背景下提高大型语言模型(LLM)翻译能力的策略。 本文提出了一种新的模式,包括三个阶段:使用广泛的单语数据进行二次预训练,使用线性文本格式文档进行连续预训练,以及利用源语言一致性指令进行监督微调。 先前对LLM的研究集中在监督微调(SFT)的各种策略上,但其有效性有限。 虽然传统的机器翻译方法依赖于大量并行双语数据,但我们的范式强调了使用较小的高质量双语数据集的重要性。 我们认为,重点应该放在在预培训期间增强LLM的跨语言对齐能力,而不是仅仅依赖SFT期间的大量双语数据。 使用Llama2模型进行的实验结果,特别是在单语增强后的汉语Llama1上,证明了LLM的翻译能力得到了提高。 我们的方法的一个重要贡献在于第2阶段:用行间文本格式文档进行连续预训练,这需要少于1B个训练数据,使我们的方法高效。 此外,在第3阶段中,我们发现设置与源语言一致的指令有助于监督微调过程。 实验结果表明,与NLLB-54B和GPT3.5-text-davinci-003等模型相比,尽管我们的方法的参数数仅为7B或13B,但我们的方法优于以前的工作,并取得了优异的性能。 这一成就确立了我们在机器翻译领域的开创性策略。