A Novel Paradigm Boosting Translation Capabilities of Large Language Models

Guo, Jiaxin; Yang, Hao; Li, Zongyao; Wei, Daimeng; Shang, Hengchao; Chen, Xiaoyu

计算机科学>计算与语言

arXiv公司：2403.11430（cs）

【于2024年3月18日提交(第1版)，最后修订日期：2024年4月15日（本版本，v2）]

标题：提高大型语言模型翻译能力的新范式

作者：郭嘉欣,郝阳,李宗耀,戴梦伟,亨朝商,陈晓宇（Xiaoyu Chen）

查看PDF HTML（实验性）

摘要：本文研究了在机器翻译（MT）任务背景下提高大型语言模型（LLM）翻译能力的策略。本文提出了一种新的模式，包括三个阶段：使用广泛的单语数据进行二次预训练，使用线性文本格式文档进行连续预训练，以及利用源语言一致性指令进行监督微调。先前对LLM的研究集中在监督微调（SFT）的各种策略上，但其有效性有限。虽然传统的机器翻译方法依赖于大量并行双语数据，但我们的范式强调了使用较小的高质量双语数据集的重要性。我们认为，重点应该放在在预培训期间增强LLM的跨语言对齐能力，而不是仅仅依赖SFT期间的大量双语数据。使用Llama2模型进行的实验结果，特别是在单语增强后的汉语Llama1上，证明了LLM的翻译能力得到了提高。我们的方法的一个重要贡献在于第2阶段：用行间文本格式文档进行连续预训练，这需要少于1B个训练数据，使我们的方法高效。此外，在第3阶段中，我们发现设置与源语言一致的指令有助于监督微调过程。实验结果表明，与NLLB-54B和GPT3.5-text-davinci-003等模型相比，尽管我们的方法的参数数仅为7B或13B，但我们的方法优于以前的工作，并取得了优异的性能。这一成就确立了我们在机器翻译领域的开创性策略。

评论：	NAACL 2024中接受
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2403.11430【cs.CL】
	（或 arXiv:2403.11430v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2403.11430

提交历史记录

发件人：郭嘉欣[查看电子邮件]
[第1版]2024年3月18日星期一02:53:49 UTC（272 KB）
[版本2]2024年4月15日星期一06:34:04 UTC（272 KB）

计算机科学>计算与语言

标题：提高大型语言模型翻译能力的新范式

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：提高大型语言模型翻译能力的新范式

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目