Scaling Instruction-Finetuned Language Models

Hyung Won Chung; Le Hou; Shayne Longpre; Barret Zoph; Yi Tay; William Fedus; Yunxuan Li; Xuezhi Wang; Mostafa Dehghani; Siddhartha Brahma; Albert Webson; Shixiang Shane Gu; Zhuyun Dai; Mirac Suzgun; Xinyun Chen; Aakanksha Chowdhery; Alex Castro-Ros; Marie Pellat; Kevin Robinson; Dasha Valter; Sharan Narang; Gaurav Mishra; Adams Yu; Vincent Zhao; Yanping Huang; Andrew Dai; Hongkun Yu; Slav Petrov; Ed H. Chi; Jeff Dean; Jacob Devlin; Adam Roberts; Denny Zhou; Quoc V. Le; Jason Wei

缩放教学-微调语言模型

Hyung Won Chung、Le Hou、Shayne Longpre、Barret Zoph、Yi Tay、William Fedus、Yunxuan Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shixiang Shane Gu、Zhuyun Dai、Mirac Suzgun、Xinun Chen、Aakansha Chowdhery、Alex Castro-Ros、Marie Pellat、Kevin Robinson、Dasha Valter、Sharan Narang、Gaurav Mishra、Adams Yu、Vince，黄燕萍、戴安杰、于洪坤、斯拉夫·彼得罗夫、埃德·池文浩、杰夫·迪恩、雅各布·德夫林、亚当·罗伯茨、周丹尼、郭文乐、杰森·韦; 25(70):1−53, 2024.

摘要

对一组以指令形式表示的数据集进行语言模型微调，可以提高模型性能和对看不见任务的泛化能力。在本文中，我们探讨了指令微调，特别关注（1）调整任务数量，（2）调整模型大小，以及（3）调整思想链数据。我们发现，使用上述方面进行的指令微调可以显著提高各种模型类（PaLM、T5、U-PaLM）的性能，并提示设置（零快照、少快照、CoT）和评估基准（MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts）。例如，在1.8K任务中，Flan-PaLM 540B指令集的性能大大优于PaLM 540 B（平均+9.4%）。Flan-PaLM 540B在几个基准（发布时）上实现了最先进的性能，例如在五次MMLU上达到了75.2%。我们还公开发布了Flan-T5检查点，1即使与更大的机型（如PaLM 62B）相比，该检查点也能实现强大的快照性能。总的来说，指令微调是提高预处理语言模型的性能和可用性的一种通用方法。