具有正向传递的微调语言模型

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Biptex公司 纸类 补充

作者

Sadhika Malladi、Tianyu Gao、Eshaan Nichani、Alex Damian、Jason D.Lee、Danqi Chen、Sanjeev Arora

摘要

精细调优语言模型(LM)在各种下游任务上取得了成功,但随着LM的规模增长,反向传播需要大量内存。零阶(ZO)方法原则上只能使用两次前向传递来估计梯度,但理论上用于优化大型模型的速度非常慢。在这项工作中,我们提出了一种内存效率高的零寻优器(MeZO),采用经典的ZO-SGD方法进行就地操作,从而以与推理相同的内存占用对LM进行微调。例如,使用单个A100 80GB GPU,MeZO可以训练300亿个参数模型,而使用反向传播进行微调可以训练相同预算的2.7B LM。我们对模型类型(掩蔽和自回归LM)、模型量表(高达66B)和下游任务(分类、多项选择和生成)进行了综合实验。我们的结果表明:(1)MeZO显著优于上下文学习和线性探测;(2) MeZO在多个任务中实现了与反向传播微调相当的性能,在我们的实现中,内存减少了12倍,GPU小时减少了2倍;(3) MeZO兼容全参数和参数效率调优技术,如LoRA和前缀调优;(4) MeZO可以有效地优化不可微目标(例如,最大化准确性或F1)。我们以理论见解支持我们的实证研究结果,强调充分的预培训和任务提示如何使MeZO能够微调大型模型,尽管经典ZO分析另有建议。