的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道
Sadhika Malladi、Tianyu Gao、Eshaan Nichani、Alex Damian、Jason D.Lee、Danqi Chen、Sanjeev Arora
精细调优语言模型(LM)在各种下游任务上取得了成功,但随着LM的规模增长,反向传播需要大量内存。零阶(ZO)方法原则上只能使用两次前向传递来估计梯度,但理论上用于优化大型模型的速度非常慢。在这项工作中,我们提出了一种内存效率高的零寻优器(MeZO),采用经典的ZO-SGD方法进行就地操作,从而以与推理相同的内存占用对LM进行微调。例如,使用单个A100 80GB GPU,MeZO可以训练300亿个参数模型,而使用反向传播进行微调可以训练相同预算的2.7B LM。我们对模型类型(掩蔽和自回归LM)、模型量表(高达66B)和下游任务(分类、多项选择和生成)进行了综合实验。我们的结果表明:(1)MeZO显著优于上下文学习和线性探测;(2) MeZO在多个任务中实现了与反向传播微调相当的性能,在我们的实现中,内存减少了12倍,GPU小时减少了2倍;(3) MeZO兼容全参数和参数效率调优技术,如LoRA和前缀调优;(4) MeZO可以有效地优化不可微目标(例如,最大化准确性或F1)。我们以理论见解支持我们的实证研究结果,强调充分的预培训和任务提示如何使MeZO能够微调大型模型,尽管经典ZO分析另有建议。
在电子诉讼程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。