Fine-Tuning Language Models with Just Forward Passes

Malladi, Sadhika; Gao, Tianyu; Nichani, Eshaan; Damian, Alex; Lee, Jason D.; Chen, Danqi; Arora, Sanjeev

具有正向传递的微调语言模型

的一部分神经信息处理系统进展36（NeurIPS 2023）主要会议轨道

Biptex公司纸类补充

作者

Sadhika Malladi、Tianyu Gao、Eshaan Nichani、Alex Damian、Jason D.Lee、Danqi Chen、Sanjeev Arora

摘要

精细调优语言模型（LM）在各种下游任务上取得了成功，但随着LM的规模增长，反向传播需要大量内存。零阶（ZO）方法原则上只能使用两次前向传递来估计梯度，但理论上用于优化大型模型的速度非常慢。在这项工作中，我们提出了一种内存效率高的零寻优器（MeZO），采用经典的ZO-SGD方法进行就地操作，从而以与推理相同的内存占用对LM进行微调。例如，使用单个A100 80GB GPU，MeZO可以训练300亿个参数模型，而使用反向传播进行微调可以训练相同预算的2.7B LM。我们对模型类型（掩蔽和自回归LM）、模型量表（高达66B）和下游任务（分类、多项选择和生成）进行了综合实验。我们的结果表明：（1）MeZO显著优于上下文学习和线性探测；（2） MeZO在多个任务中实现了与反向传播微调相当的性能，在我们的实现中，内存减少了12倍，GPU小时减少了2倍；（3） MeZO兼容全参数和参数效率调优技术，如LoRA和前缀调优；（4） MeZO可以有效地优化不可微目标（例如，最大化准确性或F1）。我们以理论见解支持我们的实证研究结果，强调充分的预培训和任务提示如何使MeZO能够微调大型模型，尽管经典ZO分析另有建议。

具有正向传递的微调语言模型

作者

摘要

名称更改策略