计算机科学>机器学习
职务: 稀疏MeZO:零阶LLM精细调整中使用较少的参数可以获得更好的性能
摘要: 虽然针对特定任务微调大型语言模型(LLM)通常会产生令人印象深刻的结果,但这是以基于梯度的训练中的反向传播导致内存效率低下为代价的。 最近为解决这一问题而提出的内存高效零阶(MeZO)优化器只需要在训练过程中向前传球,使其对内存更友好。 然而,零阶优化中梯度估计的质量通常取决于数据维度,这可能解释了为什么MeZO与各种任务的标准微调相比仍然表现出显著的性能下降。 受参数高效微调(PEFT)成功的启发,本文介绍了稀疏MeZO,这是一种新的节省内存的零阶优化方法,它只适用于精心选择的参数子集。 我们提出了一种简单而有效的参数选择方案,使用Sparse-MeZO可以显著提高性能。 此外,我们开发了一种用于稀疏掩蔽的内存优化实现,确保该算法只需要推理级内存消耗,允许sparse MeZO在单个A100 GPU上微调LLaMA-30b。 实验结果表明,Sparse-MeZO与MeZO相比,在没有任何开销的情况下,性能和收敛速度都得到了一致的提高。 例如,在RTE任务中,它比MeZO实现了9%的绝对精度改进和3.5倍的加速。