Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning

Liu, Yong; Zhu, Zirui; Gong, Chaoyu; Cheng, Minhao; Hsieh, Cho-Jui; You, Yang

计算机科学>机器学习

arXiv公司：2402.15751（cs）

【于2024年2月24日提交】

职务：稀疏MeZO：零阶LLM精细调整中使用较少的参数可以获得更好的性能

作者：刘勇（音）,朱子瑞,朝玉宫,程敏浩,谢秋菊,杨友

查看PDF HTML（实验性）

摘要：虽然针对特定任务微调大型语言模型（LLM）通常会产生令人印象深刻的结果，但这是以基于梯度的训练中的反向传播导致内存效率低下为代价的。最近为解决这一问题而提出的内存高效零阶（MeZO）优化器只需要在训练过程中向前传球，使其对内存更友好。然而，零阶优化中梯度估计的质量通常取决于数据维度，这可能解释了为什么MeZO与各种任务的标准微调相比仍然表现出显著的性能下降。受参数高效微调（PEFT）成功的启发，本文介绍了稀疏MeZO，这是一种新的节省内存的零阶优化方法，它只适用于精心选择的参数子集。我们提出了一种简单而有效的参数选择方案，使用Sparse-MeZO可以显著提高性能。此外，我们开发了一种用于稀疏掩蔽的内存优化实现，确保该算法只需要推理级内存消耗，允许sparse MeZO在单个A100 GPU上微调LLaMA-30b。实验结果表明，Sparse-MeZO与MeZO相比，在没有任何开销的情况下，性能和收敛速度都得到了一致的提高。例如，在RTE任务中，它比MeZO实现了9%的绝对精度改进和3.5倍的加速。

学科：	机器学习（cs.LG）; 人工智能；计算与语言（cs.CL）
引用为：	arXiv公司：2402.15751【cs.LG】
	（或 arXiv:2402.15751v1型【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2402.15751

提交历史记录

发件人：刘勇[查看电子邮件]
[第1版]2024年2月24日星期六07:22:04 UTC（449 KB）

计算机科学>机器学习

职务：稀疏MeZO：零阶LLM精细调整中使用较少的参数可以获得更好的性能

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：稀疏MeZO：零阶LLM精细调整中使用较少的参数可以获得更好的性能

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目