Cuttlefish: Low-Rank Model Training without All the Tuning

Wang, Hongyi; Agarwal, Saurabh; U-chupala, Pongsakorn; Tanaka, Yoshiki; Xing, Eric P.; Papailiopoulos, Dimitris

计算机科学>机器学习

arXiv公司：2305.02538（cs）

【于2023年5月4日提交(第1版)，上次修订于2023年5月5日（本版本，v2）]

标题：墨鱼：无需调整的低水位模型训练

作者：王宏毅,索拉巴·阿加瓦尔,蓬萨科恩U-chupala,田中吉崎,埃里克·P·星,木瓜Dimitris Papailiopoulos

查看PDF

摘要：最近的研究表明，训练低阶神经网络可以有效地减少可训练参数的总数，而不会牺牲预测精度，从而实现端到端的加速。然而，低秩模型训练需要调整几个额外的因子分解超参数，例如每层因子分解的秩。在本文中，我们通过引入墨鱼（Cuttlefish）来应对这一挑战，墨鱼是一种自动化的低阶训练方法，无需调整因子分解超参数。乌贼利用这一观察结果，即经过数个时期的全面训练后，每层的稳定等级（即真实等级的近似值）稳定在一个恒定值。一旦所有层的稳定秩收敛，乌贼就会从全秩训练切换到低秩训练，从而将每个因子分解的维数设置为其相应的稳定性秩。我们的结果表明，墨鱼生成的模型比全秩模型小5.6倍，端到端训练过程快1.2倍，同时保持相当的准确性。此外，墨鱼的表现优于最先进的低阶模型训练方法和其他显著基线。我们实现的源代码可以在以下位置找到：此https URL.

评论：	接受MLSys 2023演示
学科：	机器学习（cs.LG）
引用为：	arXiv:2305.02538【cs.LG】
	（或 arXiv:2305.02538v2【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2305.02538

提交历史记录

发件人：王宏毅[查看电子邮件]
[第1版]2023年5月4日星期四04:20:20 UTC（1530 KB）
[版本2]2023年5月5日星期五16:18:28 UTC（1530 KB）

计算机科学>机器学习

标题：墨鱼：无需调整的低水位模型训练

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：墨鱼：无需调整的低水位模型训练

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目