Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

Xia, Mengzhou; Gao, Tianyu; Zeng, Zhiyuan; Chen, Danqi

计算机科学>计算与语言

arXiv公司：2310.06694（cs）

【于2023年10月10日提交(第1版)，上次修订日期：2024年4月11日（本版本，v2）]

标题：剪切LLaMA：通过结构化剪枝加速语言模型预训练

作者：蒙州夏,天宇高,曾志远（Zhiyuan Zeng）,陈丹琪

查看PDF HTML（实验性）

摘要：LLaMA（Touvron et al.，2023a；b）和其他最近出现的中等规模的大型语言模型（LLM）的流行凸显了构建更小但功能强大的LLM的潜力。无论如何，用数万亿代币从头开始培训这些模型的成本仍然很高。在这项工作中，我们研究了结构化修剪作为一种有效的方法，以从预先训练的较大模型中开发较小的LLM。我们的方法采用了两项关键技术：（1）有针对性的结构化修剪，通过端到端的方式删除层、头部、中间和隐藏维度，将较大的模型修剪成指定的目标形状；（2）动态批加载，它基于不同域的不同损失动态更新每个训练批中采样数据的组成。我们通过展示Sheard-LLaMA系列，将LLaMA2-7B模型缩减为1.3B和2.7B参数，证明了我们方法的有效性。剪切LLaMA模型在广泛的下游和指令调优评估中优于同等规模的最先进的开源模型，如Pythia、INCITE、OpenLLaMA和并发TinyLlama模型，而与从头开始训练此类模型相比，只需要3%的计算。这项工作提供了令人信服的证据，证明利用现有LLM进行结构化修剪是构建具有竞争力的小型LLM的一种成本效益更高的方法

评论：	代码和模型可在此https URL
学科：	计算与语言（cs.CL）; 人工智能；机器学习（cs.LG）
引用为：	arXiv公司：2310.06694【cs.CL】
	（或 arXiv:2310.06694v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2310.06694

提交历史记录

发件人：蒙州夏[查看电子邮件]
[第1版]2023年10月10日星期二15:13:30 UTC（5869 KB）
[版本2]2024年4月11日星期四01:18:06 UTC（6412 KB）

计算机科学>计算与语言

标题：剪切LLaMA：通过结构化剪枝加速语言模型预训练

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：剪切LLaMA：通过结构化剪枝加速语言模型预训练

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目