计算机科学>计算与语言
标题: 剪切LLaMA:通过结构化剪枝加速语言模型预训练
摘要: LLaMA(Touvron et al.,2023a;b)和其他最近出现的中等规模的大型语言模型(LLM)的流行凸显了构建更小但功能强大的LLM的潜力。 无论如何,用数万亿代币从头开始培训这些模型的成本仍然很高。 在这项工作中,我们研究了结构化修剪作为一种有效的方法,以从预先训练的较大模型中开发较小的LLM。 我们的方法采用了两项关键技术:(1)有针对性的结构化修剪,通过端到端的方式删除层、头部、中间和隐藏维度,将较大的模型修剪成指定的目标形状;(2)动态批加载, 它基于不同域的不同损失动态更新每个训练批中采样数据的组成。 我们通过展示Sheard-LLaMA系列,将LLaMA2-7B模型缩减为1.3B和2.7B参数,证明了我们方法的有效性。 剪切LLaMA模型在广泛的下游和指令调优评估中优于同等规模的最先进的开源模型,如Pythia、INCITE、OpenLLaMA和并发TinyLlama模型,而与从头开始训练此类模型相比,只需要3%的计算。 这项工作提供了令人信服的证据,证明利用现有LLM进行结构化修剪是构建具有竞争力的小型LLM的一种成本效益更高的方法