计算机科学>机器学习
标题: ReLU$^2$Wins:发现稀疏LLM的有效激活函数
摘要: 稀疏计算通过动态跳过非活动神经元的计算,为低资源场景中的大型语言模型(LLM)推理提供了一个引人注目的解决方案。 虽然传统方法侧重于基于ReLU的LLM,利用激活值中的零,但我们将稀疏LLM的范围扩展到零激活值之外。 我们介绍了一种通过神经元输出幅值和定制的幅值阈值定义神经元激活的通用方法,证明了非ReLU LLM也表现出稀疏激活。 为了找到最有效的稀疏计算激活函数,我们提出了一个系统框架,从三个方面检查LLM的稀疏性:稀疏性与性能之间的权衡、稀疏性的预测性和硬件亲和力。 我们利用不同的激活函数,包括ReLU、SwiGLU、ReGLU和ReLU$^2$,对LLM进行了彻底的实验。 结果表明,采用ReLU$^2$的模型在所有三个评估方面都表现出色,突出了其作为稀疏LLM有效激活函数的潜力。 我们将发布代码以便于将来的研究。