ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

Zhang, Zhengyan; Song, Yixin; Yu, Guanghui; Han, Xu; Lin, Yankai; Xiao, Chaojun; Song, Chenyang; Liu, Zhiyuan; Mi, Zeyu; Sun, Maosong

计算机科学>机器学习

arXiv公司：2402.03804（cs）

【于2024年2月6日提交】

标题：ReLU$^2$Wins：发现稀疏LLM的有效激活函数

作者：张正燕,宋一新,余广辉（Guanghui Yu）,徐涵,林彦凯,肖超军,宋晨阳,刘志远,泽玉弥,孙茂松

查看PDF

摘要：稀疏计算通过动态跳过非活动神经元的计算，为低资源场景中的大型语言模型（LLM）推理提供了一个引人注目的解决方案。虽然传统方法侧重于基于ReLU的LLM，利用激活值中的零，但我们将稀疏LLM的范围扩展到零激活值之外。我们介绍了一种通过神经元输出幅值和定制的幅值阈值定义神经元激活的通用方法，证明了非ReLU LLM也表现出稀疏激活。为了找到最有效的稀疏计算激活函数，我们提出了一个系统框架，从三个方面检查LLM的稀疏性：稀疏性与性能之间的权衡、稀疏性的预测性和硬件亲和力。我们利用不同的激活函数，包括ReLU、SwiGLU、ReGLU和ReLU$^2$，对LLM进行了彻底的实验。结果表明，采用ReLU$^2$的模型在所有三个评估方面都表现出色，突出了其作为稀疏LLM有效激活函数的潜力。我们将发布代码以便于将来的研究。

学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv公司：2402.03804【cs.LG】
	（或 arXiv:2402.03804v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2402.03804

提交历史记录

发件人：Zhengyan Zhang[查看电子邮件]
[第1版]2024年2月6日星期二08:45:51 UTC（1595 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。LG公司

<上一版本 | 下一个>

新的 | 最近的 |2024-02

更改为浏览方式：

反恐精英
反恐精英。人工智能

参考文献和引文

导出BibTeX引文

计算机科学>机器学习

标题：ReLU$^2$Wins：发现稀疏LLM的有效激活函数

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：ReLU$^2$Wins：发现稀疏LLM的有效激活函数

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目