Paramixer: Parameterizing Mixing Links in Sparse Factors Works Better than Dot-Product Self-Attention

Yu, Tong; Khalitov, Ruslan; Cheng, Lei; Yang, Zhirong

计算机科学>机器学习

arXiv:2204.10670（cs）

【于2022年4月22日提交】

职务：Paramixer：参数化稀疏因子中的混合链接比点产品自我关注效果更好

作者：童羽,鲁斯兰·哈利托夫,雷成,杨志荣

查看PDF

摘要：自我注意是神经建模中广泛使用的构建块，用于混合远程数据元素。大多数自我注意神经网络使用成对的点产品来指定注意系数。然而，这些方法需要$O（N^2）$计算序列长度$N$的成本。尽管已经引入了一些近似方法来降低二次成本，但注意矩阵分解中的低秩约束仍然限制了点产品方法的性能。在本文中，我们提出了一种新的可扩展且有效的混合构建块，称为Paramixer。我们的方法将交互矩阵分解为几个稀疏矩阵，其中我们以数据元素为输入，通过MLP对非零条目进行参数化。新构建块的总体计算成本低至$O（N\log N）$。此外，Paramixer中的所有因子分解矩阵都是满秩的，因此它不存在低秩瓶颈。我们在合成数据集和各种真实世界的长序列数据集上测试了新方法，并将其与几种最先进的注意力网络进行了比较。实验结果表明，Paramixer在大多数学习任务中具有更好的性能。

评论：	10页，5图，CVPR2022接受
学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv:2204.10670【cs.LG】
	（或 arXiv：2204.10670v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2204.10670

提交历史记录

发件人：童余[查看电子邮件]
[第1版]2022年4月22日星期五12:35:08 UTC（235 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。LG公司

<上一版本 | 下一个>

新的 | 最近的 |2022-04

更改为浏览方式：

反恐精英
反恐精英。人工智能

参考文献和引文

导出BibTeX引文

计算机科学>机器学习

职务：Paramixer：参数化稀疏因子中的混合链接比点产品自我关注效果更好

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：Paramixer：参数化稀疏因子中的混合链接比点产品自我关注效果更好

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目