计算机科学>机器学习
职务: Paramixer:参数化稀疏因子中的混合链接比点产品自我关注效果更好
摘要: 自我注意是神经建模中广泛使用的构建块,用于混合远程数据元素。 大多数自我注意神经网络使用成对的点产品来指定注意系数。 然而,这些方法需要$O(N^2)$计算序列长度$N$的成本。 尽管已经引入了一些近似方法来降低二次成本,但注意矩阵分解中的低秩约束仍然限制了点产品方法的性能。 在本文中,我们提出了一种新的可扩展且有效的混合构建块,称为Paramixer。 我们的方法将交互矩阵分解为几个稀疏矩阵,其中我们以数据元素为输入,通过MLP对非零条目进行参数化。 新构建块的总体计算成本低至$O(N\log N)$。 此外,Paramixer中的所有因子分解矩阵都是满秩的,因此它不存在低秩瓶颈。 我们在合成数据集和各种真实世界的长序列数据集上测试了新方法,并将其与几种最先进的注意力网络进行了比较。 实验结果表明,Paramixer在大多数学习任务中具有更好的性能。