用线性单位分散注意力

张彪,伊万·蒂托夫,里科·森里奇


摘要
最近,有人认为,通过将注意力中的softmax函数替换为稀疏变量,可以使编码器-解码器模型更易于解释。在这项工作中,我们介绍了一种新颖、简单的方法来实现注意力稀疏性:我们用ReLU替换softmax激活,并表明稀疏性自然从这样的公式中产生。训练稳定性是通过使用专门的初始化或附加的选通功能进行层规范化来实现的。我们的模型,我们称之为矫正线性注意(ReLA),易于实现,比以前提出的稀疏注意机制更有效。我们将ReLA应用于Transformer,并在五个机器翻译任务上进行了实验。ReLA的翻译性能可与几个强大的基线相媲美,训练和解码速度与普通注意力的速度相似。我们的分析表明,ReLA具有较高的稀疏率和头部多样性,与最近基于稀疏softmax的模型相比,诱导交叉注意在源-目标词对齐方面获得了更好的准确性。有趣的是,ReLA负责人还学会了对一些查询不关心(即“关闭”),这在稀疏的softmax替代方案中是不可能的。
选集ID:
2021.emnlp-main.523
体积:
2021年自然语言处理实证方法会议记录
月份:
十一月
年份:
2021
地址:
多米尼加共和国Online和Punta Cana
编辑:
玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛(Scott Wen-tau Yih)
地点:
EMNLP公司
SIG公司:
发布者:
计算语言学协会
注:
页码:
6507–6520
语言:
网址:
https://aclantology.org/2021.emnlp-main.523
内政部:
10.18653/v1/2021.emnlp-main.523
比比键:
引用(ACL):
张彪(Biao Zhang)、伊万·蒂托夫(Ivan Titov)和里科·森里奇(Rico Sennrich)。2021用线性单位分散注意力.英寸2021年自然语言处理实证方法会议记录,第6507-6520页,在线和多米尼加共和国卡纳角。计算语言学协会。
引用(非正式):
用线性单位分散注意力(Zhang等人,EMNLP 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.emnlp-main.523.pdf
视频:
 https://aclantology.org/2021.emnlp-main.523.mp4网址
代码
bzhangGo/zero+附加社区代码
数据
2014年WMT2016年WMT