基础知识:注意力受限记忆控制

郝鹏,Jungo Kasai公司,尼古拉斯·帕帕斯,Dani Yogatama公司,吴兆峰,孔玲鹏,罗伊·施瓦茨,诺亚·A·史密斯


摘要
Transformer体系结构在各种自然语言处理(NLP)任务上实现了最先进的结果。然而,他们的注意机制在序列长度上具有二次复杂性,使得计算开销难以承受,特别是对于长序列。注意上下文可以看作是一个随机访问内存,每个令牌占用一个插槽。从这个角度来看,内存大小与序列长度呈线性增长,从中读取的开销也呈线性增长。提高效率的一种方法是限制内存大小。我们表明,不同的方法可以归入一个抽象,即注意力与有界记忆控制(ABC),并且它们在记忆的组织上有所不同。ABC揭示了新的、尚未探索的可能性。首先,它连接了几个在其他情况下看起来很不同的有效注意力变体。其次,这种抽象提供了新的见解——一种以前被认为不适用于因果注意的既定方法(Wang et al.,2020b)。最后,我们提出了一个新的ABC实例,它从现有的ABC方法中获得了灵感,但用一种学习的、,语境化的。我们在语言建模、机器翻译和屏蔽语言模型微调方面的实验表明,我们的方法优于以前的有效注意模型;与强变压器基线相比,它在没有或可以忽略精度损失的情况下显著提高了推理时间和空间效率。
选集ID:
2022.acl长515
体积:
计算语言学协会第60届年会论文集(第一卷:长篇论文)
月份:
五月
年份:
2022
地址:
爱尔兰都柏林
编辑:
斯玛兰达·穆雷桑,普雷斯拉夫·纳科夫,阿琳·维拉维琴西奥
地点:
国际计算语言学协会
SIG公司:
出版商:
计算语言学协会
注:
页:
7469–7483
语言:
网址:
https://aclantology.org/2022.acl-long.515
DOI(操作界面):
10.18653/v1/2022.acl长度515
比比键:
引用(ACL):
郝鹏、Jungo Kasai、Nikolaos Pappas、Dani Yogatama、Zhaofeng Wu、Lingpeng Kong、Roy Schwartz和Noah A.Smith。2022ABC:注意力与有限记忆控制.英寸计算语言学协会第60届年会论文集(第一卷:长篇论文),第7469–7483页,爱尔兰都柏林。计算语言学协会。
引用(非正式):
ABC:注意力与有限记忆控制(Peng等人,ACL 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.acl-long.515.pdf
视频:
 https://aclantology.org/2022.acl-long.515.mp4
数据
胶水RealNews(真实新闻)2014年WMT维基文本-103维基文本-2