@进行中{peng-etal-2022-abc,title=“{ABC}:注意力与有限记忆控制”,author=“彭、郝和Kasai、Jungo和帕帕斯、尼古拉斯和Yogatama、Dani和吴兆丰和孔、凌鹏和施瓦茨、罗伊和诺亚·A·史密斯”,editor=“Muresan、Smaranda和纳科夫、普雷斯拉夫和Villavicencio,Aline”,booktitle=“计算语言学协会第60届年会论文集(第一卷:长篇论文)”,月=5月,年=“2022”,address=“爱尔兰都柏林”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.acl-long.515",doi=“10.18653/v1/2022.acl-long.515”,pages=“7469--7483”,abstract=“Transformer体系结构在各种自然语言处理(NLP)上实现了最先进的结果任务。然而,他们的注意机制在序列长度上具有二次复杂性,使得计算开销难以承受,特别是对于长序列。注意上下文可以看作是一个随机访问内存,每个令牌占用一个插槽。从这个角度来看,内存大小与序列长度呈线性增长,从中读取的开销也呈线性增长。提高效率的一种方法是限制内存大小。我们表明,不同的方法可以归入一个抽象,即注意力与有界记忆控制(ABC),并且它们在记忆的组织上有所不同。ABC揭示了新的、尚未探索的可能性。首先,它连接了几个在其他情况下看起来很不同的有效注意力变体。其次,这种抽象提供了新的见解{---}一个先前认为不适用于因果注意的既定方法(Wang等人,2020b)实际上是。最后,我们提出了ABC的一个新实例,它从现有的ABC方法中汲取了灵感,但用一个学习的、情境化的方法取代了它们的启发式记忆组织功能。我们在语言建模、机器翻译和屏蔽语言模型微调方面的实验表明,我们的方法优于以前的有效注意模型;与强变压器基线相比,它在没有或可以忽略精度损失的情况下显著提高了推理时间和空间效率。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“peng-etal-2022-abc”><标题信息>ABC:注意有限记忆控制</titleInfo><name type=“personal”>郝(音译)彭<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>丛林</namePart>卡赛岛<角色>作者</角色></name><name type=“personal”>尼古拉斯帕帕斯<角色>作者</角色></name><name type=“personal”>丹尼尔瑜伽<角色>作者</角色></name><name type=“personal”><namePart type=“given”>兆丰</namePart>吴<角色>作者</角色></name><name type=“personal”>凌鹏<namePart type=“given”>香港<角色>作者</角色></name><name type=“personal”>罗伊施瓦茨<角色>作者</角色></name><name type=“personal”>诺亚<namePart type=“given”>A</namePart>史密斯<角色>作者</角色></name><originInfo>2022-05发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息><title=计算语言学协会第60届年会论文集(第1卷:长篇论文)</title=</titleInfo><name type=“personal”>斯马兰达穆雷桑<角色>编辑器</角色></name><name type=“personal”>普雷斯拉夫纳科夫<角色>编辑器</角色></name><name type=“personal”>Aline(别名)维拉维森西奥<角色>编辑器</角色></name><originInfo>计算语言学协会<地点>爱尔兰都柏林</place></originInfo>会议出版物</relatedItem>Transformer体系结构在各种自然语言处理(NLP)任务上实现了最先进的结果。然而,他们的注意机制在序列长度上具有二次复杂性,使得计算开销难以承受,特别是对于长序列。注意上下文可以看作是一个随机访问内存,每个令牌占用一个插槽。从这个角度来看,内存大小与序列长度呈线性增长,从中读取的开销也呈线性增长。提高效率的一种方法是限制内存大小。我们表明,不同的方法可以归入一个抽象,即注意力与有界记忆控制(ABC),并且它们在记忆的组织上有所不同。ABC揭示了新的、尚未探索的可能性。首先,它连接了几个在其他情况下看起来很不同的有效注意力变体。其次,这种抽象给出了新的见解——一种先前被认为不适用于因果注意的既定方法(Wang等人,2020b)实际上是。最后,我们给出了ABC的一个新实例,它从现有的ABC方法中汲取灵感,但用一种学习的、,语境化的。我们在语言建模、机器翻译和屏蔽语言模型微调方面的实验表明,我们的方法优于以前的有效注意模型;与强变压器基线相比,它在没有或可以忽略精度损失的情况下显著提高了推理时间和空间效率</摘要>peng-etal-2022-abc10.18653/v1/2022.acl-long.515<位置><网址>https://aclantology.org/2022.acl-long.515</url></位置><部分>2022-05年<扩展单元=“page”><开始>7469</开始><end>7483</范围></部分></mods></modsCollection>
%0会议记录%T ABC:注意力与有限记忆控制%阿鹏、郝%A Kasai,Jungo先生%尼古拉斯·帕帕斯%一个瑜伽达人,Dani%阿武、兆丰%A Kong,凌鹏%罗伊·施瓦茨%诺亚·A·史密斯。%Y Muresan,斯马兰达%普雷斯拉夫·纳科夫%Y Villavicencio,阿琳%计算语言学协会第60届年会论文集(第一卷:长篇论文)%2022年4月%5月8日%I计算语言学协会%C都柏林,爱尔兰%F peng-etal-2022-abc公司%X Transformer体系结构在各种自然语言处理(NLP)任务上实现了最先进的结果。然而,他们的注意机制在序列长度上具有二次复杂性,使得计算开销难以承受,特别是对于长序列。注意上下文可以看作是一个随机访问内存,每个令牌占用一个插槽。从这个角度来看,内存大小与序列长度呈线性增长,从中读取的开销也呈线性增长。提高效率的一种方法是限制内存大小。我们表明,不同的方法可以归入一个抽象,即注意力与有界记忆控制(ABC),并且它们在记忆的组织上有所不同。ABC揭示了新的、尚未探索的可能性。首先,它连接了几个在其他情况下看起来很不同的有效注意力变体。其次,这种抽象给出了新的见解——一种先前被认为不适用于因果注意的既定方法(Wang等人,2020b)实际上是。最后,我们给出了ABC的一个新实例,它从现有的ABC方法中汲取灵感,但用一种学习的、,语境化的。我们在语言建模、机器翻译和屏蔽语言模型微调方面的实验表明,我们的方法优于以前的有效注意模型;与强变压器基线相比,它在没有或可以忽略精度损失的情况下显著提高了推理时间和空间效率。%R 10.18653/v1/2022.acl长515%U型https://aclantology.org/2022.acl-long.515%U型https://doi.org/10.18653/v1/2022.acl-long.515%电话:7469-7483
降价(非正式)
[ABC:注意力与有限记忆控制](https://aclantology.org/2022.acl-long.515)(Peng等人,ACL 2022)
国际计算语言学协会
- Hao Peng、Jungo Kasai、Nikolaos Pappas、Dani Yogatama、Zhaofeng Wu、Lingpeng Kong、Roy Schwartz和Noah A.Smith。2022ABC:注意力与有限记忆控制.英寸计算语言学协会第60届年会论文集(第一卷:长篇论文),第7469–7483页,爱尔兰都柏林。计算语言学协会。