@进行中{zhang-etal-2021-稀疏,title=“用线性单位分散注意力”,author=“张彪蒂托夫、伊凡和里科·森里奇“,editor=“Moens、Marie-Francine和黄、玄静和Specia、Lucia和Yeh,Scott Wen-tau“,booktitle=“2021年自然语言处理实证方法会议记录”,月=11月,年=“2021”,address=“多米尼加共和国Online和Punta Cana”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.emnlp-main.523”,doi=“10.18653/v1/2021.emnlp main.523”,页码=“6507-6520”,抽象=“最近,有人认为,通过将注意力中的softmax函数替换为其稀疏变量,可以使编码器-解码器模型更易于解释。在这项工作中,我们介绍了一种新颖、简单的方法来实现注意力稀疏性:我们用ReLU替换softmax激活,并表明稀疏性自然从such a配方。训练稳定性是通过使用专门的初始化或附加的选通功能进行层规范化来实现的。我们的模型,我们称之为矫正线性注意(ReLA),易于实现,比以前提出的稀疏注意机制更有效。我们将ReLA应用于Transformer,并在五个机器翻译任务上进行了实验。ReLA的翻译性能可与几个强大的基线相媲美,训练和解码速度与普通注意力的速度相似。我们的分析表明,与最近的基于稀疏softmax的模型相比,ReLA提供了高稀疏率和头部分集,并且诱导的交叉注意力在源-目标词对齐方面实现了更好的准确性。有趣的是,ReLA负责人还学会了对某些查询不做任何事(即{`}关闭{'}),这在稀疏的softmax选项中是不可能的。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“zhang-etal-2021-sparse”><标题信息><title>用线性单位分散注意力</titleInfo><name type=“personal”><namePart type=“given”>彪<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>伊凡蒂托夫<角色>作者</角色></name><name type=“personal”>Rico(Rico)Sennrich<角色>作者</角色></name><原始信息>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2021年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>玛丽·弗朗辛莫恩斯<角色>编辑器</角色></name><name type=“personal”>轩辕<namePart type=“given”>黄<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”>斯科特文涛<namePart type=“given”>文涛</namePart>Yih(Yih)<角色>编辑器</角色></name><原始信息>计算语言学协会<位置>在线和多米尼加共和国卡纳角</place></originInfo>会议出版物</relatedItem>最近,有人认为,通过将注意力中的softmax函数替换为稀疏变量,可以使编码器-解码器模型更易于解释。在这项工作中,我们介绍了一种新颖、简单的方法来实现注意力稀疏性:我们用ReLU替换softmax激活,并表明稀疏性自然从这样的公式中产生。训练稳定性是通过使用专门的初始化或附加的选通功能进行层规范化来实现的。我们的模型,我们称之为矫正线性注意(ReLA),易于实现,比以前提出的稀疏注意机制更有效。我们将ReLA应用于Transformer,并在五个机器翻译任务上进行了实验。ReLA的翻译性能可与几个强大的基线相媲美,训练和解码速度与普通注意力的速度相似。我们的分析表明,ReLA具有较高的稀疏率和头部多样性,与最近基于稀疏softmax的模型相比,诱导交叉注意在源-目标词对齐方面获得了更好的准确性。有趣的是,ReLA负责人还学会了对某些查询不做任何事(即“关闭”),这在稀疏的softmax选项中是不可能的</摘要>zhang-etal-2021-sparse10.18653/v1/2021.emnlp-main.523<位置><网址>https://aclantology.org/2021.emnlp-main.523</url></位置><部分>2021-11年<扩展单元=“page”><开始>6507</开始><end>6520</end></范围></部分></mods></modsCollection>
%0会议记录%线性单位的T稀疏注意%张彪%伊凡·蒂托夫%A Sennrich,里科%玛丽·弗朗辛·Y·莫恩斯%Y Huang,宣景%露西娅·Y·斯佩西亚%Y Yih,Scott Wen tau%2021年自然语言处理实证方法会议论文集%D 2021年%11月8日%计算语言学协会%C Online和Punta Cana,多米尼加共和国%F zhang-etal-2021-稀疏%最近,有人认为,通过用稀疏变量替换注意力中的softmax函数,可以使编码器-解码器模型更容易解释。在这项工作中,我们介绍了一种新颖、简单的方法来实现注意力稀疏性:我们用ReLU替换softmax激活,并表明稀疏性自然从这样的公式中产生。训练稳定性是通过使用专门的初始化或附加的选通功能进行层规范化来实现的。我们的模型,我们称之为矫正线性注意(ReLA),易于实现,比以前提出的稀疏注意机制更有效。我们将ReLA应用于Transformer,并在五个机器翻译任务上进行了实验。ReLA的翻译性能可与几个强大的基线相媲美,训练和解码速度与普通注意力的速度相似。我们的分析表明,ReLA具有较高的稀疏率和头部多样性,与最近基于稀疏softmax的模型相比,诱导交叉注意在源-目标词对齐方面获得了更好的准确性。有趣的是,ReLA负责人还学会了对某些查询不做任何事(即“关闭”),这在稀疏的softmax选项中是不可能的。%R 10.18653/v1/2021.emnlp-main.523%U型https://aclantology.org/2021.emnlp-main.523%U型https://doi.org/10.18653/v1/2021.emnlp-main.523%电话6507-6520
降价(非正式)
[用线性单位分散注意力](https://aclantology.org/2021.emnlp-main.523)(Zhang等人,EMNLP 2021)
国际计算语言学协会
- 张彪(Biao Zhang)、伊万·蒂托夫(Ivan Titov)和里科·森里奇(Rico Sennrich)。2021用线性单位分散注意力.英寸2021年自然语言处理实证方法会议记录,第6507-6520页,在线和多米尼加共和国卡纳角。计算语言学协会。