@进行中{ruoss-etal-2023-随机,title=“随机位置编码提高了变压器的长度泛化”,author=“鲁斯、阿尼安和Del{\'e}tang、Gr{\'e}goire和Genewein、Tim和Grau-Moya、Jordi和Csord{\'a}s、R{\'o}bert和Bennani、Mehdi和Legg、Shane和Joel Veness“,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎,直木“,booktitle=“计算语言学协会第61届年会论文集(第2卷:短文)”,月=七月,年=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclcollectory.org/2023.acl short.161”,doi=“10.18653/v1/2023.acl-short.161”,pages=“1889--1903”,abstract=“变形金刚在固定上下文长度的任务上具有令人印象深刻的泛化能力。然而,它们无法泛化为任意长度的序列,即使是对于看似简单的任务,例如复制字符串。此外,由于全局注意机制的二次计算复杂性,仅对较长序列进行训练是无效的。在这项工作中,我们证明了这种故障模式与较长序列(即使是相对编码)的非分布位置编码有关,并介绍了一种可以克服此问题的新的位置编码系列。具体来说,我们的随机位置编码方案模拟较长序列的位置,并随机选择一个有序子集来适应序列{'}的长度。我们对跨越15个算法推理任务的6000个模型进行了大规模实证评估,结果表明,我们的方法允许Transformers泛化为不可见长度的序列(平均测试准确度提高了12.0{\%})。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“ruoss-etal-2023-randomized”><标题信息><title>变压器的随机位置编码增强长度泛化</title></title信息><name type=“personal”>Anian鲁斯<namePart type=“family”>Ruoss</namePart><角色>作者</角色></name><name type=“personal”>格雷戈里Delétang<角色>作者</角色></name><name type=“personal”>蒂姆基因零件<角色>作者</角色></name><name type=“personal”>乔迪Grau-Moya<角色>作者</角色></name><name type=“personal”>Róbert(罗贝特)索尔达斯<角色>作者</角色></name><name type=“personal”>Mehdi(Mehdi)本纳尼<角色>作者</角色></name><name type=“personal”>谢恩(Shane)腿<角色>作者</角色></name><name type=“personal”>乔尔威尼斯<角色>作者</角色></name><originInfo>发布日期:2023-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第61届年会会议记录(第2卷:短文)</title信息><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>Naoaki(Naoaki)冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>加拿大多伦多</place></originInfo>会议出版物</relatedItem><abstract>Transformers在具有固定上下文长度的任务上具有令人印象深刻的泛化能力。然而,它们无法推广到任意长度的序列,即使是对于看似简单的任务,例如复制字符串。此外,由于全局注意机制的二次计算复杂性,仅对较长序列进行训练效率低下。在这项工作中,我们证明了这种失效模式与较长序列(甚至是相对编码)的非分布位置编码有关,并引入了一种可以克服此问题的新的位置编码族。具体来说,我们的随机位置编码方案模拟较长序列的位置,并随机选择一个有序子集来适应序列的长度。我们对15个算法推理任务中的6000个模型进行了大规模实证评估,结果表明,我们的方法允许Transformers推广到看不见长度的序列(平均将测试精度提高12.0%)</摘要>ruoss-etal-2023-随机10.18653/v1/2023.acl-short.161<位置><网址>https://aclantology.org/2023.acl-short.161</url></位置><部分>2023-07年<扩展单元=“page”><开始>18891903年</范围></部分></mods></modsCollection>
%0会议记录%T随机位置编码提高了变压器的长度泛化%阿若斯,阿尼安%A Delétang,格雷戈里%A Genewein,蒂姆%乔尔迪·A Grau-Moya%A Csordás,罗伯特%梅迪·本纳尼%一条腿,谢恩%一个威尼斯人,乔尔%安娜·罗杰斯%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会第61届年会论文集(第2卷:短文)%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F ruoss-etal-2023-随机%X变形金刚在固定上下文长度的任务上具有令人印象深刻的泛化能力。然而,它们无法推广到任意长度的序列,即使是对于看似简单的任务,例如复制字符串。此外,由于全局注意机制的二次计算复杂性,仅对较长序列进行训练效率低下。在这项工作中,我们证明了这种故障模式与较长序列(即使是相对编码)的非分布位置编码有关,并介绍了一种可以克服此问题的新的位置编码系列。具体来说,我们的随机位置编码方案模拟较长序列的位置,并随机选择一个有序子集来适应序列的长度。我们在15个算法推理任务中对6000个模型进行了大规模的实证评估,结果表明,我们的方法允许Transformers将其推广到不可见长度的序列中(平均提高12.0%的测试准确性)。%R 10.18653/v1/2023.acl-short.161%单位https://aclantology.org/2023.acl-short.161%单位https://doi.org/10.18653/v1/2023.acl-short.161%电话:1889-1903
降价(非正式)
[随机位置编码提高了变压器的长度泛化](https://aclantology.org/2023.acl-short.161)(Ruoss等人,ACL 2023)
国际计算语言学协会
- 阿尼安·鲁斯(Anian Ruoss)、格雷戈伊尔·德雷唐(Grégoire Delétang)、蒂姆·杰纳温(Tim Genewein)、乔迪·格拉乌·莫亚(Jordi Grau-Moya)、洛贝特·索尔达斯(Róbert Csordás)、梅赫迪·本纳尼(Mehdi Benna。2023变压器的随机位置编码Boost长度泛化.英寸计算语言学协会第61届年会论文集(第2卷:短文),第1889–1903页,加拿大多伦多。计算语言学协会。