变压器的随机位置编码Boost长度泛化

阿尼安·鲁斯,格雷戈伊尔·德雷唐(Grégoire Delétang),蒂姆·吉纳温,乔迪·格拉乌·莫亚,罗贝尔·索尔达斯,本纳尼,谢恩·莱格,乔尔·维内斯


摘要
变形金刚在固定上下文长度的任务上具有令人印象深刻的泛化能力。然而,它们无法推广到任意长度的序列,即使是对于看似简单的任务,例如复制字符串。此外,由于全局注意机制的二次计算复杂性,仅对较长序列进行训练效率低下。在这项工作中,我们证明了这种故障模式与较长序列(即使是相对编码)的非分布位置编码有关,并介绍了一种可以克服此问题的新的位置编码系列。具体来说,我们的随机位置编码方案模拟较长序列的位置,并随机选择一个有序子集来拟合序列的长度。我们在15个算法推理任务中对6000个模型进行了大规模的实证评估,结果表明,我们的方法允许Transformers将其推广到不可见长度的序列中(平均提高12.0%的测试准确性)。
选集ID:
2023.acl-短161
体积:
计算语言学协会第61届年会论文集(第2卷:短文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
SIG公司:
出版商:
计算语言学协会
注:
页:
1889–1903
语言:
网址:
https://aclantology.org/2023.acl-short.161
内政部:
10.18653/v1/2023.acl-短161
比比键:
引用(ACL):
阿尼安·鲁斯(Anian Ruoss)、格雷戈伊尔·德雷唐(Grégoire Delétang)、蒂姆·杰纳温(Tim Genewein)、乔迪·格拉乌·莫亚(Jordi Grau-Moya)、洛贝特·索尔达斯(Róbert Csordás)、梅赫迪·本纳尼(Mehdi Benna。2023随机位置编码提高了变压器的长度泛化.英寸计算语言学协会第61届年会论文集(第2卷:短文),第1889–1903页,加拿大多伦多。计算语言学协会。
引用(非正式):
随机位置编码提高了变压器的长度泛化(Ruoss等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-short.161.pdf
视频:
 https://aclantology.org/2023.acl-short.161.mp4