Randomized Positional Encodings Boost Length Generalization of Transformers

Anian Ruoss; Grégoire Delétang; Tim Genewein; Jordi Grau-Moya; Róbert Csordás; Mehdi Bennani; Shane Legg; Joel Veness

doi:10.18653/v1/2023.acl-short.161

变压器的随机位置编码Boost长度泛化

阿尼安·鲁斯,格雷戈伊尔·德雷唐（Grégoire Delétang）,蒂姆·吉纳温,乔迪·格拉乌·莫亚,罗贝尔·索尔达斯,本纳尼,谢恩·莱格,乔尔·维内斯

摘要

变形金刚在固定上下文长度的任务上具有令人印象深刻的泛化能力。然而，它们无法推广到任意长度的序列，即使是对于看似简单的任务，例如复制字符串。此外，由于全局注意机制的二次计算复杂性，仅对较长序列进行训练效率低下。在这项工作中，我们证明了这种故障模式与较长序列（即使是相对编码）的非分布位置编码有关，并介绍了一种可以克服此问题的新的位置编码系列。具体来说，我们的随机位置编码方案模拟较长序列的位置，并随机选择一个有序子集来拟合序列的长度。我们在15个算法推理任务中对6000个模型进行了大规模的实证评估，结果表明，我们的方法允许Transformers将其推广到不可见长度的序列中（平均提高12.0%的测试准确性）。

选集ID：: 2023.acl-短161
体积：: 计算语言学协会第61届年会论文集（第2卷：短文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
SIG公司：
出版商：: 计算语言学协会
注：
页：: 1889–1903
语言：
网址：: https://aclantology.org/2023.acl-short.161
内政部：: 10.18653/v1/2023.acl-短161
比比键：
引用（ACL）：: 阿尼安·鲁斯（Anian Ruoss）、格雷戈伊尔·德雷唐（Grégoire Delétang）、蒂姆·杰纳温（Tim Genewein）、乔迪·格拉乌·莫亚（Jordi Grau-Moya）、洛贝特·索尔达斯（Róbert Csordás）、梅赫迪·本纳尼（Mehdi Benna。2023随机位置编码提高了变压器的长度泛化.英寸计算语言学协会第61届年会论文集（第2卷：短文），第1889–1903页，加拿大多伦多。计算语言学协会。
引用（非正式）：: 随机位置编码提高了变压器的长度泛化（Ruoss等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-short.161.pdf
视频：: https://aclantology.org/2023.acl-short.161.mp4

PDF格式引用搜索视频