计算机科学>机器学习
标题: 随机位置编码提高了变压器的长度泛化
摘要: 变形金刚在固定上下文长度的任务上具有令人印象深刻的泛化能力。 然而,它们无法推广到任意长度的序列,即使是对于看似简单的任务,例如复制字符串。此外,由于全局注意机制的二次计算复杂性,仅对较长序列进行训练效率低下。 在这项工作中,我们证明了这种故障模式与较长序列(即使是相对编码)的非分布位置编码有关,并介绍了一种可以克服此问题的新的位置编码系列。 具体来说,我们的随机位置编码方案模拟较长序列的位置,并随机选择一个有序子集来适应序列的长度。 我们在15个算法推理任务中对6000个模型进行了大规模的实证评估,结果表明,我们的方法允许Transformers将其推广到不可见长度的序列中(平均提高12.0%的测试准确性)。