Practical Computational Power of Linear Transformers and Their Recurrent and Self-Referential Extensions

Kazuki Irie; Róbert Csordás; Jürgen Schmidhuber

doi:10.18653/v1/2023.emnlp-main.588

线性变压器的实用计算能力及其递归和自参考扩展

Kazuki Irie公司,罗贝尔·索尔达斯,尤根·施密杜贝尔（Jürgen Schmidhuber）

摘要

最近对递归神经网络（RNN）计算能力的研究揭示了给定实时和有限精度假设的RNN体系结构层次。在这里，我们研究具有线性注意力的自回归变压器，即线性变压器（LT）或快速加权程序员（FWP）。LT的特殊之处在于，它们相当于具有固定大小状态的类RNN序列处理器，同时也可以表示为现在流行的自关注网络。我们表明，标准变压器的许多著名结果直接传递到LT/FWP。我们的正式语言识别实验表明，最近提出的FWP扩展（如递归FWP和自参考权重矩阵）成功地克服了LT的某些限制，例如，允许对奇偶问题进行泛化。我们的代码是公开的。

选集ID：: 2023.emnlp-main.588年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 9455–9465
语言：
网址：: https://aclantology.org/2023.emnlp-main.588
内政部：: 10.18653/v1/2023.emnlp-main.588
双钥匙：
引用（ACL）：: Kazuki Irie、Róbert Csordás和Jürgen Schmidhuber。2023线性变压器的实用计算能力及其递归和自参考扩展.英寸2023年自然语言处理实证方法会议记录，第9455-9465页，新加坡。计算语言学协会。
引用（非正式）：: 线性变压器的实用计算能力及其递归和自参考扩展（Irie等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.588.pdf
视频：: https://aclantology.org/2023.emnlp-main.588.mp4网址

PDF格式引用搜索视频