线性变压器的实用计算能力及其递归和自参考扩展

Kazuki Irie公司,罗贝尔·索尔达斯,尤根·施密杜贝尔(Jürgen Schmidhuber)


摘要
最近对递归神经网络(RNN)计算能力的研究揭示了给定实时和有限精度假设的RNN体系结构层次。在这里,我们研究具有线性注意力的自回归变压器,即线性变压器(LT)或快速加权程序员(FWP)。LT的特殊之处在于,它们相当于具有固定大小状态的类RNN序列处理器,同时也可以表示为现在流行的自关注网络。我们表明,标准变压器的许多著名结果直接传递到LT/FWP。我们的正式语言识别实验表明,最近提出的FWP扩展(如递归FWP和自参考权重矩阵)成功地克服了LT的某些限制,例如,允许对奇偶问题进行泛化。我们的代码是公开的。
选集ID:
2023.emnlp-main.588年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
9455–9465
语言:
网址:
https://aclantology.org/2023.emnlp-main.588
内政部:
10.18653/v1/2023.emnlp-main.588
双钥匙:
引用(ACL):
Kazuki Irie、Róbert Csordás和Jürgen Schmidhuber。2023线性变压器的实用计算能力及其递归和自参考扩展.英寸2023年自然语言处理实证方法会议记录,第9455-9465页,新加坡。计算语言学协会。
引用(非正式):
线性变压器的实用计算能力及其递归和自参考扩展(Irie等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.588.pdf
视频:
 https://aclantology.org/2023.emnlp-main.588.mp4网址