重新审视神经网络的双重形式:通过注意力聚焦将测试时间预测与训练模式联系起来
Kazuki Irie、Róbert Csordás、Jürgen Schmidhuber
第39届机器学习国际会议记录,PMLR 162:9639-96592022年。
摘要
通过梯度下降训练的神经网络(NN)中的线性层可以表示为一个键值存储系统,该系统存储所有训练数据点和初始权重,并在整个训练过程中使用非标准化的点注意力生成输出。虽然这一点自20世纪60年代以来在技术上已为人所知,但此前没有任何工作有效地研究过这种形式的NN操作,可能是由于时间和空间的复杂性以及不切实际的模型尺寸,所有这些都随着训练模式数量的增加而线性增长,而训练模式数量可能会变得很大。然而,这种对偶公式通过检查相应的注意权重,提供了一种直接可视化神经网络如何在测试时使用训练模式的可能性。我们在单任务、多任务和持续学习环境中对小规模监督图像分类任务以及语言建模进行了实验,并讨论了这种观点的潜力和局限性,以更好地理解和解释NN如何利用训练模式。我们的代码是公开的。
引用本文
相关材料