重新审视神经网络的双重形式:通过注意力聚焦将测试时间预测与训练模式联系起来

Kazuki Irie、Róbert Csordás、Jürgen Schmidhuber
第39届机器学习国际会议记录,PMLR 162:9639-96592022年。

摘要

通过梯度下降训练的神经网络(NN)中的线性层可以表示为一个键值存储系统,该系统存储所有训练数据点和初始权重,并在整个训练过程中使用非标准化的点注意力生成输出。虽然这一点自20世纪60年代以来在技术上已为人所知,但此前没有任何工作有效地研究过这种形式的NN操作,可能是由于时间和空间的复杂性以及不切实际的模型尺寸,所有这些都随着训练模式数量的增加而线性增长,而训练模式数量可能会变得很大。然而,这种对偶公式通过检查相应的注意权重,提供了一种直接可视化神经网络如何在测试时使用训练模式的可能性。我们在单任务、多任务和持续学习环境中对小规模监督图像分类任务以及语言建模进行了实验,并讨论了这种观点的潜力和局限性,以更好地理解和解释NN如何利用训练模式。我们的代码是公开的。

引用本文


BibTeX公司
@会议记录{pmlr-v162-irie22a,title={重新审视神经网络的双重形式:通过注意力聚焦将测试时间预测与训练模式联系起来},author={Irie、Kazuki和Csord{'a}s、R{'o}bert和Schmidhuber,J{“u}rgen},booktitle={第39届机器学习国际会议论文集},页数={9639--9659},年份={2022},editor={乔杜里、卡马利卡和杰尔卡、斯特凡尼和宋、勒和塞佩斯瓦里、塞萨巴和纽、冈和萨巴托、西万},体积={162},series={机器学习研究论文集},月份={7月17-23日},publisher={PMLR},pdf={https://proceedings.mlr.press/v162/irie22a/irie22a.pdf},url={https://proceedings.mlr.press/v162/irie22a.html},abstract={神经网络(NN)中的线性层梯度下降训练可以表示为一个键值存储系统,它存储所有训练数据点和初始权重,并在整个训练过程中使用非标准化的点注意产生输出。虽然这一点自20世纪60年代以来在技术上已为人所知,但此前没有任何工作有效地研究过这种形式的NN操作,可能是由于时间和空间的复杂性以及不切实际的模型尺寸,所有这些都与可能变得非常大的训练模式数量呈线性增长。然而,这种对偶公式通过检查相应的注意权重,提供了一种直接可视化神经网络如何在测试时使用训练模式的可能性。我们在单任务、多任务和连续学习环境中对小规模监督图像分类任务以及语言建模进行了实验,并讨论了这种观点的潜力和局限性,以更好地理解和解释神经网络如何利用训练模式。我们的代码是公开的。}}
尾注
%0会议论文%重新审视神经网络的双重形式:通过注意力聚焦将测试时间预测与训练模式联系起来%一只Kazuki Irie%Róbert Csordás先生%Jürgen Schmidhuber先生%第39届机器学习国际会议论文集%C机器学习研究进展%D 2022年%E卡马利卡·乔杜里%E斯特凡妮·杰格尔卡%E乐松%E Csaba Szepesvari公司%鄂岗牛%E西万·萨巴托%对于pmlr-v162-irie22a%I项目经理%电话9639-9659%U型https://proceedings.mlr.press/v162/irie22a.html%V 162型%通过梯度下降训练的神经网络(NN)中的X线性层可以表示为一个键值存储系统,该系统存储所有训练数据点和初始权重,并在整个训练过程中使用非标准化的点注意力生成输出。虽然这一点自20世纪60年代以来在技术上已为人所知,但此前没有任何工作有效地研究过这种形式的NN操作,可能是由于时间和空间的复杂性以及不切实际的模型尺寸,所有这些都随着训练模式数量的增加而线性增长,而训练模式数量可能会变得很大。然而,这种对偶公式通过检查相应的注意权重,提供了一种直接可视化神经网络如何在测试时使用训练模式的可能性。我们在单任务、多任务和持续学习环境中对小规模监督图像分类任务以及语言建模进行了实验,并讨论了这种观点的潜力和局限性,以更好地理解和解释NN如何利用训练模式。我们的代码是公开的。
亚太地区
Irie,K.,Csordás,R.&Schmidhuber,J.(2022)。重新审视神经网络的双重形式:通过注意力聚焦将测试时间预测与训练模式联系起来。第39届机器学习国际会议记录,英寸机器学习研究进展162:9639-9659可从https://proceedings.mlr.press/v162/irie22a.html。

相关材料