×

加权神经切线核:一种广义和改进的网络诱导核。 (英语) Zbl 1518.68322号

摘要:神经切线核(NTK)最近吸引了大量研究,因为它描述了通过梯度下降训练的过参数化神经网络(NN)的演化。然而,众所周知,梯度下降并不总是NN的一个很好的优化器,这可以部分解释NTK回归估计器的实际性能不令人满意。本文介绍了加权神经切线核(WNTK),这是一种广义的改进工具,它可以捕获调整梯度下降方向下过参数化神经网络的训练动态。从理论上讲,在无穷宽极限下,我们证明了:(1)WNTK在初始化和训练过程中的稳定性,以及(2)在不同参数上具有不同学习率的WNTK回归估计量和相应的NN估计量之间的等价性。使用所提出的权重更新算法,可以通过多核优化训练权重项或等效的NN下降方向。在数值实验中,经验和分析WNTK都优于相应的NTK,这与调整后的梯度下降在NN训练中可能优于原始梯度下降的事实一致。

理学硕士:

68T05型 人工智能中的学习和自适应系统
65K10码 数值优化和变分技术
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alemohammad,S.、Wang,Z.、Balestriero,R.和Baraniuk,R.(2021)。递归神经切线核。在《2021年国际解放卢旺达民主共和国国际法》中:第九届学习代表国际会议。
[2] Allen-Zhu,Z。;李毅。;Liang,Y.,超参数神经网络的学习和泛化,超越两层,神经信息处理系统的进展,32,6155-6166(2019)
[3] Allen-Zhu,Z.,Li,Y.,&Song,Z.(2018)。通过过度参数化进行深度学习的收敛理论。在机器学习国际会议上(第242-252页)。
[4] Anselmi,F.、Rosasco,L.、Tan,C.和Poggio,T.A.(2015)。深度卷积网络是层次化的核机器。在CBMM备忘录系列中;035.arXiv:1508.01084
[5] Arora,S.、Cohen,N.和Hazan,E.(2018)。关于深度网络的优化:过度参数化的隐式加速。在第35届机器学习国际会议上,ICML 2018(第244-253页)。
[6] Arora,S.、Du,S.S.、Hu,W.、Li,Z.、Salakhutdinov,R.和Wang,R.(2019a)。关于无限宽神经网络的精确计算。在第33届神经信息处理系统年度会议上,《2019年神经网络信息处理系统》(第32卷,第8139-8148页)。
[7] Arora,S.、Du,S.S.、Hu,W.、Li,Z.和Wang,R.(2019b)。超参数双层神经网络优化和泛化的细粒度分析。在第36届机器学习国际会议上,ICML 2019(第322-332页)。
[8] Arora,S.、Du,S.S.、Li,Z.、Salakhutdinov,R.、Wang,R.和Yu,D.(2020年)。在小数据任务中利用无限宽深网的威力。《2020年ICLR:第八届学习代表国际会议》。
[9] Belkin,M.、Ma,S.和Mandal,S.(2018年)。为了理解深度学习,我们需要理解内核学习。在机器学习国际会议上(第540-548页)。
[10] Brock,A.、Lim,T.、Ritchie,J.M.和Weston,N.J.(2017年)。Freezeout:通过逐步冻结层来加速训练。NIPS 2017优化研讨会:第十届NIPS机器学习优化研讨会。
[11] 陈,S。;He,H。;Su,WJ,标签软件神经切线核:朝着更好的泛化和局部弹性方向发展,神经信息处理系统进展,33,15847-15858(2020)
[12] Chizat,L。;Bach,FR,关于使用最优传输的超参数模型梯度下降的全局收敛性,神经信息处理系统(NIPS)进展,313036-3046(2018)
[13] Chizat,L.、Oyallon,E.和Bach,F.R.(2019年)。关于微分编程中的懒惰训练。在NeurIPS 2019-33神经信息处理系统会议上(第32卷,第2937-2947页)。
[14] Cutkosky,A.和Mehta,H.(2020年)。动量提高了标准化sgd。ICML 2020:第37届机器学习国际会议(第1卷,第2260-2268页)。
[15] Daniely,A。;弗罗斯蒂格,R。;Singer,Y.,《深入理解神经网络:初始化的力量和表达能力的双重观点》,《神经信息处理系统的进展》,29,2253-2261(2016)
[16] de Matthews,A.G.、Rowland,M.、Hron,J.、Turner,R.E.和Ghahramani,Z.(2018年)。宽深度神经网络中的高斯过程行为。在学习代表国际会议上。
[17] Dragomir,SS,《一些Gronwall型不等式和应用》(2003),《新星科学》·邮编1094.34001
[18] 杜,SS;Hou,K。;Salakhutdinov,RR;波佐斯,B。;王,R。;Xu,K.,图神经切线核:图神经网络与图核的融合,神经信息处理系统进展,32,5723-5733(2019)
[19] Du,S.S.、Zhai,X.、Poczos,B.和Singh,A.(2018)。梯度下降在参数化神经网络上可证明是优化的。在学习代表国际会议上。
[20] 费尔南德斯·德尔加多,M。;Cernadas,大肠杆菌。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,机器学习研究杂志,15,1,3133-3181(2014)·Zbl 1319.62005号
[21] Garriga-Alonso,A.、Rasmussen,C.E.和Aitchison,L.(2018年)。作为浅高斯过程的深卷积网络。在学习代表国际会议上。
[22] Ghorbani,B.、Mei,S.、Misiakiewicz,T.和Montanari,A.(2019年)。两层神经网络惰性训练的局限性。arXiv预打印arXiv:1906.08899
[23] 戈尔巴尼,B。;梅,S。;Misiakiewicz,T。;Montanari,A.,高维线性化双层神经网络,《统计年鉴》,49,2,1029-1054(2021)·Zbl 1473.62134号 ·doi:10.1214/20-AOS1990
[24] Gönen,M。;Alpaydñn,E.,《多核学习算法》,《机器学习研究杂志》,12,64,2211-2268(2011)·Zbl 1280.68167号
[25] Hanin,B.和Nica,M.(2020年)。神经切线核的有限深度和宽度修正。《2020年ICLR:第八届学习代表国际会议》·Zbl 1446.60007号
[26] Hazan,T.和Jaakkola,T.S.(2015)。从无限神经网络走向深核方法。arXiv预打印arXiv:1508.05133
[27] 辛顿,G。;Neal,RM,神经网络贝叶斯学习(1995),多伦多大学
[28] Hu,W.,Li,Z.,&Yu,D.(2019)。理解用噪声标签训练的深层神经网络的泛化。arXiv预打印arXiv:1905.11368
[29] Huang,J.和Yau,H.T.(2020年)。深层神经网络和神经切线层次的动力学。ICML 2020:第37届机器学习国际会议(第1卷,第4542-4551页)。
[30] Jacot,A。;加布里埃尔,F。;Hongler,C.,《神经切线核:神经网络中的收敛和泛化》,《神经信息处理系统的进展》,318571-8580(2018)
[31] Lee,J.、Bahri,Y.、Novak,R.、Schoenholz,S.S.、Pennington,J.和Sohl-Dickstein,J.(2018)。作为高斯过程的深度神经网络。在学习表征国际会议上·Zbl 07330523号
[32] Lee,J。;肖,L。;肖恩霍尔茨,SS;巴赫里,Y。;诺瓦克,R。;Sohl-Dickstein,J。;Pennington,J.,《任意深度的宽神经网络在梯度下降下演化为线性模型》,《统计力学杂志:理论与实验》,第12期,第124002页(2020年)·Zbl 07330523号 ·doi:10.1088/1742-5468/abc62b
[33] Li,T.,Tan,L.,Tao,Q.,Liu,Y.,&Huang,X.(2023)。低维轨迹假设是正确的:DNN可以在微小的子空间中训练。IEEE模式分析和机器智能汇刊,45,3411-342023
[34] 李毅。;Liang,Y.,通过结构化数据的随机梯度下降学习超参数神经网络,神经信息处理系统进展,318157-8166(2018)
[35] Li,Z.,Wang,R.,Yu,D.,Du,S.S.,Hu,W.,Salakhutdinov,R.和Arora,S.(2019年)。增强的卷积神经切线核。arXiv预打印arXiv:1911.00809
[36] 刘,F。;黄,X。;龚,C。;杨,J。;Li,L.,学习数据自适应非参数核,机器学习研究杂志,21,208,1-39(2020)·Zbl 1529.68260号
[37] Liu,L.,Jiang,H.,He,P.,Chen,W.,Liu,X.,Gao,J.,&Han,J.(2020b)。关于自适应学习率的变化及其以外。《2020年ICLR:第八届学习代表国际会议》。
[38] Novak,R.、Xiao,L.、Lee,J.、Bahri,Y.、Yang,G.、Hron,J.,Abolafia,D.A.、Pennington,J.和Sohl-Dickstein,J.(2019年)。多信道贝叶斯深度卷积网络是高斯过程。在学习代表国际会议上。
[39] Samarin,M.、Roth,V.和Belius,D.(2020年)。关于标准有限宽卷积神经网络结构的经验神经切线核。arXiv预打印arXiv:2006.13645
[40] Shankar,V.、Fang,A.、Guo,W.、Fridovich-Keil,S.、Ragan-Kelley,J.、Schmidt,L.和Recht,B.(2020年)。无切线的神经核。ICML 2020:第37届机器学习国际会议(第1卷,第8614-8623页)。
[41] Sohl-Dickstein,J.、Novak,R.、Schoenholz,S.S.和Lee,J.(2020年)。关于标准参数化神经网络的无限宽度极限。arXiv预打印arXiv:2001.07301·Zbl 07330523号
[42] Sonnenburg,S。;Rätsch,G。;Schäfer,C。;Schölkopf,B.,《大规模多核学习》,《机器学习研究杂志》,第7期,第57期,第1531-1565页(2006年)·兹比尔1222.90072
[43] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,《机器学习研究杂志》,1929-1958年,第15期,第1期(2014年)·Zbl 1318.68153号
[44] Sutskever,I.、Martens,J.、Dahl,G.和Hinton,G.(2013)。关于初始化和动量在深度学习中的重要性。第30届机器学习国际会议论文集(第1139-1147页)。
[45] Takase,T。;Oyama,S.公司。;Kurihara,M.,基于训练损失的自适应学习率的有效神经网络训练,神经网络,101,68-78(2018)·doi:10.1016/j.neunet.2018.01.016
[46] Wei,C.、Lee,J.D.、Liu,Q.和Ma,T.(2019年)。正则化问题:神经网络的泛化和优化及其诱导核。在第33届神经信息处理系统年度会议上,《2019年神经网络信息处理系统》(第32卷,第9712-9724页)。
[47] Williams,CKI,无限网络计算,神经信息处理系统进展,9295-301(1996)
[48] Yang,G.(2019)。具有权重分担的宽神经网络的缩放极限:高斯过程行为、梯度独立性和神经切线核求导。arXiv预打印arXiv:1902.04760
[49] Zeiler,M.D.(2012年)。Adadelta:一种自适应学习速率方法。arXiv预打印arXiv:1212.5701
[50] Zhang,Z.(2018)。改进的Adam深度神经网络优化器。2018年IEEE/ACM第26届国际服务质量研讨会(IWQoS)(第1-2页)。
[51] 庄,J。;Tsang,IW;Hoi,SCH,简单非参数核学习算法家族,机器学习研究杂志,12,36,1313-1347(2011)·Zbl 1280.68223号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。