×

数学ZBZ-数学第一资源

临界点法揭示了深部网损的梯度平坦区。(英语) Zbl 07377037
摘要:尽管深度神经网络的损失函数是高度非凸的,基于梯度的优化算法从许多随机初始点收敛到近似相同的性能。其中一个工作重点是通过数值描述损失函数临界点附近的局部曲率来解释这一现象,其中梯度接近于零。这类研究报告说,神经网络的损失具有良好的局部极小性质,与最近的理论结果不一致。我们在这里报告,用来寻找这些假定的临界点的方法本身就有一个糟糕的局部极小问题:它们通常收敛于或通过梯度范数有一个平稳点的区域。我们把这些梯度区域称为平坦区域,因为当梯度近似在Hessian核中时,它们出现,使得损失在梯度方向上局部近似线性或平坦。我们描述了这些区域的存在如何在解释过去声称找到神经网络损失临界点的结果和设计优化神经网络的二阶方法时需要小心。
理学硕士:
68Txx型 人工智能
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Angelani,L.,Leonardo,R.D.,Ruocco,G.,Scala,A.和Sciortino,F.(2000年)。用过冷液体探测的能源景观中的鞍座。物理评论信,85(25),5356-5359。谷歌学者搜索广告
[2] Baldi,P.和Hornik,K.(1989年)。神经网络与主成分分析:从没有局部极小的例子中学习。神经网络,2(1),53-58。谷歌学者交叉引用搜索广告
[3] Ballard,A.J.,Das,R.,Martiniani,S.,Mehta,D.,Sagun,L.,Stevenson,J.D.和威尔士,D.J.(2017年)。机器学习的能源景观。物理。化学化学物理,1912585-12603。谷歌学者搜索广告
[4] Bates,D.J.,Haunstein,J.D.,Sommese,A.J.和Wamper,C.W.(2013年)。用Bertini(软件、环境和工具)数值求解多项式系统。费城:工业与应用数学学会。
[5] Boyd,S.和Vandenberghe,L.(2004年)。凸优化。纽约:剑桥大学出版社·Zbl 1058.90049号
[6] Broderix,K.,Bhattacharya,K.K.,Cavagna,A.,Zippelius,A.和Giardina,I.(2000年)。Lennard-Jones液体的能量景观:静止点的统计。物理评论信,85(25),5360-5363。谷歌学者搜索广告·Zbl 1046.82521号
[7] Byrd,R.H.,Marazzi,M.和Nocedal,J.(2004年)。牛顿迭代法对非平稳点的收敛性。数学规划,99(1),127-148。谷歌学者搜索广告·Zbl 1072.90038
[8] Cerjan,C.J.和Miller,W.H.(1981年)。关于寻找过渡态。化学物理杂志,75(6),2800-2806。谷歌学者搜索广告
[9] Choi,S.-C.T.,Paige,C.C.和Saunders,M.A.(2011年)。MINRES-QLP:求解不定或奇异对称系统的Krylov子空间方法。暹罗科学计算杂志,33(4),1810-1836。谷歌学者搜索广告·Zbl 1230.65050
[10] Coetzee,F.和Stonick,V.L.(1997年)。488 XOR问题的解决方案。在M.C.Mozer,M.I.Jordan和T.Petsche(编辑),《神经信息处理系统的进展》,第9期(第410-416页)。马萨诸塞州剑桥:麻省理工学院出版社。谷歌学者
[11] 多芬,Y.,帕斯卡努,R.,Gülçehre,圣城。,Cho,K.,Ganguli,S.和Bengio,Y.(2014年)。高维非凸优化中鞍点问题的识别与处理。更正,abs/1406.2572。
[12] Ding,T.,Li,D.和Sun,R.(2019年)。几乎所有的参数化神经网络都存在次优局部极小。arXiv:1911.01413。
[13] Doye,J.P.K.和威尔士,D.J.(2002年)。Lennard-Jones团簇、固体和过冷液体的鞍点和动力学。化学物理杂志,116(9),3777-3788。谷歌学者搜索广告
[14] Du,S.S.,翟,X.,Poczos,B.和Singh,A.(2019年)。梯度下降可证明优化过参数化神经网络。《学习表征国际会议论文集》。https://openreview.net/forum?id=S1eK3i09YQ。谷歌学者
[15] Duchi,J.,Hazan,E.和Singer,Y.(2011年)。在线学习和随机优化的自适应次梯度方法。J、 马赫。学习。第12、2121-2159页。谷歌学者·680.1280升
[16] Frye,C.G.,Wadia,N.S.,DeWeese,M.R.和Bouchard,K.E.(2019年)。深度线性自动编码器临界点的数值恢复。arXiv:1901.10603。
[17] Garipov,T.,Izmailov,P.,Podoprikhin,D.,Vetrov,D.和Wilson,A.G.(2018年)。损耗面、模式连通性和dnn的快速组装。arXiv:1802.10026。
[18] 肖奥巴尼,肖奥巴尼,2019年)。基于Hessian特征值密度的神经网络优化研究。机器学习研究进展。谷歌学者
[19] Goodfello,I.J.和Vinyals,O.2014年。定性描述神经网络优化问题。更正,abs/1412.6544。
[20] Griewank,A.和Osborne,M.R.(1983年)。不规则奇异点的牛顿法分析。暹罗数值分析杂志,20(4),747-773。谷歌学者搜索广告·Zbl 0525.65025
[21] 霍尔兹穆勒,D.和斯坦瓦特,I.2020年。用梯度下降法训练两层RELU网络是不一致的。arXiv:2002.04861。
[22] Izmailov,A.F.和Solodov,M.V.2014年。最优化和变分问题的牛顿型方法。纽约:斯普林格·Zbl 1304.49001号
[23] Jin,C.,Ge,R.,Netrapalli,P.,Kakade,S.M.和Jordan,M.I.,2017年。如何有效地逃离鞍点。更正,abs/1703.00887。
[24] Kingma,D.P.和Ba,J.2014年。亚当:一种随机优化方法。arXiv:1412.6980。
[25] Laurent,T.和von Brecht,J.(2017年)。ReLU网络的多线性结构。arXiv:1712.10132。谷歌学者
[26] LeCun,Y.,Cortes,C.和Burges,C.2010年。MNIST手写数字数据库,2
[27] Lee,J.D.,Simchowitz,M.,Jordan,M.I.,和Recht,B.2016年。梯度下降只收敛于极小值。V.Feldman、A.Rakhlin和O.Shamir(编辑),《第29届学习理论年会论文集》(第49卷,第1246-1257页)。谷歌学者
[28] Li,D.,Ding,T.,和Sun,R.,2018年。关于神经网络宽度的好处:坏盆地的消失。arXiv:1812.11039。
[29] 麦克劳林,D.2016。可组合可微过程的建模、推理与优化。博士论文。,哈佛大学。
[30] Martens,J.和Grosse,R.2015年。用Kronecker因子近似曲率优化神经网络。arXiv:1503.05671。
[31] McIver,J.W.和Komornicki,A.(1972年)。有机反应中过渡态的结构:一般理论及其在环丁烯-丁二烯异构化反应中的应用。美国化学学会杂志,94(8),2625-2633。谷歌学者搜索广告
[32] Mehta,D.,Chen,T.,Tang,T.和Hauenstein,J.D.,2018年。用代数几何透镜观察深线性网络的损耗面。arXiv:1810.07716。谷歌学者
[33] Mehta,D.,Zhao,X.,Bernal,E.A.,和威尔士,D.J.,2018年。异或人工神经网络的损失面。物理回顾E,97(5)。谷歌学者
[34] Nesterov,Y.,2018年。无约束凸优化中的可实施张量方法(技术报告2018005)。鲁汶天主教大学运筹学和计量经济学中心。谷歌学者·Zbl 1459.90157
[35] Nocedal,J.和Wright,S.(2006年)。数值优化(第二版)。纽约:斯普林格。谷歌学者·Zbl 1104.65059
[36] Paige,C.C.和Strakos,Z.2002年。最小残差Krylov子空间方法的残差和后向误差界。暹罗科学计算杂志,23(6),1898-1923。谷歌学者搜索广告·65ZB035.1万
[37] Paszke,A.,Gross,S.,Massa,F.,Lerer,A.,Bradbury,J.,Chanan,G.,…钦塔拉,S.(2019年)。Pythorch:一个命令式、高性能的深度学习库。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Alchbuc、E.Fox和R.Garnett(编辑),《神经信息处理系统的进展》,32(第8024-8035页)。纽约州红钩:科伦。谷歌学者
[38] Pedregosa,F.,Varoquoux,G.,Gramfort,A.,Michel,V.,Thirion,B.,Grisel,O.,…Duchesnay,E.(2011年)。在SciPython学习工具包中学习。机器学习研究杂志,122825-2830。谷歌学者·Zbl 1280.68189
[39] 彭宁顿,J.和Bahri,Y.2017年。基于随机矩阵理论的神经网络损失曲面几何。《学习表征国际会议论文集》。谷歌学者
[40] Poggio,T.,Liao,Q.,和Banburski,A.,2020年。深度网络中梯度下降的复杂性控制。《自然通讯》,11(1)。doi:Google学者
[41] 鲍威尔,M.J.,1970年。非线性方程组的一种混合方法。非线性代数方程的数值方法。
[42] Ramachandran,P.,Zoph,B.和Le,Q.V.2017年。正在搜索激活函数。arXiv:1710.05941。
[43] Roosta,F.,Liu,Y.,Xu,P.和Mahoney,M.W.,2018年。牛顿MR:没有光滑或凸性的牛顿法。arXiv:1810.00303。
[44] Sagun,L.,Evci,U.,Güney,V.U.,Dauphin,Y.和Bottou,L.,2017年。过参数化神经网络Hessian的实证分析。更正,abs/1706.04454。
[45] Strang,G.1993年。线性代数的基本定理。美国数学月刊,100(9),848。doi:Google学者·Zbl 0802.15002
[46] 2019年,周日。深度学习的优化:理论与算法。arXiv:1912.08957。谷歌学者
[47] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.和Vinyals,O.2016年。理解深度学习需要重新思考泛化。更正,abs/1611.03530。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。