×

一种基于牛顿法的快速避开鞍点的非凸优化方法。 (英语) 兹比尔1410.90202

摘要:机器学习问题,如神经网络训练、张量分解和矩阵分解,需要对非凸函数进行局部最小化。这种局部最小化受到鞍点的挑战,鞍点可能有很多,而下降方法可能需要大量迭代才能摆脱鞍点。本文提出了一种二阶方法,通过用绝对值替换黑森矩阵的负特征值来修正牛顿法的更新,并使用所得矩阵的截断形式来解释目标的曲率。该方法最多可在(1+log{3/2}(delta/2\varepsilon)迭代中摆脱鞍座,其中(varepsilen)是目标最优性,并且(delta)表征了一个离鞍座足够远的点。这个指数逃逸的基础是(3/2),与问题常数无关。本文结合牛顿法的经典性质,证明了在(O\ left(\log(1/p))+O(\log(1/varepsilon)\right))迭代中,以概率(1-p)收敛到局部极小值。

MSC公司:

90立方 非线性规划
90C06型 数学规划中的大尺度问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] N.Agarwal、Z.Allen-Zhu、B.Bullins、E.Hazan和T.Ma,{发现近似局部极小值比梯度下降更快},《第49届ACM SIGACT计算机理论研讨会论文集》,ACM,纽约,2017年,第1195-1199页·Zbl 1369.68290号
[2] P.Baldi和K.Hornik,《神经网络和主成分分析:从没有局部极小值的示例中学习》,神经网络。,2(1989年),第53-58页。
[3] S.Boyd和L.Vandenberghe,{凸优化},剑桥大学出版社,英国剑桥,2004年·Zbl 1058.90049号
[4] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford,{非凸优化的加速方法},SIAM J.Optim。,28(2018),第1751-1772页·Zbl 1400.90250号
[5] C.Cartis,N.I.Gould和P.L.Toint,《无约束优化的自适应三次正则化方法》,第一部分:动机、收敛性和数值结果,数学。程序。,127(2011),第245-295页·Zbl 1229.90192号
[6] C.Cartis,N.I.Gould和P.L.Toint,《无约束优化的自适应三次正则化方法》,第二部分:最坏情况函数和导数估值复杂性,数学。程序。,130(2011年),第295-319页·Zbl 1229.90193号
[7] A.Choromanska、M.Henaff、M.Mathieu、G.B.Arous和Y.LeCun,《多层网络的损耗面》,《AISTATS学报》2015,J.Mach。学习。研究,38(2015),第192-204页。
[8] A.R.Conn、N.I.Gould和P.L.Toint,{语言:大规模非线性优化的Fortran包(A版)},Springer Ser。计算。数学。17,施普林格科学与商业媒体,2013年·Zbl 0761.90087号
[9] A.R.Conn、N.I.M.Gould和P.L.Toint,{信赖域方法},SIAM,费城,2000年·兹比尔0958.65071
[10] F.E.Curtis和D.P.Robinson,《在确定性和随机优化中利用负曲率》,预印本,2017年。
[11] F.E.Curtis、D.P.Robinson和M.Samadi,{it非凸优化的最坏情况迭代复杂度为\(mathcal{O}(\ ^{-3/2})\)的信赖域算法,数学。程序。,162(2017),第1-32页·Zbl 1360.49020号
[12] Y.N.Dauphin、R.Pascanu、C.Gulcehre、K.Cho、S.Ganguli和Y.Bengio,{识别和攻击高维非凸优化中的鞍点问题},《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2014年,第2933-2941页。
[13] A.S.Drud,{\it CONOPT–大型GRG代码},ORSA J.Compute。,6(1994年),第207-216页·Zbl 0806.90113号
[14] R.Ge,F.Huang,C.Jin,Y.Yuan,{逃离鞍点-张量分解的在线随机梯度},《COLT学报》,2015年,第797-842页。
[15] R.Ge、J.D.Lee和T.Ma,{矩阵完成没有虚假的局部最小值},摘自《神经信息处理系统进展》29,Curran Associates,2016年,第2973-2981页。
[16] N.I.Gould和J.Nocedal,《信任区域最小化的修正绝对值因式分解范数》,摘自《非线性优化中的高性能算法和软件》,Kluwer学术出版社,荷兰多德雷赫特,1998年,第225-241页·Zbl 0942.65068号
[17] J.Greenstadt,{关于梯度法的相对效率},数学。公司。,21(1967年),第360-367页·Zbl 0159.20305号
[18] A.Griewank,{《用有界三次项修正牛顿法进行无约束优化》,技术报告NA/12,英国剑桥大学应用数学和理论物理系,1981年。
[19] F.M.Harper和J.A.Konstan,《电影镜头数据集:历史和背景》,ACM Trans。互动。因特尔。系统。,5 (2016), 19.
[20] P.Jain和P.Kar,{机器学习的非凸优化},发现。趋势马赫数。学习。,10(2017年),第142-336页·Zbl 1388.68251号
[21] C.Jin、R.Ge、P.Netrapalli、S.M.Kakade和M.I.Jordan,{\it How to escape points effectively},《第34届机器学习国际会议论文集》,PMLR 702017,第1724-1732页。
[22] K.Kawaguchi,{无不良局部极小值的深度学习},《神经信息处理系统的进展》29,Curran Associates,2016年,第586-594页。
[23] M.Kočvara和M.Stingl,{\it Pennon:凸非线性和半定规划的代码},Optim。方法软件。,18(2003),第317-333页·Zbl 1037.90003号
[24] J.D.Lee、M.Simchowitz、M.I.Jordan和B.Recht,{梯度下降仅收敛于极小值},《第29届学习理论年会论文集》,2016年,第1246-1257页。
[25] J.J.Moreí和D.C.Sorensen,{\it Computing a trust region step},SIAM J.Sci。统计师。计算。,4(1983年),第553-572页·Zbl 0551.65042号
[26] W.Murray,{纽顿型方法},收录于《威利运筹学与管理科学百科全书》,John Wiley&Sons,2010年;在线提供,网址为。
[27] Y.Nesterov,{凸优化入门讲座:基础课程},应用。最佳方案。87,Springer科学与商业媒体,2004年·兹比尔1086.90045
[28] Y.Nesterov和B.T.Polyak,{牛顿方法的立方正则化及其全局性能},数学。程序。,108(2006),第177-205页·Zbl 1142.90500
[29] J.Nocedal和S.Wright,{数值优化,}Springer科学与商业媒体,纽约,2006年·Zbl 1104.65059号
[30] I.Panageas和G.Piliouras,《仅梯度下降收敛到极小值:非孤立临界点和不变区域》,预印本,2016年·Zbl 1402.90210号
[31] R.Pascanu、Y.N.Dauphin、S.Ganguli和Y.Bengio,《关于非凸优化的鞍点问题》,预印本,2014。
[32] R.Pemantle,{瓮模型和随机近似中不稳定点的不收敛性},Ann.Probab。,18(1990年),第698-712页·Zbl 0709.60054号
[33] M.Powell,{\it关于无约束极小化信赖域算法的全局收敛性},Math。编程,29(1984),第297-303页·Zbl 0569.90069号
[34] A.M.Saxe、J.L.McClelland和S.Ganguli,《深层线性神经网络学习非线性动力学的精确解》,预印本,2013年。
[35] A.M.Saxe、J.L.McClelland和S.Ganguli,{深度神经网络中的学习层级类别结构},《认知科学学会第35届年会论文集》,2013年,第1271-1276页。
[36] J.Sun、Q.Qu和J.Wright,《球面上的完整字典恢复》,IEEE Trans。通知。《理论》,63(2017),第853-884页·Zbl 1364.94164号
[37] R.J.Vanderbei,{\it-LOQO:二次规划的内点代码。内点方法},Optim。方法软件。,11/12(1999),第451-484页·兹伯利0973.90518
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。