×

非凸二次型极小化的一阶方法。 (英语) Zbl 1459.65082号

作者摘要:我们考虑了具有信赖域(范数)约束或三次正则化的不定二次函数的最小化问题。尽管这些问题是非凸的,但我们证明了在温和的假设下,梯度下降收敛到它们的全局解,并给出了三次变量的非单调收敛速度。我们还考虑了Kriylov子空间解,并对信任区域和立方正则化问题的解建立了尖锐的收敛性保证。我们的速率反映了这些方法在凸二次型和特征向量问题上的行为,突出了它们的可伸缩性。当我们使用Krilov子空间解来逼近三次正则牛顿步长时,我们的结果恢复了对一般光滑非凸函数的二阶平稳点逼近的已知最强收敛保证。
编辑评论:这是“梯度下降发现立方正则非凸牛顿步”的修订再版[作者SIAM J.Optim.29,No.3,2146–2178(2019;Zbl 1461.65135号)].

MSC公司:

65千5 数值数学规划方法
90摄氏度06 数学规划中的大尺度问题
90C20个 二次规划
90C26型 非凸规划,全局优化
90立方厘米 非线性规划

软件:

HSL-VF05型
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] N.Agarwal、Z.Allen-Zhu、B.Bullins、E.Hazan和T.Ma,《寻找比梯度下降更快的近似局部极小值》,载于2017年第四十九届ACM计算理论研讨会论文集·Zbl 1369.68290号
[2] A.Beck和Y.Vaisbourd,使用简单的一阶方法全局求解信赖域子问题,SIAM J.Optim。,28(2018),第1951-1967页,https://doi.org/10.1137/16M1150281。 ·Zbl 1455.90104号
[3] T.Bianconini、G.Liuzzi、B.Morini和M.Sciandone,《关于无约束优化的立方正则化中迭代方法的使用》,计算。最佳方案。申请。,60(2015),第35-57页·Zbl 1308.90166号
[4] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页,https://doi.org/10.1137/16M1080173。 ·Zbl 1397.65085号
[5] Y.Carmon和J.C.Duchi,正则非凸二次问题的Krylov子空间解分析,《第32届神经信息处理系统国际会议论文集》,2018年,第10728-10738页。
[6] Y.Carmon和J.C.Duchi,梯度下降法发现立方正则非凸牛顿步,SIAM J.Optim。,29(2019),第2146-2178页,https://doi.org/10.1137/17M1113898。 ·Zbl 1461.65135号
[7] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford,“证明有罪之前的凸性”:非凸函数梯度下降的无量纲加速,《第34届国际机器学习会议论文集》,2017年,第654-663页。
[8] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford,非凸优化的加速方法,SIAM J.Optim。,28(2018),第1751-1772页,https://doi.org/10.1137/17M1114296。 ·Zbl 1400.90250号
[9] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford,寻找驻点的下限I,数学。程序。序列号。A、,https://doi.org/10.1007/s10107-019-01406-y。 ·Zbl 1400.90250号
[10] C.Cartis、N.I.Gould和P.L.Toint,无约束优化的自适应立方正则化方法。第二部分:最坏情况下函数和派生估值复杂性,数学。程序。序列号。A、 130(2011年),第295-319页·Zbl 1229.90193号
[11] C.Cartis、N.I.M.Gould和P.L.Toint,无约束优化的自适应立方正则化方法。第一部分:动机、收敛性和数值结果,数学。程序。序列号。A、 127(2011),第245-295页·Zbl 1229.90192号
[12] E.S.Coakley和V.Rokhlin,计算实对称三对角矩阵谱的快速分治算法,应用。计算。哈蒙。分析。,34(2013),第379-414页·Zbl 1264.65051号
[13] A.R.Conn、N.I.M.Gould和P.L.Toint,《托管区域方法》,MPS-SIAM Ser。最佳方案。SIAM,2000年,https://doi.org/10.1137/1.9780898719857。 ·Zbl 0958.65071号
[14] J.Cullum和W.E.Donath,计算代数最大特征值和大型稀疏实对称矩阵对应特征空间的块Lanczos算法,第13届IEEE决策与控制会议,IEEE,1974年,第505-509页。
[15] R.Ge,F.Huang,C.Jin,Y.Yuan,逃离鞍点:张量分解的在线随机梯度,第二十八届计算学习理论年会论文集,Proc。机器。学习。2015年第40号决议,第797-842页;可在获取http://processes.mlr.press/v40/。
[16] R.Ge、J.D.Lee和T.Ma,《矩阵完备没有伪局部极小值》,载于《第30届国际神经信息处理系统会议论文集》,2016年,第2981-2989页。
[17] R.Ge、C.Jin和Y.Zheng,非凸低阶问题中的无伪局部极小:统一几何分析,第34届机器学习国际会议论文集,第1233-1242页。
[18] G.Golub和C.V.Loan,《矩阵计算》,第二版,约翰霍普金斯大学出版社,1989年·Zbl 0733.65016号
[19] G.H.Golub和R.Underwood,计算特征值的块Lanczos方法,数学软件III,Elsevier,1977年,第361-377页·Zbl 0407.68040号
[20] N.I.M.Gould、S.Lucidi、M.Roma和P.L.Toint,使用Lanczos方法解决信任区域子问题,SIAM J.Optim。,9(1999),第504-525页,https://doi.org/10.1137/S1052623497322735。 ·Zbl 1047.90510号
[21] A.Griewank,《用有界三次项修正牛顿法进行无约束优化》,技术报告NA/12,1981年,https://doi.org/10.13140/RG.2.1.4097.2960。
[22] M.Hardt、T.Ma和B.Recht,梯度下降学习线性动力系统,J.Mach。学习。第19号决议(2018年),第1025-1068页·Zbl 1461.62150号
[23] E.Hazan和T.Koren,信赖域问题的线性时间算法,数学。程序。序列号。A、 158(2016),第363-381页·兹比尔1346.90654
[24] M.Hestenes和E.Stiefel,求解线性系统的共轭梯度方法,《自然研究杂志》。伯尔。《标准》,49(1952),第409-436页·Zbl 0048.09901号
[25] N.Ho-Nguyen和F.K\il\inc-Karzan,解决信任区域子问题及其变体的二阶锥基方法,SIAM J.Optim。,27(2017),第1485-1512页,https://doi.org/10.1137/16M1065197。 ·Zbl 1370.90170号
[26] J.M.Kohler和A.Lucchi,非凸优化的子样本立方正则化,《第34届机器学习国际会议论文集》,2017年,第1895-1904页。
[27] J.Kuczynáski和H.Wozániakowski,通过随机启动的幂和Lanczos算法估计最大特征值,SIAM J.Matrix Anal。申请。,13(1992),第1094-1122页,https://doi.org/10.1137/0613066。 ·兹伯利0759.65016
[28] 李毅和袁毅,具有ReLU激活的双层神经网络的收敛性分析,《神经信息处理系统进展》,2017年,第30期,第597-607页。
[29] C.Ma,K.Wang,Y.Chi,Y.Chen,非凸统计估计中的隐式正则化:梯度下降线性收敛用于相位恢复、矩阵补全和盲反褶积,Found。计算。数学。,出现·Zbl 1445.90089
[30] J.Martens和R.Grosse,用Kronecker-factored近似曲率优化神经网络,《第32届机器学习国际会议论文集》,2015年,第2408-2417页。
[31] J.M.Martiínez,欧几里德球和球体上二次函数的局部极小值,SIAM J.Optim。,4(1994),第159-176页,https://doi.org/10.1137/0804009。 ·Zbl 0801.65057号
[32] K.Murty和S.Kabadi,二次和非线性规划中的一些NP-完全问题,数学。编程,39(1987),第117-129页·Zbl 0637.90078号
[33] A.Nemirovski,凸规划中的有效方法,Technion,1994年·Zbl 0820.68058号
[34] A.Nemirovski和D.Yudin,优化中的问题复杂性和方法效率,Wiley,1983年·Zbl 0501.90062号
[35] Y.Nesterov,一种求解具有收敛速度的凸规划问题的方法\({O}(1/k^2)\),苏联数学。道克。,27(1983年),第372-376页·Zbl 0535.90071号
[36] Y.Nesterov,《凸优化导论》,Kluwer学术出版社,2004年·Zbl 1086.90045号
[37] Y.Nesterov和B.Polyak,牛顿方法的立方正则化及其全局性能,数学。程序。序列号。A、 108(2006),第177-205页·Zbl 1142.90500
[38] J.Nocedal和S.J.Wright,《数值优化》,施普林格出版社,2006年·兹比尔1104.65059
[39] B.A.Pearlmutter,黑森快速精确乘法,神经计算。,6(1994年),第147-160页。
[40] C.W.Royer和S.J.Wright,光滑非凸优化二阶线性搜索算法的复杂性分析,SIAM J.Optim。,28(2018),第1448-1477页,https://doi.org/10.1137/17M1134329。 ·Zbl 1391.49055号
[41] C.W.Royer、M.O'Neill和S.J.Wright,《具有复杂性保证的Newton-CG算法用于光滑无约束优化》,数学。程序。序列号。A、 180(2020年),第451-488页·Zbl 1448.90081号
[42] N.N.Schraudolph,二阶梯度下降的快速曲率矩阵向量乘积,神经计算。,14(2002),第1723-1738页·Zbl 1037.68119号
[43] M.Simchowitz、A.E.Alaoui和B.Recht,通过有限样本变形的Wigner定律实现PCA的紧查询复杂度下限,《第五十届ACM计算理论研讨会论文集》,2018年,第1249-1259页·Zbl 1428.68168号
[44] T.Steihaug,共轭梯度法和大规模优化中的信赖域,SIAM J.Numer。分析。,20(1983年),第626-637页,https://doi.org/10.1137/0720042。 ·兹比尔0518.65042
[45] J.Sun、Q.Qu和J.Wright,相位恢复的几何分析,Found。计算。数学。,18(2018),第1131-1198页·Zbl 1401.94049号
[46] P.D.Tao和L.T.H.An,求解信任区域子问题的D.C.优化算法,SIAM J.Optim。,8(1998),第476-505页,https://doi.org/10.1137/S1052623494274313。 ·Zbl 0913.65054号
[47] L.N.Trefethen和D.Bau III,《数值线性代数》,SIAM,1997年·Zbl 0874.65013号
[48] N.Tripuraneni、M.Stern、C.Jin、J.Regier和M.I.Jordan,快速非凸优化的随机立方正则化,《第32届神经信息处理系统国际会议论文集》,2018年,第2904-2913页。
[49] P.Tseng,《关于凹凸优化的加速近似梯度法》,2008年,网址:http://www.mit.edu/dimitrib/PTseng/papers/apgm.pdf。
[50] M.Weiser、P.Deufhard和B.Erdmann,非线性弹性力学的仿射共轭自适应牛顿方法,Optim。方法软件。,22(2007),第413-431页·Zbl 1128.74007号
[51] P.Xu、F.Roosta和M.W.Mahoney,不精确Hessian信息下非凸优化的Newton型方法,数学。程序。序列号。A、,https://doi.org/10.1007/s10107-019-01405-z。 ·Zbl 1451.90134号
[52] L.-H.Zhang、C.Shen和R.-C.Li,关于广义Lanczos信任区域方法,SIAM J.Optim。,27(2017),第2110-2142页,https://doi.org/10.1137/16M109056。 ·Zbl 1380.90210号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。