×

将随机自适应立方正则化与负曲率相结合用于非凸优化。 (英文) Zbl 1432.90096号

摘要:我们专注于最小化机器学习问题中通常出现的非凸有限和函数。为了解决这个问题,自适应三次正则化牛顿方法显示了其强大的全局收敛保证和逃离严格鞍点的能力。在本文中,我们将该算法扩展到结合负曲率方法来更新,即使在迭代不成功的情况下也是如此。我们称这种新方法为负曲率随机自适应立方正则化(SANC)。与之前的方法不同,为了获得随机梯度和Hessian估计量,SANC算法在所有迭代中使用大小一致的独立数据点集。这使得SANC算法更适用于解决大规模机器学习问题。据我们所知,这是第一种将负曲率方法与自适应立方正则牛顿方法相结合的方法。最后,我们提供了实验结果,包括支持我们方法效率的神经网络问题。

MSC公司:

90立方厘米 随机规划
90C26型 非凸规划,全局优化
49英里15 牛顿型方法
65K10码 数值优化和变分技术
90摄氏度06 数学规划中的大尺度问题
90C60型 数学规划问题的抽象计算复杂性
4.95亿 基于必要条件的数值方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Curtis,F.E.,Robinson,D.P.:在确定性和随机优化中利用负曲率。arXiv预印arXiv:1703.00412(2017)·Zbl 1417.49036号
[2] 刘,M。;李,Z。;王,X。;Yi,J。;Yang,T。;麦克·莫泽(Mc Mozer);米·乔丹(Mi Jordan);Petsche,T.,《自适应负曲率下降及其在非凸优化中的应用》,神经信息处理系统进展,4854-4863(2018),剑桥:麻省理工学院出版社,剑桥
[3] 卡诺,J。;Moguerza,Jm;Prieto,Fj,使用改进的负曲率方向解决有界约束非凸问题,J.Optim。理论应用。,174, 2, 474-499 (2017) ·Zbl 1373.90144号 ·doi:10.1007/s10957-017-1137-9
[4] Reddi,S.J.,Zaheer,M.,Sra,S.,Poczos,B.,Bach,F.,Salakhutdinov,R.,Smola,A.J.:逃离鞍点的通用方法。arXiv预印arXiv:1709.01434(2017)
[5] 库钦斯基,J。;Woźniakowski,H.,通过随机启动的幂和lanczos算法估计最大特征值,SIAM J.矩阵分析。申请。,13, 4, 1094-1122 (1992) ·兹伯利0759.65016 ·数字对象标识代码:10.1137/0613066
[6] Oja,E.,作为主成分分析仪的简化神经元模型,J.Math。生物学,15,3,267-273(1982)·Zbl 0488.92012号 ·doi:10.1007/BF00275687
[7] Martens,J.:通过无hessian优化进行深度学习。收录于:ICML第27卷,第735-742页(2010年)
[8] Martens,J.,Sutskever,I.:使用无hessian优化学习递归神经网络。摘自:《第28届机器学习国际会议论文集》(ICML-11),第1033-1040页。Citeser(2011)
[9] 阿加瓦尔,N。;布林斯,B。;Hazan,E.,线性时间机器学习的二阶随机优化,J.Mach。学习。第18号、第1号、第4148-4187号决议(2017年)·兹比尔1441.90115
[10] 葡萄酒,O。;波维,D。;Gale,Wa,Krylov子空间下降深度学习,人工智能与统计,1261-1268(2012),波士顿:Addison-Wesley Pub。Co.,波士顿
[11] 罗德·伯德;汉森,Sl;Nocedal,J。;Singer,Y.,大规模优化的随机拟牛顿法,SIAM J.Optim。,26, 2, 1008-1031 (2016) ·Zbl 1382.65166号 ·数字对象标识代码:10.1137/140954362
[12] Pearlmutter,Ba,Hessian的快速精确乘法,神经计算。,6, 1, 147-160 (1994) ·doi:10.1162/neco.1996.1.147
[13] Griewank,A.:通过边界三次项对牛顿法进行无约束优化的修正。技术报告,NA/12(1981)
[14] 内斯特罗夫,Y。;Polyak,Bt,牛顿法的立方正则化及其全局性能,数学。程序。,108, 1, 177-205 (2006) ·Zbl 1142.90500 ·doi:10.1007/s10107-006-0706-8
[15] 王,X。;马,S。;Goldfarb,D。;Liu,W.,非凸随机优化的随机拟Newton方法,SIAM J.Optim。,27, 2, 927-956 (2017) ·Zbl 1365.90182号 ·doi:10.1137/15M1053141
[16] Wang,Z.,Zhou,Y.,Liang,Y.、Lan,G.:非凸优化的动量三次正则化。arXiv预印arXiv:1810.03763(2018)
[17] Cartis,C。;古尔德,镍;Toint,Pl,无约束优化的自适应立方正则化方法。第一部分:动机、收敛性和数值结果,数学。程序。,127, 2, 245-295 (2011) ·Zbl 1229.90192号 ·doi:10.1007/s10107-009-0286-5
[18] Cartis,C。;古尔德,镍;Toint,Pl,无约束优化的自适应立方正则化方法。第二部分:最坏情况下函数和派生估值复杂性,数学。程序。,130, 2, 295-319 (2011) ·Zbl 1229.90193号 ·doi:10.1007/s10107-009-0337-y
[19] Kohler,J.M.,Lucchi,A.:非凸优化的子样本立方正则化。arXiv预印arXiv:1705.05933(2017)
[20] Bergou,呃;Diouane,Y。;Gratton,S.,受自适应三次正则化框架和复杂性分析启发的线性搜索算法,J.Optim。理论应用。,178, 3, 885-913 (2018) ·Zbl 1417.90097号 ·doi:10.1007/s10957-018-1341-2
[21] 王,X。;风扇,N。;Pardalos,Pm,用于大规模鲁棒机会约束支持向量机的随机次梯度下降方法,Optim。莱特。,11, 5, 1013-1024 (2017) ·Zbl 1373.90090号 ·doi:10.1007/s11590-016-1026-4
[22] Carmon,Y.,Duchi,J.C.:梯度下降有效地找到立方正则非凸牛顿步长。arXiv预印本arXiv:161200547(2016)·Zbl 1461.65135号
[23] Ritz,W.,《新方法》zurösung gewisser variations problem der mathematischen physik,Journal für die reine und angewandte Mathematik(Crelles J.),1909,135,1-61(1909)·doi:10.1515/crll.1909.135.1
[24] Lee,J.D.,Simchowitz,M.,Jordan,M.I.,Recht,B.:梯度下降收敛于极小值。arXiv预印arXiv:1602.04915(2016)
[25] Gross,D.,从任何基础上的少数系数中恢复低秩矩阵,IEEE Trans。Inf.理论,57,3,1548-1566(2011)·Zbl 1366.94103号 ·doi:10.1109/TIT.2011.2104999
[26] Ghadimi,S.,Liu,H.,Zhang,T.:不精确信息下具有立方正则化的二阶方法。arXiv预印arXiv:1710.05782(2017)
[27] Roosta-Khorasani,F.,Mahoney,M.W.:子样本牛顿法II:局部收敛速度。arXiv预印arXiv:1601.04738(2016)·Zbl 1412.49059号
[28] Agarwal,N.,Allen-Zhu,Z.,Bullins,B.,Hazan,E.,Ma,T.:寻找近似局部极小值比梯度下降更快。摘自:第49届ACM SIGACT计算机理论年会论文集,第1195-1199页。ACM(2017)·Zbl 1369.68290号
[29] 卡蒙,Y。;Duchi,Jc;Hinder,O。;Sidford,A.,非凸优化的加速方法,SIAM J.Optim。,28, 2, 1751-1772 (2018) ·Zbl 1400.90250号 ·doi:10.1137/17M1114296
[30] Allen Zhu,Z。;麦克·莫泽(Mc Mozer);米·乔丹(Mi Jordan);Petsche,T.,Natasha 2:比sgd更快的非凸优化,《神经信息处理系统进展》,2675-2686(2018),剑桥:麻省理工学院出版社,剑桥
[31] Allen-Zhu,Z。;李毅。;麦克·莫泽(Mc Mozer);米·乔丹(Mi Jordan);Petsche,T.,《Neon2:通过一阶神谕发现局部极小值》,《神经信息处理系统进展》,3716-3726(2018),剑桥:麻省理工学院出版社,剑桥
[32] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。摘自:《第十三届国际人工智能与统计会议记录》,第249-256页(2010年)
[33] Chang,抄送:;Lin,Cj,Libsvm:支持向量机库,ACM Trans。智力。系统。Technol公司。(蒂斯),2,3,27(2011)
[34] Lecun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,11,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[35] Krizhevsky,A.,Hinton,G.:从微小图像中学习多层特征。技术报告,Citeser(2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。