×

非凸组合优化的随机近似拟Newton方法。 (英语) Zbl 07111868号

摘要:在本文中,我们提出了一个用于求解非凸组合优化问题的随机近似拟牛顿(SPQN)方法的通用算法框架。研究随机二阶信息来构造近端子问题。在温和的条件下,我们证明了该算法对原问题的驻点的非渐近收敛性,并分析了其计算复杂性。此外,我们将Polyak-Łojasiewicz(PL)不等式的近端形式推广到约束条件下,得到了约束近端PL(CP-PL)不等式。在CP-PL不等式下,该算法实现了线性收敛速度。此外,我们在SPQN方法的框架中提出了一种改进的自缩放对称秩1方法,称为随机对称秩一方法。最后,我们进行了一些数值实验,以验证该算法的有效性。

MSC公司:

47N10号 算子理论在最优化、凸分析、数学规划、经济学中的应用
65K10码 数值优化和变分技术
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿加瓦尔,N。;布林斯,B。;哈赞。,E.,线性时间机器学习的二阶随机优化,J.Mach。学习。第18、116、1-40号决议(2017年)·Zbl 1441.90115号
[2] 阿连·朱,Z。,Natasha 2:比SGD更快的非凸优化,预印本(2017)。arXiv:1708.08694v2提供。
[3] 阿连·朱,Z。,Natasha:通过强非凸参数实现更快的随机非凸优化,预印本(2017)。可从arXiv:1702.00763获取。
[4] Z.Allen-Zhu和E.Hazan。,减少方差以实现更快的非凸优化《机器学习国际会议》,纽约州纽约市,2016年,第699-707页。
[5] Becker,S.和Fadili,J。,一种准Newton近端分裂方法《神经信息处理系统进展》,塔霍湖,2012年,第2618-2626页。
[6] A.S.Berahas、R.Bollapragada和J.Nocedal。,Newton-sketch和子采样Newton方法的研究,预印本(2017)。可从arXiv:1705.06211获取·Zbl 1454.90112号
[7] Bordes,A。;博图,L。;Gallinari,P.,Sgd-qn小心准Newton随机梯度下降,J.Mach。学习。研究,101737-1754(2009)·Zbl 1235.68130号
[8] 伯德·R·H。;Chin,G.M。;Nocedal,J。;Oztoprak,F.,凸正则优化的一类二阶方法,数学。程序。,159, 1-2, 435-467 (2016) ·Zbl 1350.49046号 ·doi:10.1007/s10107-015-0965-3
[9] 伯德·R·H。;Hansen,S.L。;Nocedal,J。;Singer,Y.,用于大规模优化的随机拟Newton方法,SIAM J.Optim。,26, 2, 1008-1031 (2016) ·Zbl 1382.65166号 ·数字对象标识代码:10.1137/140954362
[10] 伯德·R·H。;Khalfan,H.F。;Schnabel,R.B.,对称秩一信赖域方法分析,SIAM J.Optim。,6, 4, 1025-1039 (1996) ·兹伯利0923.65035 ·doi:10.137/S105263239352985
[11] Byrd,R.H.、Nocedal,J.和Oztoprak,F。,凸正则优化的非精确逐次二次逼近方法,预印本(2013)。可从arXiv:1309.3529获取·Zbl 1342.49037号
[12] Cauchy,A.L.,Méthode générale pour la résolution des systèmes d’équations simutane es,巴黎科学院,25536-538(1847)
[13] Cho,K.、Merrienboer,B.、Gulcehre,C.、Bahdanau,D.、Bougares,F.、Schwenk,H.和Bengio,Y。,使用rnn编码器学习短语表示以进行统计机器翻译,预印本(2014)。可从arXiv:1406.1078获取。
[14] A.R.康涅狄格州。;新墨西哥州古尔德。;Toint,Ph.L.,对称秩一更新生成的拟Newton矩阵的收敛性,数学。程序。,50, 2, 177-195 (1991) ·Zbl 0737.90062号 ·doi:10.1007/BF01594934
[15] F.E.柯蒂斯。,一种用于随机优化的自校正变尺度算法《机器学习国际会议》,纽约州纽约市,2016年,第632-641页。
[16] Defazio,A.、Bach,F.和Julien,S.L。,Saga:一种支持非强凸复合目标的快速增量梯度方法《神经信息处理系统进展》,蒙特利尔,2014年,第1646-1654页。
[17] 弗里德曼,J。;哈斯蒂,T。;Höfling,H。;Tibshirani,R.,路径坐标优化,Ann.Appl。统计,1,2,302-332(2007)·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[18] 加迪米,S。;兰·G。;Zhang,H.,非凸随机组合优化的Mini-bactch随机逼近方法,数学。程序。,155, 1-2, 267-305 (2016) ·Zbl 1332.90196号 ·doi:10.1007/s10107-014-0846-1
[19] Ghanbari,H.和Scheinberg,K。,具有线性和加速次线性收敛速度的正则化凸优化的近似拟Newton方法,预印本(2016)。可从arXiv:1607.03081获取·Zbl 1397.90301号
[20] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社:麻省剑桥麻省理学院出版社·Zbl 1373.68009号
[21] 谢家杰(Xieh,C.J.)、苏斯蒂克(Sustik,M.A.)、迪伦(Dhillon,I.S.)和拉维库玛(Ravikumar,P.)。,基于二次近似的稀疏逆协方差矩阵估计《神经信息处理系统进展》,格拉纳达,2011年,第2330-2338页。
[22] Johnson,R.和Zhang,T。,使用预测方差减少加速随机梯度下降《神经信息处理系统进展》,塔霍湖,2013年,第315-323页。
[23] Karimi,H.、Nutini,J.和Schmidt,M。,Polyak-łojasewicz条件下梯度和近端梯度方法的线性收敛性,欧洲机器学习和数据库知识发现联合会议,施普林格,里瓦·德尔加达,2016年,第795-811页。
[24] 卡里米,S。;Vavasis,S.,Imro:求解(####)正则最小二乘问题的近似拟Newton方法,SIAM J.Optim。,27, 2, 583-615 (2017) ·Zbl 1365.90202号 ·数字对象标识代码:10.1137/140966587
[25] Khalfan,H.F。;伯德·R·H。;Schnabel,R.B.,对称秩一更新的理论和实验研究,SIAM J.Optim。,3, 1, 1-24 ·Zbl 0771.65029号 ·数字对象标识代码:10.1137/0803001
[26] F.R.Khorasani和M.W.Mahoney。,子采样牛顿方法I:全局收敛算法,预印本(2016)。可从arXiv:1601.04737获取。
[27] F.R.Khorasani和M.W.Mahoney。,子样本牛顿法II:局部收敛速度,预印本(2016)。可从arXiv:1601.04738获取。
[28] Kim,D。;Sra,S。;Dhillon,I.S.,通过新的投影准牛顿方法处理箱约束优化,SIAM J.Sci。计算。,32, 6, 3548-3563 (2010) ·Zbl 1220.93085号 ·数字对象标识码:10.1137/08073812X
[29] Lee,J。;孙,Y。;Saunders,M.,最小化复合函数的近似牛顿型方法,SIAM。J.Optim。,24, 3, 1420-1443 (2014) ·Zbl 1306.65213号 ·doi:10.1137/130921428
[30] Lin,H.,Mairal,J.和Harchaoui,Z。,用于快速梯度优化的通用拟Newton算法,预印本(2016)。arXiv:1610.00960提供。
[31] Liu,X.,Xieh,C.,Lee,J.D.和Sun,Y。,大规模机器学习的非精确子样本近似牛顿型方法,预印本(2017)。可从arXiv:1708.08552获取。
[32] 罗,L.,陈,Z.,张,Z.和李,W。,一种近似随机拟Newton算法,预印本(2016)。可从arXiv:1602.00223获取。
[33] Mairal,J.,《应用于大规模机器学习的增量优化-最小化优化》,SIAM J.Optim。,25, 2, 829-855 (2015) ·Zbl 1320.90047号 ·doi:10.137/140957639
[34] Mine,H.公司。;Fukushima,M.,凸函数和连续可微函数之和的最小化方法,J.Optim。理论应用。,33, 1, 9-23 (1981) ·Zbl 0422.90070号 ·doi:10.1007/BF00935173
[35] 莫赫塔里(A.Mokhtari)、艾森(M.Eisen)和里贝罗(A.Ribeiro)。,IQN:具有局部超线性收敛速度的增量式拟Newton方法,预印本(2017)。可从arXiv:1702.00709获取·Zbl 1401.90121号
[36] 莫赫塔里,A。;Ribeiro,A.,RES:正则随机BFGS算法,IEEE Trans。信号处理。,62, 23, 6089-6104 (2014) ·Zbl 1394.94405号 ·doi:10.1109/TSP.2014.2357775
[37] Moritz,P.、Nishihara,R.和Jordan,M.I。,线性收敛随机L-BFGS算法《人工智能与统计》,2016年,第249-258页。
[38] Nocedal,J。;Wright,S.J.,数值优化(2006),Springer:Springer,纽约·Zbl 1104.65059号
[39] 奥斯本,M.R。;Sun,L.P.,对称秩一更新的新方法,IMA J.Numer。分析。,19, 4, 497-507 (1999) ·Zbl 0940.65071号 ·doi:10.1093/imanum/19.4.497
[40] Powell,M.J.D.,《使用拉格朗日函数的非线性约束算法》,数学。程序。,14, 1, 224-248 (1978) ·Zbl 0383.90092号 ·doi:10.1007/BF01588967
[41] Reddi,S.J.、Hefny,A.、Sra,S.、Póczos,B.和Smola,A.J。,非凸优化的随机方差约简《机器学习国际会议》,纽约州纽约市,2016年,第314-323页。
[42] Reddi,S.J.、Sra,S.、Póczos,B.和Smola,A。,非凸优化的快速增量方法,预印本(2016)。可从arXiv:1603.06159获取。
[43] Reddi,S.J.、Sra,S.、Póczos,B.和Smola,A。,非光滑非凸优化的快速随机方法,预印本(2016)。可从arXiv:1605.06900获取。
[44] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,3,400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[45] Rodomanov,A.和Kropotov,D。,有限和优化的超线性收敛近似牛顿型方法,国际机器学习会议,纽约州纽约市,2016年,第2597-2605页。
[46] 施密特,M。;Berg,E.等人。;弗里德兰德,M.P。;Murphy,K.,用简单约束优化代价函数:有限内存投影拟牛顿算法,J.Mach。学习。第5号决议,456-463(2009年)
[47] Schmidt,M.、Kim,D.和Sra,S。,机器学习中的投影牛顿型方法,英寸机器学习优化S.Sra、S.Nowozin和S.Wright编辑,麻省理工学院出版社,马萨诸塞州剑桥,2011年。
[48] 施密特,M。;Roux,N.L。;巴赫,F.,用随机平均梯度最小化有限和,数学。程序。,160, 1-2, 83-112 (2017) ·Zbl 1358.90073号 ·doi:10.1007/s10107-016-1030-6
[49] Schraudolph,N.N.、Yu,J.和Günte,S。,在线凸优化的随机拟Newton方法,J.马赫。学习。第2号决议(2007年),第436-443页。
[50] Shalev-Shwartz,S.和Zhang,T。,近距离随机双坐标上升,预印本(2012)。可从arXiv:1212.2717获取。
[51] 沙列夫·施瓦茨,S。;Zhang,T.,正则损失的随机双坐标上升法,J.Mach。学习。第14号、第1号、第567-599号决议(2017年)·Zbl 1307.68073号
[52] Shi,Z.和Liu,R。,近端随机Newton型梯度下降大规模优化《数据库中的机器学习和知识发现欧洲联合会议》,施普林格出版社,2015年,第691-704页。
[53] Shwartz,S。;Tewari,A.,《(####)正则化损失最小化的随机方法》,J.Mach。学习。第12号决议,1865-1892年(2011年)·Zbl 1280.62081号
[54] Spellucci,P.,收敛于q超线性的修正秩一更新,计算。最佳方案。申请。,19, 4, 273-296 (2001) ·Zbl 1009.90131号 ·doi:10.1023/A:1011259905470
[55] Sun,L.P.,用有限内存更新大规模无约束优化的自缩放对称秩一算法,计算。最佳方案。申请。,27, 1, 23-29 ·Zbl 1045.90064号
[56] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B、 58、1、267-288(1996)·Zbl 0850.62538号
[57] 王,X。;马,S。;Goldfarb,D。;Liu,W.,非凸随机优化的随机拟Newton方法,SIAM J.Optim。,27, 2, 927-956 (2017) ·Zbl 1365.90182号 ·doi:10.1137/15M1053141
[58] 肖,L。;Zhang,T.,带逐步方差缩减的近似随机梯度法,SIAM J.Optim。,2057-2075年4月24日(2014年)·兹比尔1321.65016 ·doi:10.137/140961791
[59] Yu,X.和Tao,D。,非凸组合优化的方差缩减近似随机梯度下降法,预印本(2016)。可从arXiv:1606.00602获取。
[60] 袁国喜。;Chang,K.W。;谢长杰。;Lin,C.J.,《大规模正则化线性分类优化方法和软件的比较》,J.Mach。学习。决议,11,3183-3234(2010)·Zbl 1242.62065号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。