×

非光滑非凸优化的随机半光滑牛顿法。 (英语) Zbl 1434.90108号

摘要:在这项工作中,我们提出了一种全局随机半光滑牛顿方法,用于解决目标函数中包含光滑非凸项和非光滑凸项的随机优化问题。我们假设通过调用随机的一阶和二阶预言符,只有目标函数平滑部分的噪声梯度和Hessian信息可用。该方法可以看作是一种结合随机半光滑牛顿步和随机近似梯度步的混合方法。引入两个不精确增长条件来监控半光滑牛顿步长的收敛性和可接受性,结果表明该算法在期望和几乎肯定的情况下全局收敛到稳定点。我们给出了l1正则化逻辑回归和非凸二元分类的数值结果和比较,证明了该算法的有效性。

MSC公司:

90立方厘米 随机规划
90C26型 非凸规划,全局优化
62-08 统计问题的计算方法
65千5 数值数学规划方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] N.Agarwal、B.Bullins和E.Hazan,线性时间机器学习的二阶随机优化,J.Mach。学习。决议,18(2017),第1-40页,http://jmlr.org/papers/v18/16-491.html。 ·兹比尔1441.90115
[2] C.D.Aliprantis和K.C.Border,《无限维分析》,第三版,施普林格出版社,柏林,2006年·Zbl 1156.46001号
[3] Z.Allen-Zhu,Katyusha:随机梯度方法的第一次直接加速,载于2017年第49届ACM SIGACT计算机理论研讨会论文集,第1200-1205页·Zbl 1369.68273号
[4] Z.Allen-Zhu,Natasha:《通过强非凸参数实现更快的非凸随机优化》。马赫。学习。第70号决议,PMLR出版社,2017年,第89-97页。
[5] Z.Allen-Zhu和E.Hazan,《更快非凸优化的方差缩减》,载《第33届机器学习国际会议论文集》,2016年,第699-707页。
[6] F.Bach、R.Jenatton、J.Mairal和G.Obozinski,《发现稀疏诱导惩罚的优化》。趋势马赫数。学习。,4(2011),第1-106页,https://doi.org/10.1561/220000015。 ·Zbl 06064248号
[7] H.H.Bauschke和P.L.Combettes,Hilbert空间中的凸分析和单调算子理论,CMS图书数学/Ouvrages数学。SMC,施普林格,纽约,2011年,https://doi.org/10.1007/978-1-4419-9467-7。 ·Zbl 1218.47001号
[8] A.Beck和M.Teboulle,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2(2009),第183-202页,https://doi.org/10.1137/080716542。 ·Zbl 1175.94009号
[9] A.S.Berahas、R.Bollapragada和J.Nocedal,《牛顿-斯科特和子样本牛顿方法的研究》,https://arxiv.org/abs/1705.06211,2017年·Zbl 1454.90112号
[10] R.Bhattacharya和E.C.Waymire,《概率论基础课程》,第二版,Universitext,Springer,Cham,2016年,https://doi.org/10.1007/978-3-319-47974-3。 ·Zbl 1357.60001号
[11] J.A.Blackard和D.J.Dean,从制图变量预测森林覆盖类型的人工神经网络和判别分析的比较准确性,计算机电子农业,24(1999),第131-151页。
[12] R.Bollapragada、R.Byrd和J.Nocedal,优化的精确和不精确子采样牛顿方法,IMA J.Numer。分析。,39(2019),第545-578页·Zbl 1462.65077号
[13] A.Bordes,L.Bottou和P.Gallinari,SGD-QN:谨慎的准Newton随机梯度下降,J.Mach。学习。Res.,10(2009),第1737-1754页·Zbl 1235.68130号
[14] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页,https://doi.org/10.1137/16M1080173。 ·Zbl 1397.65085号
[15] R.H.Byrd、G.M.Chin、W.Neveit和J.Nocedal,《关于随机Hessian信息在机器学习优化方法中的使用》,SIAM J.Optim。,21(2011),第977-995页,https://doi.org/10.1137/10079923X。 ·Zbl 1245.65062号
[16] R.H.Byrd、G.M.Chin、J.Nocedal和Y.Wu,机器学习优化方法中的样本大小选择,数学。程序。,134(2012),第127-155页,https://doi.org/10.1007/s10107-012-0572-5。 ·Zbl 1252.49044号
[17] R.H.Byrd、S.L.Hansen、J.Nocedal和Y.Singer,大规模优化的随机拟Newton方法,SIAM J.Optim。,26(2016),第1008-1031页,https://doi.org/10.1137/10954362。 ·Zbl 1382.65166号
[18] F.H.Clarke,《优化与非光滑分析》,第二版,经典应用。数学。5,SIAM,费城,1990年,https://doi.org/10.1137/1.9781611971309。 ·Zbl 0696.49002号
[19] P.L.Combettes和V.R.Wajs,近端前向-后向分裂信号恢复,多尺度模型。同时。,4(2005),第1168-1200页,https://doi.org/10.1137/050626090。 ·Zbl 1179.94031号
[20] C.D.Dang和G.Lan,非光滑随机优化的随机块镜下降法,SIAM J.Optim。,25(2015),第856-881页,https://doi.org/10.1137/10936361。 ·Zbl 1353.90095号
[21] A.Defazio、F.Bach和S.Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度法,摘自《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2014年,第1646-1654页。
[22] L.Deng和D.Yu,深度学习:方法和应用,发现。趋势信号处理。,7(2014),第197-387页,https://doi.org/10.1561/2000039。 ·Zbl 1315.68208号
[23] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·兹比尔1280.68164
[24] M.A.Erdogdu和A.Montanari,亚采样牛顿方法的收敛速度,《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2015年,第3034-3042页。
[25] F.Facchinei和J.-S.Pang,《有限维变分不等式和互补性问题》,第二卷,斯普林格,纽约,2003年·Zbl 1062.90002号
[26] M.P.Friedlander和M.Schmidt,数据拟合的混合确定性随机方法,SIAM J.Sci。计算。,34(2012),第A1380-A1405页,https://doi.org/10.1137/10830629。 ·Zbl 1262.90090号
[27] M.Fukushima和H.Mine,某些非凸最小化问题的广义近点算法,国际。系统科学杂志。,12(1981),第989-1000页,https://doi.org/10.1080/00207728108963798。 ·Zbl 0467.65028号
[28] S.Ghadimi和G.Lan,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,23(2013),第2341-2368页,https://doi.org/10.1137/120880811。 ·Zbl 1295.90026号
[29] S.Ghadimi和G.Lan,非凸非线性随机规划的加速梯度法,数学。程序。,156(2016),第59-99页,https://doi.org/10.1007/s10107-015-0871-8。 ·Zbl 1335.62121号
[30] S.Ghadimi、G.Lan和H.Zhang,非凸随机组合优化的Minibatch随机逼近方法,数学。程序。,155(2016),第267-305页,https://doi.org/10.1007/s10107-014-0846-1。 ·Zbl 1332.90196号
[31] G.H.Golub和C.F.Van Loan,《矩阵计算》,第四版,约翰霍普金斯数学研究所。科学。,约翰·霍普金斯大学出版社,马里兰州巴尔的摩,2013年·Zbl 1268.65037号
[32] R.Gower、D.Goldfarb和P.Richtarik,《随机块BFGS:从数据中挤出更多曲率》,载《第33届机器学习国际会议论文集》,2016年,第1869-1878页。
[33] I.Guyon、S.Gunn、A.Ben-Hur和G.Dror,《NIPS 2003特征选择挑战的结果分析》,摘自《神经信息处理系统进展》,17,麻省理工学院出版社,麻省剑桥,2004年,第545-552页,http://papers.nips.cc/paper/2728-result-analysis-of-the-nips-2003-feature-selection-challenge.pdf。
[34] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素:数据挖掘、推断和预测》,第二版,Springer Ser。统计人员。,纽约州施普林格,https://doi.org/10.1007/978-0-387-84858-7, 2009. ·Zbl 1273.62005年
[35] K.Jiang,D.Sun,和K.-C.Toh,核范数正则化矩阵最小二乘问题的部分近点算法,数学。程序。计算。,6(2014年),第281-325页,https://doi.org/10.1007/s12532-014-0069-8。 ·兹伯利1327.90109
[36] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2013年,第315-323页。
[37] Y.LeCun、Y.Bengio和G.Hinton,《深度学习》,《自然》,521(2015),第436-444页,https://doi.org/10.1038/nature14539。
[38] Y.LeCun、C.Cortes和C.J.C.Burges,MNIST手写数字数据库,网址:http://yann.lecun.com/exdb/mnist(2010年)。
[39] J.D.Lee、Y.Sun和M.A.Saunders,最小化复合函数的近似牛顿型方法,SIAM J.Optim。,24(2014),第1420-1443页,https://doi.org/10.1137/10921428。 ·兹比尔1306.65213
[40] D.D.Lewis、Y.Yang、T.G.Rose和F.Li,RCV1:文本分类研究的新基准集合,J.Mach。学习。Res.,5(2004),第361-397页。
[41] H.Lin、J.Mairal和Z.Harchaoui,《一阶优化的通用催化剂》,摘自《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2015年,第3384-3392页。
[42] J.Mairal、F.Bach、J.Ponce和G.Sapiro,《稀疏编码的在线词典学习》,第26届ICML年会论文集,纽约,2009年,第689-696页,https://doi.org/10.1145/1553374.1553463。 ·Zbl 1242.62087号
[43] L.Mason、J.Baxter、P.Bartlett和M.Frean,函数空间中作为梯度下降的Boosting算法,《NIPS学报》,1999年,第512-518页,http://dl.acm.org/citation.cfm?id=3009657.3009730。
[44] A.Milzarek,非光滑问题的数值方法和二阶理论,慕尼黑理工大学博士论文,2016年。
[45] A.Milzarek和M.Ulbrich,(l_1)-优化的多维滤波器全球化半光滑牛顿法,SIAM J.Optim。,24(2014),第298-333页,https://doi.org/10.1137/120892167。 ·Zbl 1295.49022号
[46] A.Milzarek、X.Xiao、S.Cen、Z.Wen和M.Ulbrich,非光滑非凸优化的随机半光滑牛顿法,https://arxiv.org/abs/1803.03466, 2018. ·Zbl 1434.90108号
[47] A.Mokhtari和A.Ribeiro,RES:正则化随机BFGS算法,IEEE Trans。信号处理。,62(2014),第6089-6104页,https://doi.org/10.109/TSP.2014.2357775。 ·Zbl 1394.94405号
[48] J.-J.Moreau,Proximite®et dualite®dans un espace hilbertien,公牛。社会数学。法国,93(1965),第273-299页·Zbl 0136.12101号
[49] P.Moritz、R.Nishihara和M.Jordan,线性收敛随机L-BFGS算法,《第19届国际人工智能与统计会议论文集》,2016年,第249-258页。
[50] A.Nemirovski、A.Juditsky、G.Lan和A.Shapiro,随机规划的稳健随机近似方法,SIAM J.Optim。,19(2008),第1574-1609页,https://doi.org/10.1137/070704277。 ·Zbl 1189.90109号
[51] N.Parikh和S.Boyd,发现近似算法。最佳趋势。,1(2014),第127-239页,https://doi.org/10.1561/2400000003。
[52] P.Patrinos,L.Stella和A.Bempoad,凸组合优化的前向-后向截断牛顿方法,https://arxiv.org/abs/1402.6655, 2014.
[53] M.Pilanci和M.J.Wainwright,《牛顿草图:具有线性二次收敛性的近线性时间优化算法》,SIAM J.Optim。,27(2017),第205-245页,https://doi.org/10.1137/15M1021106。 ·Zbl 1456.90125号
[54] 李琦,解非光滑方程的一些算法的收敛性分析,数学。操作。Res.,18(1993),第227-244页,https://doi.org/10.1287/moor.18.1.227。 ·Zbl 0776.65037号
[55] L.Qi和J.Sun,牛顿方法的非光滑版本,数学。程序。,58(1993),第353-367页,https://doi.org/10.1007/BF01581275。 ·Zbl 0780.90090号
[56] S.J.Reddi、A.Hefny、S.Sra、B.Poíczos和A.J.Smola,非凸优化的随机方差缩减,《第33届机器学习国际会议论文集》,2016年,第314-323页。
[57] S.J.Reddi、S.Sra、B.Poíczos和A.J.Smola,非光滑非凸有限和优化的近似随机方法,《神经信息处理系统中的进展》29,麻省理工学院出版社,马萨诸塞州剑桥,2016年,第1145-1153页,http://papers.nips.cc/paper/pdf。
[58] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。《统计》,22(1951),第400-407页·Zbl 0054.05901号
[59] R.T.Rockafellar,积分泛函,正规积分和可测选择,数学课堂讲稿。543,施普林格,纽约,1976年,第157-207页·Zbl 0374.49001号
[60] F.Roosta-Khorasani和M.W.Mahoney,子样本牛顿方法,数学。程序。,174(2019),第293-326页·Zbl 1412.49059号
[61] J.Schmidhuber,《神经网络中的深度学习:概述》,神经网络。,61(2015),第85-117页,https://doi.org/10.1016/j.neunet.2014.09.003。
[62] M.Schmidt、N.Le Roux和F.Bach,用随机平均梯度最小化有限和,数学。程序。,162(2017),第83-112页,https://doi.org/10.1007/s10107-016-1030-6。 ·Zbl 1358.90073号
[63] N.N.Schraudolph、J.Yu和S.Gu¨nter,在线凸优化的随机拟Newton方法,第11届国际人工智能与统计会议论文集,2007年第2卷,第436-443页,http://proceedings.mlr.press/v2/schraudolph07a.html。
[64] S.Shalev-Shwartz和S.Ben-David,《理解机器学习:从理论到算法》,剑桥大学出版社,纽约,2014年·Zbl 1305.68005号
[65] 史志伟和刘瑞荣,具有近似随机牛顿型梯度下降的大规模优化,马赫数。学习。知识。光盘。数据库9284,Springer,纽约,2015,第691-704页,https://doi.org/10.1007/978-3-319-2328-8_43。
[66] L.Stella、A.Themelis和P.Patrinos,非光滑优化问题的正向准牛顿方法,计算。优化。申请。,67(2017),第443-487页,https://doi.org/10.1007/s10589-017-9912-y。 ·Zbl 1401.90226号
[67] D.Sun和J.Sun,半光滑矩阵值函数,数学。操作。Res.,27(2002),第150-169页,https://doi.org/10.1287/moor.27.1.150.342。 ·Zbl 1082.49501号
[68] A.Themelis、M.Ahookhosh和P.Patrinos,关于通过不精确牛顿方法加速前后分裂,https://arxiv.org/abs/1811.02935,2018年·Zbl 1461.90105号
[69] R.Tomioka、T.Suzuki和M.Sugiyama,稀疏正则估计的对偶增广拉格朗日算法的超线性收敛,J.Mach。学习。Res.,12(2011),第1537-1586页·Zbl 1280.68206号
[70] P.Tseng和S.Yun,非光滑可分离极小化的坐标梯度下降法,数学。程序。,117(2009),第387-423页,https://doi.org/10.1007/s10107-007-0170-0。 ·Zbl 1166.90016号
[71] M.Ulbrich,函数空间中算子方程的半光滑牛顿方法,SIAM J.Optim。,13(2002),第805-842页(2003),https://doi.org/10.1137/S1052623400371569。 ·Zbl 1033.49039号
[72] J.Wang和T.Zhang,利用小批量随机方差缩减近似迭代改进有限和优化,https://arxiv.org/abs/1706.07001, 2017.
[73] X.Wang,S.Ma,D.Goldfarb,and W.Liu,非凸随机优化的随机拟Newton方法,SIAM J.Optim。,27(2017),第927-956页,https://doi.org/10.1137/15M1053141。 ·Zbl 1365.90182号
[74] 营销数据集、因果关系工作台团队、,http://www.causality.inf.ethz.ch/data/CINA.html (2008).
[75] 药理学数据集,因果关系工作台团队,http://www.causality.inf.ethz.ch/data/SIDO.html (2008).
[76] S.J.Wright、R.D.Nowak和M.A.T.Figueiredo,可分离近似稀疏重建,IEEE Trans。信号处理。,57(2009),第2479-2493页,https://doi.org/10.109/TSP.2009.2016892。 ·Zbl 1391.94442号
[77] L·肖和T·张,带逐步方差缩减的近似随机梯度法,SIAM J.Optim。,24(2014),第2057-2075页,https://doi.org/10.1137/10961791。 ·Zbl 1321.65016号
[78] X.Xiao,Y.Li,Z.Wen,L.Zhang,复合凸规划的带投影步长的正则化半光滑牛顿法,J.Sci。计算。,76(2018),第364-389页,https://doi.org/10.1007/s10915-017-0624-3。 ·Zbl 1394.90534号
[79] P.Xu,F.Roosta-Khorasani,M.W.Mahoney,非精确Hessian信息下非凸优化的Newton型方法,https://arxiv.org/abs/11708.07164, 2017. ·Zbl 1451.90134号
[80] P.Xu、F.Roosta-Khorasani和M.W.Mahoney,非凸机器学习的二阶优化:实证研究,https://arxiv.org/abs/1708.07827, 2017.
[81] P.Xu、J.Yang、F.Roosta Khorasani、C.Ré和M.W.Mahoney,《非均匀采样的次采样牛顿方法》,《神经信息处理系统进展》,2016年,第3000-3008页。
[82] 许永华,尹永华,凸优化与非凸优化的块随机梯度迭代,SIAM J.Optim。,25(2015),第1686-1716页,https://doi.org/10.1137/10983938。 ·Zbl 1342.93125号
[83] Z.Yao,P.Xu,F.Roosta-Khorasani,M.W.Mahoney,非精确非凸牛顿型方法,https://arxiv.org/abs/1802.06925, 2017.
[84] H.Ye、L.Luo和Z.Zhang,近似牛顿方法及其局部收敛性。马赫。学习。第70号决议,PMLR出版社,2017年,第3931-3939页,http://proceedings.mlr.press/v70/ye17a.html。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。