×

ProxSARAH:一个用于随机复合非凸优化的有效算法框架。 (英语) 兹比尔1508.90041

摘要:我们提出了一种新的随机一阶算法框架,用于解决同时包含有限和和期望设置的随机复合非凸优化问题。我们的算法依赖于SARAH估计器,由两个步骤组成:近端梯度和平均步骤,这使它们不同于现有的非凸近端型算法。如果应用于期望问题,该算法只需要非凸目标项的平均光滑性假设和额外的有界方差假设。它们可以使用恒定和动态步长,同时允许使用单个样本和迷你背带。在所有这些情况下,我们证明了我们的算法可以根据随机一阶预言实现最著名的复杂度界。我们的方法的一个关键步骤是新的常量和动态步长,从而在提高实际性能的同时达到所需的复杂度界限。在单样本情况下,我们的恒定步长比现有方法(包括近端SVRG方案)要大得多。我们还将我们的框架指定给非复合情况,该情况涵盖了oracle复杂性边界方面的现有状态。我们的更新还允许在步长和迷你背带尺寸之间进行权衡,以提高性能。我们使用几个著名的数据集在两个复合非凸问题和神经网络上测试了所提出的算法。

MSC公司:

90立方厘米15 随机规划
62L20型 随机近似
90C26型 非凸规划,全局优化
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin、S.Ghemawat、I.Goodfellow、A.Harp、G.Irving、M.Isard、Y.Jia、R.Jozefowicz、L.Kaiser、M.Kudlur、J.Levenberg、D.Mané、R.Monga、S.Moore D.Murray、C.Olah、M.Schuster、J.Shlens、B.Steiner、I.Sutskever、K.Talwar、P.Tucker、。Vanhoucke、V.Vasudevan、F.Vi´egas、O.Vinyals、P.Warden、M.Wattenberg、M.Wicke、Y.Yu和X.Zheng。TensorFlow:异构系统上的大规模机器学习,2015年。统一资源定位地址https://www.tensorflow.org/。软件可从tensorflow.org获得。
[2] A.Agarwal、P.L.Bartlett、P.Ravikumar和M.J.Wainwright。随机凸优化预言复杂性的信息论下限。IEEE信息理论汇刊,99:1-12010。
[3] Z.Allen-Zhu。卡秋莎:随机梯度法的第一次直接加速。ACM SIGACT计算机理论年度研讨会(STOC),第1200-1205页,加拿大蒙特利尔,2017年·Zbl 1369.68273号
[4] Z.Allen-Zhu。Natasha 2:比SGD更快的非凸优化。神经信息处理系统研究进展,第2675-26860页,加拿大蒙特利尔,2018年。
[5] Z.Allen-Zhu和Y.Li.NEON2:通过一阶神谕找到局部极小值。神经信息处理系统研究进展,第3720-3730页,加拿大蒙特利尔,2018年。
[6] Z.Allen-Zhu和Y.Yuan。针对非强凸目标或非凸目标之和的改进SVRG。2016年,在美国纽约举行的国际机器学习会议(ICML)上,第1080-1089页。
[7] Y.Arjevani、Y.Carmon、J.C.Duchi、D.J.Foster、N.Srebro和B.Woodworth。非凸随机优化的下界。arXiv:1912.023652019。
[8] H.H.Bauschke和P.Combettes。Hilbert空间中的凸分析和单调算子理论。Springer-Verlag,第二版,2017年·Zbl 1359.26003号
[9] L.博图。具有随机梯度下降的大规模机器学习。国际计算统计会议(COMPSTAT),第177-186页,法国巴黎,2010年·兹比尔1436.68293
[10] L.Bottou、F.E.Curtis和J.Nocedal。大规模机器学习的优化方法。SIAM评论(SIREV),60(2):223-3112018·Zbl 1397.65085号
[11] L.博图。在线学习和随机近似。David Saad,编辑,《神经网络在线学习》,第9-42页。剑桥大学出版社,英国剑桥,1998年·Zbl 0968.68127号
[12] A.Chambolle、M.J.Ehrhardt、P.Richt'arik和C.B.Sch¨onlieb。具有任意采样和成像应用的随机原始-对偶混合梯度算法。SIAM优化杂志(SIOPT),28(4):2783-28082018·Zbl 06951767号
[13] C.-C.Chang和C.-J.Lin.LIBSVM:支持向量机库。ACM智能系统与技术汇刊,2011年2月27日:1-27日。
[14] A.Defazio、F.Bach和S.Lacoste-Julien。SAGA:一种支持非强凸复合目标的快速增量梯度方法。《神经信息处理系统进展》(NIPS),第1646-1654页,加拿大蒙特利尔,2014年。
[15] C.Fang、C.J.Li、Z.Lin和T.Zhang。SPIDER:通过随机路径积分微分估计的近最优非凸优化。神经信息处理系统研究进展,第689-699页,加拿大蒙特利尔,2018年。
[16] R.Frostig、R.Ge、S.M.Kakade和A.Sidford。与经验风险最小化者单程竞争。学习理论会议(COLT),第728-763页,法国巴黎,2015年。
[17] S.Ghadimi和G.Lan。强凸随机组合优化的最优随机逼近算法:一个通用算法框架。IAM优化杂志(SIOPT),22(4):1469-14922012·Zbl 1301.62077号
[18] S.Ghadimi和G.Lan。非凸随机规划的随机一阶和零阶方法。SIAM优化杂志(SIOPT),23(4):2341-23682013·Zbl 1295.90026号
[19] S.Ghadimi、G.Lan和H.Zhang。非凸随机组合优化的Mini-bactch随机逼近方法。数学规划,155(1-2):267-3052016·兹比尔1332.90196
[20] I.Goodfellow、Y.Bengio和A.Courville。深度学习,第1卷。麻省理工学院出版社,2016年·兹比尔1373.68009
[21] R.Harikandeh、M.O.Ahmed、A.Virani、M.Schmidt、J.Kone’cn'y和S.Sallinen。别浪费我的梯度:实用SVRG。《神经信息处理系统进展》(NIPS),第2251-2259页,加拿大蒙特利尔,2015年。
[22] R.Johnson和T.Zhang。使用预测方差减少加速随机梯度下降。神经信息处理系统(NIPS)进展,第315-323页,美国内华达州塔霍湖,2013年。
[23] H.Karimi、J.Nutini和M.Schmidt。Polyak-lojasiewicz条件下梯度法和近似梯度法的线性收敛性。2016年,意大利Riva del Garda,欧洲联合数据库机器学习和知识发现会议,第795-811页。
[24] L.Lei和M.Jordan。不到一次通过:随机控制的随机梯度。2017年,美国佛罗里达州劳德代尔堡,国际人工智能与统计会议(AISTATS)编辑Aarti Singh和Jerry Zhu,PMLR 54:148-156。
[25] Z.Li和J.Li。非光滑非凸优化的简单近似随机梯度法。神经信息处理系统研究进展,第5564-5574页,加拿大蒙特利尔,2018年。
[26] L.Lihua、C.Ju、J.Chen和M.Jordan。基于SCSG方法的非凸有限和优化。《神经信息处理系统进展》(NIPS),第2348-2358页,美国加利福尼亚州长滩,2017年。
[27] H.Lin、J.Mairal和Z.Harchaoui。一级优化通用催化剂。《神经信息处理系统进展》(NIPS),第3384-3392页,加拿大蒙特利尔,2015年。
[28] S.L.洛尔。取样:设计和分析。纳尔逊教育,2009年。
[29] A.内米洛夫斯基、A.朱迪茨基、G.兰和A.夏皮罗。随机规划的稳健随机逼近方法。SIAM优化杂志(SIOPT),19(4):1574-16092009·Zbl 1189.90109号
[30] A.内米洛夫斯基和D.尤丁。优化中的问题复杂性和方法效率。Wiley Interscience,1983年·Zbl 0501.90062号
[31] Y.内斯特罗夫。关于凸优化的介绍性讲座:应用优化第87卷基础课程。Kluwer学术出版社,2004年·兹比尔1086.90045
[32] Y.Nesterov和B.T.Polyak。牛顿法的三次正则化及其全局性能。数学规划,108(1):177-2052006·兹比尔1142.90500
[33] L.M.Nguyen、J.Liu、K.Scheinberg和M.Tak´a´c。SARAH:一种使用随机递归梯度解决机器学习问题的新方法。国际机器学习会议(ICML),PMLR 70:2613-2621,澳大利亚悉尼,2017a。
[34] L.M.Nguyen、N.H.Nguyen、D.T.Phan、J.R.Kalagnanm和K.Scheinberg。随机梯度算法什么时候能很好地工作?arXiv:1801.061592018a。
[35] L.M.Nguyen、K.Scheinberg和M.Takac。随机优化的不精确SARAH算法。arXiv:1811.101052018b。
[36] L.M.Nguyen、M.van Dijk、D.T.Phan、P.H.Nguien、T.-W.Weng和J.R.Kalagnanam。基于SARAH的最优有限和光滑非凸优化。arXiv:1901.076482019。
[37] L.M.Nguyen、J.Liu、K.Scheinberg和M.Tak´ac。非凸优化的随机递归梯度算法。arXiv:1705.072612017b。
[38] A.尼坦达。使用加速技术的随机近端梯度下降。《神经信息处理系统进展》(NIPS),第1574-1582页,加拿大蒙特利尔,2014年。
[39] C.Paquette、H.Lin、D.Drusvyatskiy、J.Mairal和Z.Harchaoui。基于梯度的非凸优化催化剂。在国际人工智能和统计会议(AISTATS)上,PMLR 84:613-622,加那利群岛兰扎罗特,2018年。
[40] S.J.Reddi、S.Sra、B.P´oczos和A.Smola。非凸优化的随机Frank-Wolfe方法。在美国伊利诺伊州蒙蒂塞洛举行的Allerton通信、控制和计算年会(Allerton)上,第1244-1251页,2016a。
[41] S.J.Reddi、S.Sra、B.P´oczos和A.J.Smola。非光滑非凸有限和优化的近似随机方法。神经信息处理系统研究进展,第1145-1153页,西班牙巴塞罗那,2016b。
[42] H.Robbins和S.Monro。一种随机近似方法。《数理统计年鉴》,22(3):400-4071951年·Zbl 0054.05901号
[43] M.Schmidt、N.Le Roux和F.Bach。用随机平均梯度最小化有限和。数学规划,162(1-2):83-1122017·Zbl 1358.90073号
[44] S.Shalev-Shwartz和T.Zhang。正则化损失最小化的随机对偶坐标上升方法。机器学习研究杂志(JMLR),14:567-5992013·Zbl 1307.68073号
[45] S.Shalev-Shwartz和T.Zhang。用于正则化损失最小化的加速近端随机双坐标上升。在国际机器学习会议(ICML)上,PMLR 32(1):64-72,中国北京,2014。
[46] A.Shapiro、D.Dentcheva和A.Ruszczynski。随机规划讲座:建模与理论。SIAM,2009年·兹比尔1183.90005
[47] S.Sra、S.Nowozin和S.J.Wright。机器学习优化。麻省理工学院出版社,2012年。
[48] Z.Wang、K.Ji、Y.Zhou、Y.Liang和V.Tarokh。SpiderBoost和动量:更快的方差减少算法。《神经信息处理系统进展》(NIPS),第2406-2416页,加拿大温哥华,2019年。
[49] L.Xiao和T.Zhang。具有逐步方差减少的近似随机梯度法。SIAM优化杂志,24(4):2057-20752014·Zbl 1321.65016号
[50] L.Zhao、M.Mammadov和J.Yearwood。从凸到非凸:二元分类的损失函数分析。在IEEE国际数据挖掘研讨会(ICDMW)上,第1281-1288页,澳大利亚悉尼,2010年。
[51] D.Zhou和Q.Gu。光滑非凸有限和优化的下界。国际机器学习会议(ICML),PMLR 97:7574-7583,美国加利福尼亚州长滩,2019年。
[52] D.Zhou、P.Xu和Q.Gu。非凸优化的随机嵌套方差缩减。神经信息处理系统研究进展,第3925-3936页,加拿大蒙特利尔,2018年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。