×

非凸随机优化的下限。 (英语) Zbl 1517.90087号

摘要:我们使用随机一阶方法降低了寻找(ε)-平稳点(最多梯度范数为ε)的复杂性。在一个经过充分研究的模型中,算法通过查询有界方差的无偏随机梯度预言机来访问光滑的、潜在的非凸函数,我们证明(在最坏的情况下)任何算法都需要至少(ε{-4})查询才能找到(ε)-稳定点。下界是紧的,并证明了随机梯度下降在该模型中是极小极大最优的。在一个更具限制性的模型中,其中噪声梯度估计满足均方光滑性,我们证明了\(ε^{-3}\)查询的下界,建立了最近提出的方差减少技术的最优性。

理学硕士:

90立方厘米 随机规划
90C26型 非凸规划,全局优化
90C60型 数学规划问题的抽象计算复杂性
90C06型 数学规划中的大尺度问题
65年第68季度 算法和问题复杂性分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,A。;巴特利特,PL;拉维库马尔,P。;Wainwright,MJ,随机凸优化预言复杂性的信息论下界,IEEE Trans。《信息论》,5,58,3235-3249(2012)·Zbl 1365.94132号 ·doi:10.1109/TIT.2011.2182178
[2] Allen-Zhu,Z.:如何使梯度随机变小:更快的凸和非凸SGD。摘自:《神经信息处理系统进展》,第1165-1175页(2018a)
[3] Allen-Zhu,Z.:Natasha 2:比SGD更快的非凸优化。摘自:《神经信息处理系统进展》,第2675-2686页,(2018b)
[4] Allen-Zhu,Z.,Hazan,E.:方差减少,以实现更快的非凸优化。在机器学习国际会议上,第699-707页(2016年)
[5] Allen-Zhu,Z.,Li.Y.:Neon2:通过一阶神谕找到局部极小值。摘自:《神经信息处理系统进展》,第3716-3726页(2018年)
[6] Arjevani,Y.:有限和优化的方差减少和加速方案的限制。摘自:《神经信息处理系统进展》,第3540-3549页(2017年)
[7] Arjevani,Y.,Shamir,O.:有限和优化问题的无量纲迭代复杂性。摘自:《神经信息处理系统进展》,第3540-3548页(2016年)
[8] Arjevani,Y.、Carmon,Y.,Duchi,J.C.、Foster,D.J.、Sekhari,A.、Sridharan,K.:非凸随机优化中的二阶信息:功率和限制。摘自:学习理论会议,第242-299页。PMLR(2020年)
[9] Ball,K.:现代凸几何的初步介绍。列维,S.(编辑:《几何的味道》,第1-58页。MSRI出版物(1997)·Zbl 0901.5202号
[10] Bottou,L.,Bousquet,O.:大规模学习的权衡。《神经信息处理系统进展》,第161-168页(2008年)
[11] 博图,L。;柯蒂斯,F。;Nocedal,J.,《大规模学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[12] 布劳恩,G。;古兹曼,C。;Pokutta,S.,《基于信息论的非光滑凸优化的预言复杂性下限》,IEEE Trans。Inf.理论,63,7,4709-4724(2017)·Zbl 1370.94383号 ·doi:10.1109/TIT.2017.2701343
[13] Bubeck,S.,Jiang,Q.,Lee,Y.T.,Li,Y.,Sidford,A.:高度并行非光滑凸优化的复杂性。主题:神经信息处理系统进展32(2019)
[14] Carmon,Y.,Duchi,J.C.,Hinder,O.,Sidford,A.:证明有罪之前是凸的:非凸函数梯度下降的无量纲加速。第34届机器学习国际会议论文集,第654-663页(2017)
[15] 卡蒙,Y。;杜奇,JC;Hinder,O。;Sidford,A.,找到固定点的下界I,数学。程序。,184, 1, 71-120 (2019) ·Zbl 1451.90128号
[16] 卡蒙,Y。;杜奇,JC;Hinder,O。;Sidford,A.,《寻找驻点的下限II:一阶方法》,数学。程序。,185, 1, 315-355 (2021) ·Zbl 1458.90520号 ·doi:10.1007/s10107-019-01431-x
[17] Cartis,C。;古尔德,NI;Toint,PL,关于最速下降的复杂性,非凸无约束优化问题的牛顿和正则化牛顿方法,Siam J.Opt。,20, 6, 2833-2852 (2010) ·Zbl 1211.90225号 ·doi:10.1137/090774100
[18] Cartis,C。;古尔德,NI;Toint,PL,无约束优化中二阶最优性的复杂性边界,J.Complex。,28, 1, 93-108 (2012) ·Zbl 1245.65063号 ·doi:10.1016/j.jco.2011.06.001
[19] Cartis,C。;古尔德,NI;Toint,PL,你有多少耐心平滑非凸优化的最坏情况透视,Optima,88,1-10(2012)
[20] Cartis,C.,Gould,N.I.,Toint,P.L.:非凸光滑优化二阶方法的最坏情况评估复杂性和最优性。arXiv预印arXiv:1709.07180,(2017)·Zbl 1451.90177号
[21] Cutkosky,A.,Orabona,F.:非凸SGD中基于动量的方差约简。高级神经信息处理。系统。(2019)
[22] Defazio,A.,Bach,F.,Lacoste-Julien,S.:SAGA:支持非强凸复合目标的快速增量梯度法。In:神经信息处理系统进展27,(2014)
[23] Diakonikolas,J.,Guzmán,C.:并行和随机凸优化的下限。摘自:第三十二届计算学习理论年会(2019年)会议记录·Zbl 1497.68222号
[24] Drori,Y.,Shamir,O.:用随机梯度下降寻找平稳点的复杂性。arXiv预印arXiv:1910.01845(2019)
[25] Fang,C.,Li,C.J.,Lin,Z.,Zhang,T.:蜘蛛:通过随机路径积分微分估计的近最优非凸优化。摘自:神经信息处理系统进展,第689-699页(2018年)
[26] Fang,C.,Lin,Z.,Zhang,T.:非凸SGD从鞍点逃逸的尖锐分析。收录于:Beygelzimer,A.,Hsu,D.,(eds)《第三十二届学习理论会议论文集》,第99卷,第1192-1234页。PMLR(2019年)
[27] Foster,D.J.,Sekhari,A.,Shamir,O.,Srebro,N.,Sridharan,K.,Woodworth,B.:随机凸优化中使梯度变小的复杂性。摘自:《第三十二届学习理论会议记录》,第1319-1345页(2019年)
[28] Ge,R.,Huang,F.,Jin,C.,Yuan,Y.:逃离鞍点:张量分解的在线随机梯度。摘自:学习理论会议,第797-842页(2015年)
[29] Ge,R.,Lee,J.D.,Ma,T.:矩阵完成没有虚假的局部极小值。摘自:《神经信息处理系统进展》,第2973-2981页(2016年)
[30] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Opt。,23, 4, 2341-2368 (2013) ·Zbl 1295.90026号 ·数字对象标识代码:10.1137/120880811
[31] LeCam,L.,《维数限制下估计的收敛性》,Ann.Stat.,1,1,38-53(1973)·兹比尔0255.62006 ·doi:10.1214/aos/1193342380
[32] Lei,L.,Ju,C.,Chen,J.,Jordan,M.I.:通过SCSG方法的非凸有限和优化。摘自:《神经信息处理系统进展》,第2348-2358页(2017年)
[33] 马,C。;王凯。;Chi,Y。;Chen,Y.,非凸统计估计中的隐式正则化:梯度下降在相位恢复、矩阵补全和盲反褶积中线性收敛,Found。计算。数学。(2019) ·Zbl 1445.90089 ·doi:10.1007/s10208-019-09429-9
[34] Murty,千克;卡巴迪,SN,二次和非线性规划中的一些np-完全问题,数学。程序。,39, 2, 117-129 (1987) ·兹比尔0637.90078 ·doi:10.1007/BF02592948
[35] Nemirovski,A.,关于非光滑凸优化的并行复杂性,J.Complex。,10, 4, 451-463 (1994) ·Zbl 0820.68058号 ·doi:10.1006/jcom.1994.1025
[36] Nemirovski,A.,Yudin,D.B.:优化中的问题复杂性和方法效率。威利(1983)·Zbl 0501.90062号
[37] Nesterov,Y.:凸优化入门讲座。Kluwer学术出版社(2004)·Zbl 1086.90045号
[38] 内斯特罗夫,Y。;Polyak,BT,牛顿法的立方正则化及其全局性能,数学。程序。,108, 1, 177-205 (2006) ·Zbl 1142.90500 ·doi:10.1007/s10107-006-0706-8
[39] Nesterov,YE,一种求解具有收敛速度的凸规划问题的方法\(o(1/k^2)\),Sov。数学。道克。,27, 2, 372-376 (1983) ·Zbl 0535.90071号
[40] Nocedal,J.,Wright,S.:数值优化。施普林格科学与商业媒体(2006)·Zbl 1104.65059号
[41] Raginsky,M。;Rakhlin,A.,凸规划中基于信息的复杂性、反馈和动力学,IEEE Trans。信息理论,57,10,7036-7056(2011)·Zbl 1365.93191号 ·doi:10.1109/TIT.2011.2154375
[42] Reddi,S.J.,Hefny,A.,Sra,S.,Poczos,B.,Smola,A.:非凸优化的随机方差减少。摘自:机器学习国际会议,第314-323页(2016年)
[43] Schmidt,M.,Roux,N.L.,Bach,F.:凸优化的不精确近似粒度方法的收敛速度。主题:神经信息处理系统进展24(2011)
[44] 沙列夫·施瓦茨,S。;Zhang,T.,正则化损失最小化的随机双坐标上升法,J.Mach。学习。Res.,14567-599(2013)·兹比尔1307.68073
[45] Sun,J。;曲,Q。;Wright,J.,相位恢复的几何分析,Found。计算。数学。,18, 5, 1131-1198 (2018) ·Zbl 1401.94049号 ·doi:10.1007/s10208-017-9365-9
[46] Traub,J.F.,Wasilkowski,G.W.,Woźniakowski H.:基于信息的复杂性。(1988) ·Zbl 0654.94004号
[47] Tripuraneni,N.,Stern,M.,Jin,C.,Regier,J.,Jordan,M.I.:快速非凸优化的随机立方正则化。摘自:《神经信息处理系统进展》,第2899-2908页(2018年)
[48] Vavasis,SA,局部最小化的黑盒复杂性,SIAM J.Opt。,3, 1, 60-80 (1993) ·Zbl 0794.90045号 ·数字对象标识代码:10.1137/0803004
[49] Wang,Z.、Ji,K.、Zhou,Y.、Liang,Y.和Tarokh,V.:Spiderboost:一类用于非凸优化的快速方差缩减算法。arXiv预印arXiv:1810.10690,(2018)
[50] Woodworth,B.,Srebro,N.:优化复合目标的严格复杂性界限。摘自:《神经信息处理系统进展》,第3639-3647页(2016年)
[51] Woodworth,B.,Srebro,N.:随机一阶凸优化的下界。arXiv预印本,arXiv:1709.03594(2017)
[52] Xu,Y.,Rong,J.,Yang,T.:在几乎线性时间内逃离鞍点的一阶随机算法。摘自:《神经信息处理系统进展》,第5530-5540页(2018年)
[53] 姚,A.C.-C.:概率计算:走向复杂性的统一度量。在第18届计算机科学基础年度研讨会上,第222-227页。IEEE(1977)
[54] Yu,B.:阿苏德(Assouad)、法诺(Fano)和勒坎姆(Le Cam)。《吕西安·勒·卡姆的艺术史》,第423-435页。施普林格(1997)·Zbl 0896.62032号
[55] Zhou,D.,Gu,Q.:光滑非凸有限和优化的下界。参加:机器学习国际会议(2019年)
[56] Zhou,D.,Xu,P.,Gu,Q.:非凸优化的随机嵌套方差约简。摘自:《神经信息处理系统进展》,第3925-3936页。Curran Associates Inc.(2018年)
[57] Zhou,D.,Xu,P.,Gu,Q.:非凸优化的随机嵌套方差缩减。J.马赫。学习。决议(2020年)·Zbl 1508.90074号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。