×

零阶非凸随机优化:处理约束、高维和鞍点。 (英语) Zbl 1516.90056号

摘要:在本文中,我们提出并分析了用于非凸优化和凸优化的零阶随机逼近算法,重点是解决约束优化、高维设置和鞍点避免问题。为了处理约束优化问题,我们首先提出了条件梯度算法的推广,该算法仅使用零阶信息即可获得与标准随机梯度算法相似的速度。为了促进高维零阶优化,我们探索了结构稀疏性假设的优点。具体来说,(i)我们强调了一种隐式正则化现象,其中带有零阶信息的标准随机梯度算法通过改变步长来适应手头问题的稀疏性,(ii)提出了一种带有零级信息的截断随机梯度算法,它的收敛速度只与维数有关。接下来,我们将重点讨论在非凸环境中避免鞍点。为此,我们将基于零阶信息估计梯度的高斯平滑技术解释为一阶Stein恒等式的实例化。基于此,我们基于二阶Stein恒等式,仅使用零阶信息提供了一种新的函数Hessian矩阵的线性(维数)时间估计。然后,我们给出了三次正则化牛顿法的一个零阶变量,以避免鞍点,并讨论了其收敛到局部极小值的速度。

MSC公司:

90C26型 非凸规划,全局优化
90立方厘米 随机规划
90 C56 无导数方法和使用广义导数的方法
49英里15 牛顿型方法
65千5 数值数学规划方法

软件:

薄荷
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,A.,Dekel,O.,Xiao,L.:具有多点强盗反馈的在线凸优化的优化算法。摘自:《第23届学习理论会议记录》,第28-40页(2010年)
[2] Akhavan,A.,Pontil,M.,Tsybakov,A.:在无导数优化和连续强盗中利用高阶光滑性。In:神经信息处理系统进展,第33卷(2020年)
[3] Allen-Zhu,Z.:Natasha 2:比SGD更快的非凸优化。摘自:《神经信息处理系统进展》,第2680-2691页(2018年)
[4] Bach,F.,Perchet,V.:高平滑零阶在线优化。收录于:V.Feldman,A.Rakhlin,O.Shamir(编辑)第29届学习理论年会,机器学习研究论文集,第49卷,第257-283页。PMLR(2016)
[5] Beck,A.:优化中的一阶方法,第25卷。工业和应用数学学会(SIAM)(2017)·Zbl 1384.65033号
[6] Belloni,A.,Liang,T.,Narayanan,H.,Rakhlin,A.:通过模拟退火逃离局部极小值:近似凸函数的优化。参见:P.Grunwald,E.Hazan,S.Kale(编辑)《第28届学习理论会议论文集》,《机器学习研究论文集》第40卷,第240-265页。PMLR(2015)
[7] Ben-Tal,A.,Nemirovski,A.:现代凸优化讲座:分析、算法和工程应用,第2卷。工业和应用数学学会(SIAM)(2001)·Zbl 0986.90032号
[8] Bertsekas,D.P.:非线性规划。雅典娜科学贝尔蒙特(2016)·Zbl 1360.90236号
[9] Bertsekas,D.P.,Scientific,A.:凸优化算法。雅典娜科学贝尔蒙特(2015)·Zbl 1347.90001号
[10] Bhojanapalli,S.,Neyshabur,B.,Srebro,N.:低秩矩阵恢复局部搜索的全局优化。摘自:《神经信息处理系统进展》,第3873-3881页(2016年)
[11] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[12] Bubeck,S.,Cesa-Bianchi,N.:随机和非随机多武器强盗问题的遗憾分析。机器学习的基础和趋势5(1),1-122(2012)·Zbl 1281.91051号
[13] Bubeck,S.,Lee,Y.T.,Eldan,R.:基于核的土匪凸优化方法。摘自:第49届ACM SIGACT计算机理论年会论文集,第72-85页(2017)·Zbl 1370.90175号
[14] Cai,H.,Mckenzie,D.,Yin,W.,Zhang,Z.:零阶正则化优化(ZORO):近似稀疏梯度和自适应采样(2020)
[15] 卡蒙,Y。;杜奇,JC;Hinder,O。;Sidford,A.,非凸优化的加速方法,SIAM优化杂志,28,2,1751-1772(2018)·兹比尔1400.90250 ·doi:10.1137/17M1114296
[16] Cartis,C。;古尔德,NI;Toint,PL,无约束优化的自适应三次正则化方法,第一部分:动机、收敛性和数值结果,数学规划,127,2,245-295(2011)·Zbl 1229.90192号 ·doi:10.1007/s10107-009-0286-5
[17] Cartis,C。;古尔德,NI;Toint,PL,无约束优化的自适应三次正则化方法,第二部分:最坏情况函数和导数评估复杂性,数学规划,130,2295-319(2011)·Zbl 1229.90193号 ·doi:10.1007/s10107-009-0337-y
[18] Cartis,C。;古尔德,NI;Toint,PL,二阶最优性及超越:凸约束非线性优化的表征和评估复杂性,计算数学基础,18,5,1073-1107(2018)·Zbl 1405.90125号 ·doi:10.1007/s10208-017-9363-y
[19] Chen,L.,Zhang,M.,Hassani,H.,Karbasi,A.:黑盒子模块最大化:离散和连续设置。收录于:S.Chiappa,R.Calandra(编辑)《第二十三届国际人工智能与统计会议论文集》,《机器学习研究论文集》第108卷,第1058-1070页(2020年)
[20] Chen,P.Y.,Zhang,H.,Sharma,Y.,Yi,J.,Hsieh,C.J.:ZOO:基于零阶优化的黑盒攻击,无需训练替代模型。摘自:第十届ACM人工智能与安全研讨会论文集,第15-26页。ACM(2017)
[21] Choromanski,K.,Rowland,M.,Sindhwani,V.,Turner,R.,Weller,A.:结构化进化与紧凑的架构,用于可扩展的策略优化。摘自:第35届机器学习国际会议论文集。PMLR(2018)
[22] Conn,A.,Scheinberg,K.,Vicente,L.:无导数优化导论,第8卷。工业和应用数学学会(SIAM)(2009年)·Zbl 1163.49001号
[23] Dani,V.、Kakade,S.M.、Hayes,T.P.:用于在线优化的盗贼信息价格。摘自:《神经信息处理系统进展》,第345-352页(2008年)
[24] Demyanov,V.,Rubinov,A.:优化问题中的近似方法。美国爱思唯尔出版社(1970)·Zbl 0217.46203号
[25] 德沃尔,R。;彼得罗娃,G。;Wojtaszczyk,P.,高维少变量函数的近似,构造近似,33,1,125-143(2011)·Zbl 1210.41009号 ·doi:10.1007/s00365-010-9105-8
[26] Donoho,DL,压缩传感,IEEE信息论汇刊,52,4,1289-1306(2006)·Zbl 1288.94016号 ·doi:10.1109/TIT.2006.871582
[27] 杜奇,J。;乔丹,M。;温赖特,M。;Wibisono,A.,《零阶凸优化的最优速率:两个函数评估的功效》,IEEE信息理论汇刊,61,52788-2806(2015)·Zbl 1359.90155号 ·doi:10.1109/TIT.2015.2409256
[28] Elibol,M.,Lei,L.,Jordan,M.I.:稀疏梯度的方差减少。摘自:《第八届国际学习代表大会(ICLR)会议记录》,第1058-1070页(2020年)
[29] Erdogdu,MA,Newton-Stein方法:基于Stein引理的GLM优化方法,机器学习研究杂志,17,1,7565-7616(2016)·兹比尔1437.62292
[30] M.弗兰克。;Wolfe,P.,《二次规划的算法》,《海军研究后勤季刊》,395-110(1956)·doi:10.1002/nav.3800030109
[31] Gasnikov,A.V.,Krymova,E.A.,Lagunovskaya,A.A.,Usmanova,I.N.,Fedorenko,F.A.:随机在线优化。单点和多点非线性多武装匪徒。凸和强凸情形。自动化和远程控制78(2),224-234(2017)·Zbl 1362.93165号
[32] Ge,R.,Huang,F.,Jin,C.,Yuan,Y.:逃离鞍点:张量分解的在线随机梯度。摘自:学习理论会议,第797-842页(2015年)
[33] Ge,R.,Lee,J.D.,Ma,T.:矩阵完成没有虚假的局部极小值。摘自:《神经信息处理系统进展》,第2973-2981页(2016年)
[34] Ghadimi,S.:复合非线性随机优化的条件梯度类型方法。数学规划(2018)。doi:10.1007/s10107-017-1225-5·Zbl 1410.90150号
[35] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM优化杂志,23,4,2341-2368(2013)·Zbl 1295.90026号 ·数字对象标识代码:10.1137/120880811
[36] Han,C。;袁,M.,高维稀疏函数的信息复杂性,复杂性杂志,57101443(2020)·Zbl 07176770号 ·doi:10.1016/j.co.2019.101443
[37] Hazan,E.,Kale,S.:无投影在线学习。摘自:《第29届国际机器学习会议论文集》,第1843-1850页(2012)
[38] Hazan,E.,Levy,K.:Bandit凸优化:走向紧边界。摘自:《神经信息处理系统进展》,第784-792页(2014年)
[39] Hazan,E.,Luo,H.:方差减少和无投影随机优化。摘自:机器学习国际会议,第1263-1271页(2016)
[40] Hearn,D.,凸程序的间隙函数,运筹学快报,295-110(1982)
[41] Hu,X.,Prashanth,L.A.,György,A.,Szepesvari,C.:(Bandit)带偏置噪声梯度矩的凸优化。摘自:第19届国际人工智能与统计会议,第3420-3428页(2016)
[42] Jaggi,M.:重温Frank-Wolfe:无投影稀疏凸优化。摘自:《第三十届国际机器学习会议论文集》,第427-435页(2013)
[43] Jain,P.,Kar,P.:机器学习的非凸优化。机器学习基础与趋势10(3-4),142-336(2017)·兹比尔1388.68251
[44] Jain,P.,Tewari,A.,Kar,P.:关于高维m估计的迭代硬阈值方法。摘自:《神经信息处理系统进展》,第685-693页(2014年)
[45] Jamieson,K.,Nowak,R.,Recht,B.:无导数优化的查询复杂性。摘自:《神经信息处理系统进展》,第2672-2680页(2012年)
[46] Jin,C.,Ge,R.,Netrapalli,P.,Kakade,S.M.,Jordan,M.I.:如何有效逃离鞍点。摘自:机器学习国际会议,第1724-1732页(2017)
[47] Kawaguchi,K.,Kaelbling,L.P.:消除深度学习中的所有不良局部极小值。arXiv:1901.00279
[48] 兰·G。;周瑜,凸优化的条件梯度滑动,SIAM优化杂志,26,2,1379-1409(2016)·Zbl 1342.90132号 ·数字对象标识代码:10.1137/140992382
[49] Lattimore,T.:改进了零阶对手强盗凸优化的遗憾。arXiv:2006.00475年
[50] Li,J.,Balasubramanian,K.,Ma,S.:随机零阶黎曼导数估计和优化。arXiv:2003.11238(2020)
[51] Mania,H.,Guy,A.,Recht,B.:简单随机搜索为强化学习提供了一种竞争方法。主题:神经信息处理系统进展(2018)
[52] Minsker,S.,《带有重尾条目的随机矩阵平均值的Sub-gaussian估计》,《统计年鉴》,46,6,2871-2903(2018)·Zbl 1418.62235号 ·doi:10.1214/17-AOS1642
[53] Mockus,J.:贝叶斯全局优化方法:理论与应用,第37卷。施普林格科技与商业媒体(2012)
[54] Mokhtari,A.,Hassani,H.,Karbasi,A.:随机子模块最大化的条件梯度法:缩小差距。摘自:国际人工智能与统计会议,第1886-1895页(2018)
[55] 莫赫塔里,A。;哈萨尼,H。;Karbasi,A.,随机条件梯度方法:从凸最小化到子模最大化,机器学习研究杂志,21,1-49(2020)·Zbl 1507.68249号
[56] Murty,千克;卡巴迪,SN,二次和非线性规划中的一些NP-完全问题,数学规划,39,2,117-129(1987)·Zbl 0637.90078号 ·doi:10.1007/BF0529948
[57] 内米洛夫斯基,AS;尤丁,D.,《优化中的问题复杂性和方法效率》(1983年),第十五卷:《离散数学中的Wiley-Interscience系列》。约翰·威利,十五·Zbl 0501.90062号
[58] Nesterov,Y.,《凸优化入门讲座:基础课程》(2004),马萨诸塞州:Kluwer学术出版社,马萨诸塞诸塞州·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[59] Nesterov,Y.:关于凸优化的介绍性讲座:基础课程,第87卷。施普林格科技与商业媒体(2013)
[60] 内斯特罗夫,Y。;Polyak,B.,牛顿法的立方正则化及其全局性能,《数学规划》,108,1,177-205(2006)·Zbl 1142.90500 ·doi:10.1007/s10107-006-0706-8
[61] 内斯特罗夫,Y。;Spokoiny,V.,凸函数的随机无梯度最小化,计算数学基础,17,527-566(2017)·Zbl 1380.90220号 ·doi:10.1007/s10208-015-9296-2
[62] Nestrov,Y.,无约束凸优化中的可实现张量方法,数学规划,186157-183(2021)·Zbl 1459.90157号 ·doi:10.1007/s10107-019-01449-1
[63] Nocedal,J.、Wright,S.J.:数值优化。Springer科学与商业媒体(2006)·Zbl 1104.65059号
[64] Raskutti,G。;温赖特,MJ;Yu,B.,通过凸规划实现核类上稀疏可加模型的极小极大最优率,机器学习研究杂志,13,1389-427(2012)·Zbl 1283.62071号
[65] Reddi,S.、Sra,S.,Póczos,B.、Smola,A.:非凸优化的随机Frank-Wolfe方法。摘自:第54届Allerton通信、控制和计算年会(Allerton)会议记录,第1244-1251页(2016)
[66] Reddi,S.、Zaheer,M.、Sra,S.,Poczos,B.、Bach,F.、Salakhutdinov,R.、Smola,A.:逃离鞍点的通用方法。摘自:国际人工智能与统计会议,第1233-1242页(2018)
[67] Rio,E.,投影条件下相依随机变量和的矩不等式,理论概率杂志,22,1,146-163(2009)·Zbl 1160.60312号 ·doi:10.1007/s10959-008-0155-9
[68] 鲁宾斯坦,R。;Kroese,D.,《模拟与蒙特卡罗方法》(2016),新泽西州:John Wiley&Sons出版社,新泽西·Zbl 1352.68002号 ·doi:10.1002/9781118631980
[69] Saha,A.,Tewari,A.:改进了带有强盗反馈的在线平滑凸优化的遗憾保证。摘自:《第十四届国际人工智能与统计会议记录》,第636-642页(2011年)
[70] Salimans,T.,Ho,J.,Chen,X.,Sidor,S.,Sutskever,I.:进化策略作为强化学习的可扩展替代方案。arXiv:1703.03864
[71] Shamir,O.:关于土匪和无导数随机凸优化的复杂性。摘自:学习理论会议,第3-24页(2013年)
[72] Snoek,J.、Larochelle,H.、Adams,R.:机器学习算法的实用贝叶斯优化。在:神经信息处理系统的进展,第2951-2959页(2012)
[73] Spall,J.,《随机搜索和优化简介:估计、模拟和控制》(2005),新泽西州:John Wiley&Sons出版社,新泽西
[74] Stein,C.:相依随机变量和分布的正态近似误差的界。摘自:第六届伯克利数理统计与概率研讨会论文集,第2卷:概率论。加利福尼亚大学校区(1972年)·Zbl 0278.60026号
[75] Stein,C.M.:多元正态分布平均值的估计。《统计年鉴》第1135-1151页(1981年)·Zbl 0476.62035号
[76] Sun,J.,Qu,Q.,Wright,J.:非烦恼问题什么时候不可怕?arXiv公司:1510.06096
[77] 孙,J。;曲,Q。;Wright,J.,相位恢复的几何分析,计算数学基础,18,5,1131-1198(2018)·Zbl 1401.94049号 ·doi:10.1007/s10208-017-9365-9
[78] Tripuraneni,N.,Stern,M.,Jin,C.,Regier,J.,Jordan,M.:快速非凸优化的随机立方正则化。摘自:《神经信息处理系统进展》,第2899-2908页(2018年)
[79] Tropp,J.A.:独立随机矩阵和的期望范数:初等方法。参见:高维概率VII,第173-202页。斯普林格(2016)·Zbl 1382.60016号
[80] Tyagi,H。;Kyrillidis,A。;Gärtner,B。;Krause,A.,《学习高维交互稀疏可加模型的算法,信息与推理:IMA杂志》,7,2,183-249(2018)·Zbl 1470.94058号 ·doi:10.1093/imaiai/iax008
[81] Wang,Y.,Du,S.,Balakrishnan,S.和Singh,A.:高维随机零阶优化。摘自:A.Storkey,F.Perez-Cruz(eds.)《第二十届国际人工智能与统计会议论文集》,《机器学习研究论文集》第84卷,第1356-1365页(2018)
[82] Wojtaszczyk,P.,高维少变量函数近似的复杂性,复杂性杂志,27,2,141-150(2011)·Zbl 1343.65015号 ·doi:10.1016/j.jco.2011.01.004
[83] 徐,P。;罗斯塔·呼拉桑尼,F。;Mahoney,MW,不精确hessian信息下非凸优化的牛顿型方法,数学规划,184,35-70(2020)·Zbl 1451.90134号 ·doi:10.1007/s10107-019-01405-z
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。