×

随机分布非凸优化的零阶算法。 (英语) Zbl 1494.93146号

摘要:在本文中,我们考虑了一个随机分布的非凸优化问题,其代价函数分布在只访问零阶(ZO)代价信息的代理上。这个问题有各种机器学习应用。作为一种解决方案,我们提出了两种分布式ZO算法,其中在每次迭代时,每个代理在具有时变平滑参数的两点处对局部随机ZO预言机进行采样。我们证明了在比常用的有界方差和Lipschitz假设更一般的状态相关方差假设下,所提出的算法实现了光滑代价函数的线性加速收敛速度(mathcal{O}(p/(nT)}),以及)\)当全局代价函数额外满足Polyak-Łojasiewicz(P-ł)条件时的收敛速度,其中\(P\)和\(T\)分别是决策变量的维数和总迭代次数。据我们所知,这是分布式ZO算法的第一个线性加速结果。因此,它可以通过添加更多代理来提高系统处理性能。我们还证明了所提出的算法在相对有界的二阶矩假设和P-Ł条件下线性收敛。与基线和最近提出的集中式和分布式ZO算法相比,我们通过数值实验证明了我们的算法在从深度神经网络生成对抗性示例方面的效率。

理学硕士:

93E20型 最优随机控制
90C26型 非凸规划,全局优化

软件:

楔块
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 奥德特,C。;Hare,W.,《无导数和黑箱优化》(2017),施普林格出版社·Zbl 1391.90001号
[2] Bach,F.和Perchet,V.(2016年)。高平滑零阶在线优化。学习理论会议(第257-283页)。
[3] Balasubramanian,K.和Ghadimi,S.(2018年)。通过条件梯度和梯度更新的零阶(非)凸随机优化。《神经信息处理系统进展》(第3455-3464页)。
[4] Bergou,E.H。;Gorbunov,E。;Richtárik,P.,无约束光滑最小化的随机三点法,SIAM优化杂志,30,2726-2749(2020)·Zbl 1451.90150号
[5] Beznosikov,A。;Gorbunov,E。;Gasnikov,A.,复合优化的无导数方法及其在分散分布式优化中的应用,IFAC PapersOnLine,534038-4043(2020)
[6] Bibi,A.、Bergou,E.H.、Sener,O.、Ghanem,B.和Richtárik,P.(2020年)。具有重要抽样的随机无导数优化方法:理论和控制学习。在学习代表国际会议上。
[7] 蔡,H。;麦肯齐(D.Mckenzie)。;尹,W。;Zhang,Z.,零阶正则化优化(ZORO):近似稀疏梯度和自适应采样(2020),arXiv:2003.13001
[8] Carlini,N.和Wagner,D.(2017年)。评估神经网络的鲁棒性。IEEE安全与隐私研讨会(第39-57页)。
[9] Chen,X.、Liu,S.、Xu,K.、Li,X.,Lin,X.&Hong,M.等人(2019年)。ZO-DaMM:用于黑盒优化的零阶自适应动量法。《神经信息处理系统进展》(第7204-7215页)。
[10] Chen,Y.、Orvieto,A.和Lucchi,A.(2020年)。有限和凸函数的加速DFO算法。在机器学习国际会议上(第1681-1690页)。
[11] Chen,P.Y.、Zhang,H.、Sharma,Y.、Yi,J.和Hsieh,C.J.(2017)。ZOO:在没有训练替代模型的情况下,对深度神经网络进行基于零阶优化的黑箱攻击。在ACM人工智能和安全研讨会上(第15-26页)。
[12] A.R.康涅狄格州。;Scheinberg,K。;Vicente,L.N.,一般无导数信任区域算法到一阶和二阶临界点的全局收敛,SIAM优化杂志,20387-415(2009)·兹比尔1187.65062
[13] A.R.康涅狄格州。;Scheinberg,K。;Vicente,L.N.,《无导数优化导论》(MPS-SIAM优化系列(2009),SIAM Philadelphia)·Zbl 1163.49001号
[14] 杜奇,J.C。;M.I.乔丹。;Wainwright,M.J。;Wibisono,A.,《零阶凸优化的最优速率:两个函数评估的功效》,IEEE信息理论汇刊,612788-2806(2015)·Zbl 1359.90155号
[15] Fang,C.,Li,C.J.,Lin,Z.,&Zhang,T.(2018)。蜘蛛:通过随机路径积分微分估计的近最优非凸优化。《神经信息处理系统进展》(第689-699页)。
[16] Fazel,M.、Ge,R.、Kakade,S.和Mesbahi,M.(2018年)。线性二次调节器策略梯度方法的全局收敛性。在机器学习国际会议上(第1467-1476页)。
[17] Gao,H.和Huang,H.(2020年)。随机零阶Frank-Wolfe方法能更快地收敛于非凸问题吗?在机器学习国际会议上(第3377-3386页)。
[18] 高,X。;江,B。;Zhang,S.,《论ADMM的信息自适应变体:迭代复杂性视角》,《科学计算杂志》,76327-363(2018)·Zbl 1394.90447号
[19] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM优化杂志,232341-2368(2013)·Zbl 1295.90026号
[20] 加迪米,S。;兰,G。;Zhang,H.,非凸随机组合优化的Minibatch随机逼近方法,数学规划,155267-305(2016)·Zbl 1332.90196号
[21] Golovin,D.、Karro,J.、Kochanski,G.、Lee,C.和Song,X.等人(2020年)。无梯度下降:高维零阶优化。在学习表征国际会议上。
[22] Goodfellow,I.J.、Shlens,J.和Szegedy,C.(2015)。解释和利用对抗性示例。在学习代表国际会议上。
[23] Gorbunov,E.、Bibi,A.、Sener,O.、Bergou,E.H.和Richtárik,P.(2020年)。一种带动量的随机无导数优化方法。在学习代表国际会议上。
[24] Gorbunov,E。;Dvurechensky,P。;Gasnikov,A.,《无导数光滑随机凸优化的加速方法》(2018),arXiv:1802.09022
[25] 格拉顿,C。;Venkategowda,N.K。;Arablouei,R。;Werner,S.,《零阶优化的隐私保护分布式学习》,IEEE信息取证与安全事务,17,265-279(2021)
[26] Gu,B.,Huo,Z.,Deng,C.,&Huang,H.(2018)。共享内存机器的快速无导数随机算法。在机器学习国际会议上(第1812-1821页)。
[27] 哈吉内扎德,D。;洪,M。;Garcia,A.,ZONE:网络上的ZEroth阶非凸多智能体优化,IEEE自动控制汇刊,64,3995-4010(2019)·Zbl 1482.90170号
[28] Hajinezhad,D.和Zavlanos,M.M.(2018年)。无梯度多智能体非凸非光滑优化。IEEE决策和控制会议(第4939-4944页)。
[29] 胡克,R。;Jeeves,T.A.,《数值和统计问题的直接搜索解决方案》,《ACM杂志》,第8期,第212-229页(1961年)·Zbl 0111.12501号
[30] Huang,F.、Gao,S.、Chen,S.和Huang、H.(2019年)。非凸非光滑优化的零阶随机交替方向乘子法。在人工智能和统计国际会议上(第2549-2555页)。
[31] 黄,F。;高,S。;裴,J。;Huang,H.,具有较低函数查询复杂度的非凸零阶随机ADMM方法(2019),arXiv:1907.13463
[32] Huang,F.、Gu,B.、Huo,Z.、Chen,S.和Huang、H.(2019年)。非凸非光滑优化的快速无梯度近似随机方法。在AAAI人工智能会议上(第1503-1510页)。
[33] Huang,F.、Tao,L.和Chen,S.(2020年)。加速随机无梯度和无投影方法。在关于机器学习的国际会议上(第4519-4530页)。
[34] Jakovetić,D。;Bajović,D。;泽维尔,J。;Moura,J.M.,大规模分布式凸优化和数据分析的原对偶方法,IEEE学报,1081923-1938(2020)
[35] Ji,K.,Wang,Z.,Zhou,Y.,&Liang,Y.(2019)。改进的零阶方差减少算法和非凸优化分析。在机器学习国际会议上(第3100-3109页)。
[36] Jin,C.、Liu,L.T.、Ge,R.和Jordan,M.I.(2018年)。关于经验风险的局部极小值。《神经信息处理系统进展》(第4896-4905页)。
[37] Karimi,H.、Nutini,J.和Schmidt,M.(2016)。Polyak-Łohasiewicz条件下梯度法和近似粒度法的线性收敛性。在关于数据库中的机器学习和知识发现的欧洲联合会议上(第795-811页)。
[38] Kazemi,E.和Wang,L.(2018年)。非凸非光滑问题的近似零阶算法。在Allerton通信、控制和计算年度会议上(第64-71页)。
[39] Koloskova,A.、Stich,S.和Jaggi,M.(2019)。使用压缩通信的分散随机优化和八卦算法。在机器学习国际会议上(第3478-3487页)。
[40] 科扎克,D。;贝克尔,S。;Doostan,A。;Tenorio,L.,高维无梯度优化的随机子空间方法,计算优化与应用,79,339-368(2021)·Zbl 1473.90087号
[41] Larson,J。;Menickelly,M。;Wild,S.M.,《无导数优化方法》,《数值学报》,28,287-404(2019)·Zbl 1461.65169号
[42] Li,Z.和Li,J.(2018)。求解非光滑非凸优化问题的简单近似随机梯度法。《神经信息处理系统进展》(第5569-5579页)。
[43] Lian,X.、Zhang,H.、Hsieh,C.J.、Huang,Y.和Liu,J.(2016)。异步随机并行优化从零阶到一阶的综合线性加速比分析。《神经信息处理系统进展》(第3054-3062页)。
[44] Lian,X.,Zhang,C.,Zhanng,H.,Hsieh,C.J.,Zhang,W.,&Liu,J.(2017)。分散算法能否优于集中式算法?分散并行随机梯度下降的案例研究。《神经信息处理系统进展》(第5330-5340页)。
[45] Liu,S.、Chen,P.Y.、Chen、X.和Hong,M.(2019年)。通过零阶预言机签署SGD。在学习代表国际会议上。
[46] 刘,L。;Cheng,M。;谢长杰。;Tao,D.,通过方差减少方法的随机零阶优化(2018),arXiv:1805.11811
[47] Liu,S.、Kailkhura,B.、Chen,P.Y.、Ting,P.、Chang,S.和Amini,L.(2018)。非凸优化的零阶随机方差约简。《神经信息处理系统进展》(第3727-3737页)。
[48] Liu,S.、Li,X.、Chen,P.Y.、Haupt,J.和Amini,L.(2018)。非凸优化的零阶随机投影梯度下降。在IEEE关于信号和信息处理的全球会议上(第1179-1183页)。
[49] Marazzi,M。;Nocedal,J.,无导数优化的楔形信赖域方法,数学规划,91,289-305(2002)·Zbl 1049.90134号
[50] Matyas,J.,《随机优化、自动化和远程控制》,26,246-253(1965)·Zbl 0151.22802号
[51] 纳扎里,P。;塔扎纳,D.A。;Michailidis,G.,弱凸随机优化问题的自适应一阶和零阶方法(2020),arXiv:2005.09261
[52] Nedić,A。;Liu,J.,分布式控制优化,《控制、机器人和自治系统年度回顾》,第177-103页(2018年)
[53] Nedić,A.、Olshevsky,A.、Shi,W.和Uribe,C.A.(2017年)。步长不协调的几何收敛分布式优化。在美国控制会议上(第3950-3955页)。
[54] Nedić,A。;Ozdaglar,A.,多智能体优化的分布式次梯度方法,IEEE自动控制事务,54,48-61(2009)·兹伯利1367.90086
[55] Nelder,J.A。;Mead,R.,函数最小化的单纯形方法,《计算机杂志》,7308-313(1965)·Zbl 0229.65053号
[56] 内斯特罗夫,Y。;Spokoiny,V.,凸函数的随机无梯度最小化,计算数学基础,17,527-566(2017)·Zbl 1380.90220号
[57] Pang,Y。;Hu,G.,成本函数未知的多智能体系统的随机无梯度分布式优化方法,IEEE自动控制汇刊,65,333-340(2020)·Zbl 1483.90181号
[58] Qu,G。;Li,N.,利用平滑度加速分布式优化,IEEE网络系统控制汇刊,51245-1260(2018)·Zbl 1515.93111号
[59] Qu,G。;Li,N.,加速分布式nesterov梯度下降,IEEE自动控制汇刊,65,2566-2581(2020)·Zbl 07256369号
[60] Sahu,A.K。;Jakovetić,D。;Bajović,D。;Kar,S.,《通信效率分布式强凸随机优化:无症状率》(2018),arXiv预印本arXiv:1809.02920
[61] Sahu,A.K.、Jakovetić,D.、Bajović,D.&Kar,S.(2018b)。随机网络上的分布式零阶优化:Kiefer-Wolfowitz随机近似方法。IEEE决策和控制会议(第4951-4958页)。
[62] Sahu,A.K。;Kar,S.,《分散零阶约束随机优化算法:Frank-Wolfe及其变体在黑盒对抗性攻击中的应用》,IEEE学报,1081890-1905(2020)
[63] Sahu,A.K.、Zaheer,M.和Kar,S.(2019年)。朝向无梯度和无投影的随机优化。在人工智能和统计国际会议上(第3468-3477页)。
[64] Scheinberg,K。;Toint,P.L.,无导数无约束优化的基于模型算法中的自校正几何,SIAM优化期刊,205512-3532(2010)·Zbl 1209.65017号
[65] Shamir,O.(2013)。关于土匪和无导数随机凸优化的复杂性。学习理论会议(第3-24页)。
[66] Shamir,O.,《带两点反馈的土匪和零阶凸优化的优化算法》,《机器学习研究杂志》,18,1-11(2017)·Zbl 1440.90049号
[67] Shi,W。;玲,Q。;Wu,G。;Yin,W.,EXTRA:分散一致性优化的精确一阶算法,SIAM优化杂志,25944-966(2015)·Zbl 1328.90107号
[68] Tang,Y。;张杰。;Li,N.,非凸多智能体优化的分布式零阶算法,IEEE网络系统控制事务,8269-281(2020)·Zbl 07588093号
[69] Vlatakis-Gkaragkounis,E.V.、Flokas,L.和Piliouras,G.(2019年)。使用零阶方法有效避免鞍点:无需梯度。《神经信息处理系统进展》(第10066-10077页)。
[70] Wang,Y.,Du,S.,Balakrishnan,S.和Singh,A.(2018)。高维随机零阶优化。在人工智能和统计国际会议上(第1356-1365页)。
[71] Wang,Y。;赵伟。;洪,Y。;Zamani,M.,时变网络上非光滑凸函数的分布式无次梯度随机优化算法,SIAM控制与优化杂志,572821-2842(2019)·兹比尔1421.93149
[72] Yang,T。;Yi,X。;吴杰。;袁,Y。;Wu,D。;Meng,Z.,《分布式优化的调查》,《控制中的年度审查》,47,278-305(2019)
[73] Ye,H。;黄,Z。;方,C。;Li,C.J。;Zhang,T.,Hessian感知的黑盒对抗攻击零阶优化(2018),arXiv:1812.11377
[74] Yi,X。;张,S。;Yang,T。;Chai,T。;Johansson,K.H.,分布式非凸优化的一阶和零阶原对偶算法的线性收敛,IEEE自动控制汇刊(2021),出版
[75] Yi,X。;张,S。;Yang,T。;Johansson,K.H.,随机分布非凸优化的零阶算法(2021),arXiv:2106.02958v3
[76] 于,Z。;Ho,D.W。;Yuan,D.,用于约束优化的分布式随机无梯度镜像下降算法,IEEE自动控制汇刊,67957-964(2022)·Zbl 07480837号
[77] Yu,H.,Jin,R.,&Yang,S.(2019年)。分布式非凸优化通信有效动量SGD的线性加速比分析。在机器学习国际会议上(第7184-7193页)。
[78] 袁,D。;Ho,D.W.,时变网络上多智能体优化的随机无梯度方法,IEEE神经网络和学习系统汇刊,261342-1347(2014)
[79] 袁,D。;徐,S。;Lu,J.,通过推和算法实现分布式多智能体优化的无梯度方法,国际鲁棒与非线性控制杂志,251569-1580(2015)·Zbl 1317.93273号
[80] 张,H。;Cheng,L.,限制强凸性及其在凸优化梯度型方法收敛性分析中的应用,《优化快报》,9,961-979(2015)·兹比尔135090029
[81] Zhang,Y。;周,Y。;季凯。;Zavlanos,M.M.,《用于黑盒学习和控制的新的一点剩余反馈预言机》,Automatica,136,第110006页,第(2022)条·Zbl 1480.93149号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。