×

光滑强凸函数的稳健加速梯度方法。 (英语) Zbl 1461.62145号

摘要:在设计一阶算法时,我们研究了收敛速度和对梯度误差的鲁棒性之间的权衡。当梯度具有加性白噪声形式的随机误差时,我们重点研究了最小化强凸函数的梯度下降和加速梯度(AG)方法。在梯度误差下,迭代函数值不必收敛到最优值;因此,我们将算法对噪声的鲁棒性定义为迭代序列对输入噪声功率的渐近期望次优性。对于这种鲁棒性度量,我们使用鲁棒控制理论中的工具提供了二次型情形的精确表达式,并使用通过矩阵不等式证明的Lyapunov函数提供了光滑强凸情形的紧上界。我们在一个优化问题中使用这些特征,该优化问题选择每个算法的参数,以在速率和鲁棒性之间实现特定的折衷。我们的结果表明,AG可以实现加速度,同时对随机梯度误差具有更强的鲁棒性。这种行为与之前在确定性梯度噪声设置中报告的行为大不相同。我们还建立了算法的鲁棒性与在确定性噪声下从最优点扰动时算法收敛到最优解的速度之间的一些联系。我们的框架还带来了实用算法,在存在随机梯度噪声的情况下,该算法的性能优于其他最先进的方法。

MSC公司:

62L20型 随机近似
90立方厘米 随机规划
90C25型 凸面编程
90立方 非线性规划
93二氧化碳 控制理论中的线性系统
93立方厘米 控制理论中的非线性系统

软件:

CVX公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] N.S.Aybat、A.Fallah、M.Gu¨rbu¨zbalaban和A.Ozdaglar,一种普遍最优的多级加速随机梯度法,https://arxiv.org/abs/1901.08022, 2019.
[2] F.Bach和E.Moulines,收敛速度为o(1/n)的非刚性凸光滑随机逼近,摘自《神经信息处理系统进展》26,C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger编辑,Curran Associates,2013年,第773-781页。
[3] R.Bassily、A.Smith和A.Thakurta,《私人经验风险最小化:高效算法和严格误差界限》,第55届计算机科学基础年度研讨会论文集,IEEE,2014年,第464-473页。
[4] D.Bertsekas,非线性规划,Athena Scientific,马萨诸塞州贝尔蒙特,1999年·Zbl 1015.90077号
[5] D.Bertsekas,凸优化的增量梯度、次梯度和近似方法:综述,Optim。机器学习,2010年(2011年),第3页。
[6] B.Can、M.Gurbuzbalaban和L.Zhu,《Wasserstein距离中随机动量方法的加速线性收敛》,载《第36届国际机器学习会议论文集》,K.Chaudhuri和R.Salakhutdinov编辑,《机器学习研究论文集》(Proceedings of Machine Learning Research),加州长滩,PMLR 972019,第891-901页,http://proceedings.mlr.press/v97/can19a.html。
[7] B.Can,M.Guërbuïzbalaban和L.Zhu,Wasserstein距离中随机动量方法的加速线性收敛,https://arxiv.org/abs/1901.07445, 2019.
[8] X.Cheng、N.S.Chatterji、P.L.Bartlett和M.I.Jordan,欠阻尼Langevin MCMC:非症状分析,https://arxiv.org/abs/1707.03663,2017年。
[9] S.Cyrus、B.Hu、B.Van Scoy和L.Lessard,强凸函数的稳健加速优化算法,《美国控制年会论文集》,2018年,第1376-1381页,https://doi.org/10.23919/ACC.2018.8430824。
[10] A.d'Aspremont,具有近似梯度的平滑优化,SIAM J.Optim。,19(2008),第1171-1183页,https://doi.org/10.1137/060676386。 ·Zbl 1180.90378号
[11] O.Devolder,《大尺度凸优化一阶方法中的精确性、不精确性和随机性》,博士论文,ICTEAM和CORE,鲁汶天主教大学,2013年。
[12] O.Devolder、F.Glineur和Y.Nesterov,《不精确Oracle光滑凸问题的中间梯度方法》,技术报告,卢万大学,运筹学与计量经济中心(CORE),2013年·Zbl 1317.90196号
[13] O.Devolder、F.Glineur和Y.Nesterov,用不精确预言机进行光滑凸优化的一阶方法,数学。程序。,146(2014),第37-75页·Zbl 1317.90196号
[14] A.Dieuleveut、A.Durmus和F.Bach,弥合恒定步长随机梯度下降和马尔可夫链之间的差距,https://arxiv.org/abs/1707.06386,2017年。
[15] P.Dvurechensky和A.Gasnikov,随机不精确预言凸问题的随机中间梯度法,J.Optim。理论应用。,171(2016),第121-145页·Zbl 1351.90150号
[16] A.Eberle、A.Guillin和R.Zimmer,Langevin动力学的耦合和定量收缩率,https://arxiv.org/abs/1703.01617, 2017. ·Zbl 1466.60160号
[17] A.Edelman和H.Murakami,来自伴随矩阵特征值的多项式根,数学。公司。,64(1995),第763-776页·Zbl 0833.65041号
[18] M.Fazlyab、A.Ribeiro、M.Morari和V.Preciado,通过积分二次约束分析优化算法:非强凸问题,SIAM J.Optim。,28(2018),第2654-2689页,https://doi.org/10.1137/17M1136845。 ·Zbl 1406.90089号
[19] N.Flamarion和F.Bach,《从平均到加速》,《学习理论会议记录》,2015年,第658-695页。
[20] W.H.Fleming和M.James,风险敏感指数和\(H_2\)和\(H_infty\),非线性系统的范数,数学。《控制信号系统》,8(1995),第199-221页·Zbl 0854.93045号
[21] X.Gao、M.Gu¨rbu¨zbalaban和L.Zhu,打破可逆性加速了全局非凸优化的Langevin动力学,https://arxiv.org/abs/1812.07725, 2018.
[22] X.Gao,M.Gu¨rbu¨zbalaban,L.Zhu,非凸随机优化随机梯度Hamilton Monte Carlo的全局收敛性:非共振性能界和基于动量的加速度,https://arxiv.org/abs/1809.04618, 2018.
[23] S.Ghadimi和G.Lan,强凸随机组合优化的最优随机逼近算法I:通用算法框架,SIAM J.Optim。,22(2012),第1469-1492页,https://doi.org/10.1137/10848864。 ·Zbl 1301.62077号
[24] S.Ghadimi和G.Lan,强凸随机组合优化的最优随机逼近算法II:收缩过程和最优算法,SIAM J.Optim。,23(2013),第2061-2089页,https://doi.org/10.1137/10848876。 ·Zbl 1293.62167号
[25] M.Grant和S.Boyd,CVX:MATLAB规则凸编程软件,2.1版,http://cvxr.com/cvx, 2014.
[26] W.Haddad和D.Bernstein,参数相关Lyapunov函数和稳健分析的离散时间Popov准则,Automatica,30(1994),第1015-1021页·Zbl 0825.93667号
[27] M.Hardt,鲁棒性与加速度,http://blog.mrtz.org/2014/08/18/robustness-versus-acceleration , 2014.
[28] B.Hu和L.Lessard,Nesterov加速方法的耗散理论,第34届机器学习国际会议论文集,PMLR 702017,第1549-1557页。
[29] B.Hu、P.Seiler和L.Lessard,使用二次约束和序列半定程序分析近似随机梯度,https://arxiv.org/abs/1711.00987,2017年。
[30] A.Jadbabaie和A.Olshevsky,网络中噪声放大的组合边界和标度律,《欧洲控制会议论文集》,IEEE,2013年,第596-601页。
[31] A.Jadbabaie和A.Olshevsky,《关于受噪声影响的共识协议的性能:命中时间和网络结构的作用》,载于《第55届决策与控制会议论文集》,IEEE,2016年,第179-184页。
[32] G.Lan,随机组合优化的优化方法,数学。程序。,133(2012),第365-397页,https://doi.org/10.1007/s10107-010-0434-y。 ·Zbl 1273.90136号
[33] L.Lessard、B.Recht和A.Packard,通过积分二次约束分析和设计优化算法,SIAM J.Optim。,26(2016),第57-95页·Zbl 1329.90103号
[34] S.Michalowsky和C.Ebenbauer,多维n阶重球方法及其在极值搜索中的应用,《第53届决策与控制会议论文集》,IEEE,2014年,第2660-2666页。
[35] H.Mohammadi、M.Razaviyayn和M.R.Jovanovicí,强凸二次优化问题一阶加速算法的方差放大,《IEEE决策与控制会议论文集》,IEEE,2018年,第5753-5758页。
[36] Y.Nesterov,一种求解具有收敛速度的凸规划问题的方法\(o(1/k^2)\),苏联数学。道克。,27(1983年),第372-376页·Zbl 0535.90071号
[37] Y.Nesterov,凸优化导论:基础课程,应用。最佳方案。87,施普林格,纽约,2004年,https://doi.org/10.1007/978-1-4419-8853-9。 ·Zbl 1086.90045号
[38] B.O'Donoghue和E.Candès,《加速梯度方案的自适应重启》,Found。计算。数学。,15(2015),第715-732页·Zbl 1320.90061号
[39] B.T.Polyak和A.B.Juditsky,通过平均加速随机近似,SIAM J.控制优化。,30(1992年),第838-855页·Zbl 0762.62022号
[40] M.Raginsky、A.Rakhlin和M.Telgarsky,《通过随机梯度langevin动力学进行的非凸学习:非共鸣分析》,《2017年学习理论会议论文集》,阿姆斯特丹,2017年,PMLR 652017年,第1674-1703页。
[41] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计人员。,22(1951年),第400-407页·兹比尔0054.05901
[42] S.Safavi、B.Joshi、G.França和J.Bento,基于sdp的Nesterov方法的显式收敛速度,《信息理论国际研讨会论文集》,IEEE,2018年,第1560-1564页。
[43] M.Schmidt、N.Le Roux和F.Bach,凸优化的不精确近似粒度方法的收敛速度,摘自《神经信息处理系统的进展》24,J.Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger编辑,Curran Associates,2011年,第1458-1466页。
[44] A.A.Stoorvogel,鲁棒(H_2)控制问题:最坏情况设计,IEEE Trans。自动化。《控制》,38(1993),第1358-1371页,https://doi.org/10.109/9.237647。 ·Zbl 0787.93025号
[45] A.Wilson、B.Recht和M.Jordan,优化中动量方法的Lyapunov分析,https://arxiv.org/abs/1611.02635, 2016.
[46] K.Zhou、J.C.Doyle和K.Glover,鲁棒最优控制,普伦蒂斯·霍尔,恩格尔伍德悬崖,新泽西州,1996年·Zbl 0999.49500
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。