×

无Lipschitz连续性的确定性和随机次梯度方法的收敛速度。 (英语) Zbl 1421.90115号

摘要:我们将次梯度方法的经典收敛速度理论推广到非Lipschitz函数。对于确定性投影次梯度方法,我们给出了任何凸函数的全局(O(1/sqrt{T})收敛速度,该凸函数在其极小值附近是局部Lipschitz的。该方法基于Shor的经典次梯度分析,并对具有Lipschitz或Hölder连续梯度的函数的梯度下降的标准收敛速度进行了推广。进一步,我们证明了凸函数上随机投影次梯度方法的(O(1/sqrt{T})收敛速度,在强凸性或较弱的二次下界条件下,该方法的收敛速度可提高到(O(1/1T)。

MSC公司:

90C25型 凸面编程
90摄氏52度 减少梯度类型的方法
65K15码 变分不等式及相关问题的数值方法

软件:

帕伽索斯
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] J.Bolte、T.P.Nguyen、J.Peypouquet和B.W.Suter,凸函数一阶下降法的误差界与复杂性,数学。程序。,165(2017),第471-507页,https://doi.org/10.1007/s10107-016-1091-6。 ·Zbl 1373.90076号
[2] S.Bubeck,凸优化:算法和复杂性,找到。趋势马赫数。学习。,8(2015),第231-357页·Zbl 1365.90196号
[3] J.Burke和M.Ferris,数学规划中的弱尖锐极小SIAM J.控制优化。,31(1993),第1340-1359页,https://doi.org/10.1137/0331063。 ·Zbl 0791.90040号
[4] F.克拉克,优化和非光滑分析,经典应用。数学。,宾夕法尼亚州费城SIAM,1990年·Zbl 0696.49002号
[5] D.Davis和B.Grimmer,非光滑非凸问题的近导随机子梯度法,预打印,https://arxiv.org/abs/1707.03505, 2017.
[6] D.Drusvyatskiy和A.S.Lewis,近似方法的误差界、二次增长和线性收敛,数学。操作。决议,43(2018),第919-948页·Zbl 1440.90046号
[7] J.Duchi和Y.Singer,使用正向-反向分裂的高效在线和批量学习,J.马赫。学习。研究,10(2009),第2899-2934页·Zbl 1235.62151号
[8] B.格里默,径向次梯度法、SIAM J.Optim.、。,28(2018),第459-469页,https://doi.org/10.1137/17M1122980。 ·Zbl 1382.90075号
[9] E.Hazan和S.Kale,超越后悔最小化障碍:随机强凸优化的最优算法,J.马赫。学习。Res.,15(2014),第2489-2512页·Zbl 1319.90050号
[10] S.Lacoste-Julien、M.Schmidt和F.Bach,求投影随机子梯度法(O(1/t))收敛速度的一种简单方法,预打印,https://arxiv.org/abs/121.2002, 2012.
[11] H.Lu,基于随机(或确定性)镜像下降的非Lipschitz非光滑凸优化的“相对连续性”,预打印,https://arxiv.org/abs/1710.04718, 2017.
[12] Z.-Q.Luo和P.Tseng,可行下降法的误差界和收敛性分析:一种通用方法,安,Oper。研究,46(1993),第157-178页,https://doi.org/10.1007/BF020996261。 ·Zbl 0793.90076号
[13] I.Necoara、Y.Nesterov和F.Glineur,非强凸优化一阶方法的线性收敛性,数学。程序。,175(2018),第69-107页,https://doi.org/10.1007/s10107-018-1232-1。 ·Zbl 1412.90111号
[14] A.Nedicí和S.Lee,加权平均的随机次梯度镜像算法、SIAM J.Optim.、。,24(2014),第84-107页,https://doi.org/10.1137/120894464。 ·Zbl 1297.90119号
[15] A.Nemirovskii和Y.Nesterov,光滑凸极小化的优化方法,苏联计算。数学。数学。物理。,25(1985),第21-30页·Zbl 0591.90072号
[16] Y.内斯特罗夫,凸优化入门讲座:基础课程第1版,施普林格出版社,纽约,2004年·兹比尔1086.90045
[17] A.Rakhlin、O.Shamir和K.Sridharan,强凸随机优化的梯度下降优化,《第29届国际机器学习会议论文集》,ICML'12,Omnipress,Madison,WI,2012年,第1571-1578页。
[18] J.Renegar,一般凸优化的“高效”次梯度方法、SIAM J.Optim.、。,26(2016),第2649-2676页,https://doi.org/10.1137/15M1027371。 ·Zbl 1351.90129号
[19] H.Robbins和S.Monro,一种随机近似方法,安。数学。《统计》,22(1951),第400-407页·Zbl 0054.05901号
[20] S.Shalev-Shwartz、Y.Singer、N.Srebro和A.Cotter,Pegasos:SVM的原始估计子梯度解算器,数学。程序。,127(2011),第3-30页·Zbl 1211.90239号
[21] N.Z.绍尔,不可微函数的最小化方法,《不可微函数的最小化方法》,Springer Ser。计算。数学。3,柏林施普林格出版社,1985年,第22-47页·Zbl 0561.90058号
[22] N.Z.绍尔,次梯度和(epsilon)-次梯度方法,在不可微优化和多项式问题中,非凸优化。申请。24,斯普林格,马萨诸塞州波士顿,1998年,第35-70页·Zbl 0901.49015号
[23] J.Yu、S.Vishwanathan、S.Guönter和N.N.Schraudolph,机器学习中非光滑凸优化问题的拟Newton方法,J.马赫。学习。Res.,11(2010),第1145-1200页·Zbl 1242.90296号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。