×

非凸非光滑优化的变尺度近似随机方差约化梯度方法。 (英语) Zbl 1513.90153号

小结:我们研究了两个函数之和的最小化问题。第一个函数是大量非凸分量函数的平均值,第二个函数是允许简单近似映射的凸函数(可能是非光滑函数)。利用对角线Barzilai-Borwein步长更新度量,我们提出了一种在小范围设置下的可变度量近似随机方差缩减梯度方法,称为VM-SVRG。证明了VM-SVRG在期望下次线性收敛到一个稳定点。我们进一步提出了VM-SVRG的一个变体,以实现线性收敛速度,期望非凸问题满足最近的Polyak-Łojasiewicz不等式。VM-SVRG的复杂度低于近端梯度法和近端随机梯度法,并且与近端随机方差减少梯度法相同。在标准数据集上进行了数值实验。与其他先进的近似随机梯度方法的比较表明了该方法的有效性。

MSC公司:

90C26型 非凸规划,全局优化
90立方 非线性规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] J.Barzilai;J.M.Borwein,两点步长梯度法,IMA J.Numer。分析。,8, 141-148 (1988) ·Zbl 0638.65055号 ·doi:10.1093/imanum/8.1.141
[2] J.F.Bonnans;J.Ch.Gilbert;C.Lemaréchal;C.A.Sagastizábal,可变度量近似方法家族,数学。编程,68,15-47(1995)·Zbl 0832.90102号 ·doi:10.1007/BF01585756
[3] 博图乳杆菌;F.E.柯蒂斯;J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[4] Y.-H.Dai;M.Al-Baali;X.Yang,正Barzilai-Borwein步长与对称线性系统的推广,数值分析与优化,134,59-75(2015)·Zbl 1330.65084号 ·doi:10.1007/978-3-319-17689-53
[5] Y.-H.Dai;Y.Huang;X.-W.Liu,一类用于优化的谱梯度方法,计算。最佳方案。应用。,74,43-65(2019)·Zbl 1427.90260号 ·doi:10.1007/s10589-019-00107-8
[6] A.Defazio,F.Bach和S.Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度法神经信息处理系统研究进展, (2014), 1646-1654.
[7] R.Fletcher,《关于Barzilai-Borwein方法》,in应用程序的优化和控制纽约施普林格出版社,96(2005),235-256·兹比尔1118.90318
[8] S.Ghadimi;G.Lan,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,2341-2368年(2013年)·Zbl 1295.90026号 ·数字对象标识代码:10.1137/120880811
[9] S.Ghadimi;G.Lan;张浩,非凸随机组合优化的Mini-bactch随机逼近方法,数学。程序。,155, 267-305 (2016) ·Zbl 1332.90196号 ·doi:10.1007/s10107-014-0846-1
[10] T.Hastie、R.Tibshirani和J.Friedman,统计学习的要素:数据挖掘、推理和预测《统计学中的斯普林格系列》。施普林格,纽约,2009年·Zbl 1273.62005年
[11] Y.Huang;Y.-H.Dai;X.-W.刘;H.Zhang,利用光谱特性的梯度方法,Optim。方法软件。,35, 681-705 (2020) ·Zbl 1454.90042号 ·doi:10.1080/10556788.2020.1727476
[12] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,in神经信息处理系统研究进展, (2013), 315-323.
[13] H.Karimi,J.Nutini和M.Schmidt,Polyak-Łohasiewicz条件下梯度和近似粒度方法的线性收敛欧洲机器学习和数据库知识发现联合会议, (2016), 795-811.
[14] J.科内奇ỳ; J.Liu;P.Richtárik;M.Takáč,近端环境中的小批量半随机梯度下降,IEEE信号处理主题选刊,10242-255(2015)
[15] J.科内奇和P.Richtárik,半随机梯度下降法,应用数学和统计前沿, 3 (2017), 9.
[16] L.Lei,C.Ju,J.Chen和M.I.Jordan,基于SCSG方法的非凸有限和优化神经信息处理系统研究进展, (2017), 2348-2358.
[17] Z.Li和J.Li,非光滑非凸优化的简单近似随机梯度法神经信息处理系统研究进展,(2018),5564-5574。
[18] 刘毅(Y.Liu);X.Wang;郭涛,凸优化的线性收敛随机递归梯度法,Optim。莱特。,2265-2283(2020年)·Zbl 1459.90137号 ·doi:10.1007/s11590-020-01550-x
[19] Y.内斯特罗夫,凸规划入门讲座:基础课程,应用优化,87。Kluwer学术出版社,马萨诸塞州波士顿,2004年·Zbl 1086.90045号
[20] L.M.Nguyen;J.Liu;K.Scheinberg;M.Takánch,SARAH:使用随机递归梯度解决机器学习问题的新方法,第34届机器学习国际会议论文集,702613-2621(2017)
[21] 洛杉矶父母;P.A.Lotito;M.V.Solodov,一类不精确的可变度量近点算法,SIAM J.Optim。,19, 240-260 (2008) ·Zbl 1190.90216号 ·doi:10.1137/070688146
[22] N.Parikh;S.Boyd等人,近似算法,优化基础和趋势,1127-239(2014)
[23] Y.Park、S.Dhar、S.Boyd和M.Shah,带对角线Barzilai-Borwein步长的可变度量近端梯度法,(2019),arXiv:1910.07056。
[24] N.H.Pham,L.M.Nguyen,D.T.Phan和Q.Tran-Dinh,ProxSARAH:随机复合非凸优化的有效算法框架,J.马赫。学习。研究。,21(2020),第110号论文,48页·Zbl 1508.90041号
[25] S.J.Reddi,A.Hefny,S.Sra,B.Poczos和A.Smola,非凸优化的随机方差缩减,in机器学习国际会议, (2016), 314-323.
[26] S.J.Reddi,S.Sra,B.Poczos和A.J.Smola,非光滑非凸有限和优化的近似随机方法神经信息处理系统研究进展, (2016), 1145-1153.
[27] H.罗宾斯;S.Monro,《随机近似方法》,《数学年鉴》。统计,22400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[28] M.Schmidt;N.Le Roux;巴赫,用随机平均梯度最小化有限和,数学。程序。,162, 83-112 (2017) ·Zbl 1358.90073号 ·doi:10.1007/s10107-016-1030-6
[29] F.Shang;K.Zhou;H.Liu;J.Cheng;I.W.Tsang;L.Zhang;D.陶;L.Jiao,VR-SGD:机器学习的简单随机方差减少方法,IEEE知识与数据工程汇刊,32,188-202(2020)·doi:10.1109/TKDE.2018年2878765
[30] C.Tan,S.Ma,Y.-H.Dai和Y.Qian,随机梯度下降的Barzilai-Borwein步长,in神经信息处理系统研究进展, (2016), 685-693.
[31] X.Wang;X.Wang;Y.-X.Yuan,非凸组合优化的随机近似拟牛顿方法,Optim。方法软件。,34, 922-948 (2019) ·Zbl 07111868号 ·doi:10.1080/10556788.2018.1471141
[32] X.Wang;S.Wang;张浩,凸组合优化的非精确近似随机梯度法,计算。最佳方案。应用。,68, 579-618 (2017) ·Zbl 1390.90432号 ·doi:10.1007/s10589-017-9932-7
[33] X.Wang;张浩,非凸组合优化的非精确近似随机二阶方法,Optim。方法软件。,35, 808-835 (2020) ·Zbl 1454.90066号 ·doi:10.1080/10556788.2020.1713128
[34] L.Xiao;张涛,带逐步方差缩减的近似随机梯度法,SIAM J.Optim。,2005年7月24日(2014年)·Zbl 1321.65016号 ·数字对象标识代码:10.1137/140961791
[35] T.Yu,X.-W.Liu,Y.-H.Dai和J.Sun,使用类信任区域方案和Barzilai-Borwein步长的小批量近似随机递归梯度算法,IEEE神经网络和学习系统汇刊, 2020.
[36] T.Yu,X.-W.Liu,Y.-H.Dai和J.Sun,使用类信任区域方案的随机方差减少梯度方法,科学杂志。计算。,87(2021),文章编号:5·Zbl 1461.90071号
[37] T.Yu,X.-W.Liu,Y.-H.Dai和J.Sun,一种具有对角Barzilai-Borwein步长的可变度量最小间隔近似随机递归梯度算法,2020,arXiv:2010.00817。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。