Variable metric proximal stochastic variance reduced gradient methods for nonconvex nonsmooth optimization

Tengteng Yu; Xin-Wei Liu; Yu-Hong Dai; Jie Sun

doi:10.3934/jimo.2021084

文章内容

2022年第18卷, 第4版: 2611-2631. Doi公司：10.3934/jimo.2021084

这个问题上一篇文章一类随机线性变分不等式ERM公式的定量稳定性下一篇文章 CVaR准则下具有面向量化参考点的有损反向报童问题

非凸非光滑优化的变尺度近似随机方差约化梯度方法

1
河北工业大学人工智能学院，天津300401
2
河北工业大学数学学院，天津300401
三。
中国科学院数学与系统科学研究院LSEC，中国北京100190
4
中国科学院大学数学科学学院，北京100049
5
新加坡国立大学商学院，新加坡119245

^*通讯作者：刘新伟
^*通讯作者：刘新伟

收到日期： 2021年1月

修订日期： 2021年2月

发布时间： 2022年7月

摘要全文（HTML）图(4)/表(4) 相关论文引用人

摘要

我们研究最小化两个函数之和的问题。第一个函数是大量非凸分量函数的平均值，第二个函数是允许简单近端映射的凸（可能是非光滑）函数。利用对角线Barzilai-Borwein步长更新度量，我们提出了一种在小范围设置下的可变度量近似随机方差缩减梯度方法，称为VM-SVRG。证明了VM-SVRG在期望下次线性收敛到一个稳定点。我们进一步提出了VM-SVRG的一个变体，以实现线性收敛速度，期望非凸问题满足最近的Polyak-Łojasiewicz不等式。VM-SVRG的复杂度低于近似梯度法和近似随机梯度法，并且与近似随机方差减少梯度法相同。在标准数据集上进行了数值实验。与其他先进的近似随机梯度方法的比较表明了该方法的有效性。

关键词：

数学学科分类：一次：90C06；次要：90C30。

引用：

全文（HTML）

图1。 不同小批量的VM-SVRG的比较

下载：全尺寸图像 PowerPoint幻灯片

图2。 VM-SVRG与其他现代方法求解LR问题的比较

下载：全尺寸图像 PowerPoint幻灯片

图3。 不同迷你背带尺寸的VM-SVRG的比较

下载：全尺寸图像 PowerPoint幻灯片

图4。 VM-SVRG和mS2GD解决SVM问题的比较

下载：全尺寸图像 PowerPoint幻灯片

算法2PL-VM-SVRG（$w^0，m，b，U_0$）

输入：内部迭代次数$m$，初始点$\ tilde{w} _0（0）=w^0\in\mathbb{R}^d$，初始度量值$U_0$，迷你包大小$b\in\{1,2，\ldot，n\}$；
1: 对于$s=0,1，\ldot，s-1$做
2:$w^{s+1}=$VM-SVRG（$w^s，m，b，U_0$）。
3: 结束
输出：$w^S$。

|显示表格

下载：CSV公司

表1。 SFO和PO复杂性的比较。

复杂性	前置GD	Prox-SGD公司	前置SVRG	VM-SVRG公司
《证券及期货条例》	$\mathcal{O}（n/\epsilon）$	$\mathcal｛O｝（1/\ε^2）$	$\mathcal{O}（n+（n^{2/3}/\epsilon））$	$\mathcal{O}（n+（n^{2/3}/\epsilon））$
人事军官	$\mathcal{O}（1/\epsilon）$	$\mathcal{O}（1/\epsilon）$	$\mathcal{O}（1/\epsilon）$	$\mathcal{O}（1/\epsilon）$
SFO（损益）	$\mathcal{O}（n \kappa \log（1/\epsilon））$	$\mathcal{O}（1/\epsilon^2）$	$\mathcal{O}（（n+\kappan^{2/3}）\log（1/\epsilon））$	$\mathcal{O}（（n+\kappan^{2/3}）\log（1/\epsilon））$
采购订单（PL）	$\mathcal{O}（\kappa\log（1/\epsilon））$	$\mathcal{O}（1/\epsilon）$	$\mathcal｛O｝（\kappa\log（1/\epsilon））$	$\mathcal{O}（\kappa\log（1/\epsilon））$

|显示表格

下载：CSV公司

表2。 数据集信息

数据集	n美元$	d美元$
ijcnn1	49, 990	22
rcv1型	20, 242	47, 236
真实模拟	72, 309	958年
冠型	581, 012	54

|显示表格

下载：CSV公司

表3。 方法参数的最佳选择

数据集	mS2GD$（百万，以太）$	mS2GD-BB型	马拉赫$（百万，以塔）$	mSARAH-BB公司	虚拟机-虚拟机
ijcnn1	$（0.02n，压裂{4}{L}）$	4亿美元$	$（0.05亿，压裂{1.8}{L}）$	4亿美元$	4亿美元$
rcv1型	$（0.1亿，压裂{4}{L}）$	1.1亿美元$	$（0.1亿，压裂{3.5}{L}）$	0.9亿美元$	2.5亿美元$
真实模拟	$（0.12亿，压裂{0.6}{L}）$	15亿美元$	$（0.07亿，压裂{2}{L}）$	$ 0.06 $	1.1亿美元$
冠型	$（0.07亿，压裂{21}{L}）$	3亿美元$	$（0.07亿，压裂{25}{L}）$	0.008亿美元$	10亿美元$

|显示表格

下载：CSV公司

相关论文

引用人

工具书类

[1]	J.巴尔齐莱和J.M.博文，两点步长梯度法，IMA J.数字。分析。,8(1988), 141-148. 数字对象标识：10.1093/imanum/8.1.141。
[2]	J.F.邦南斯, J.Ch.吉尔伯特, C.Lemaréchal和C.A.Sagastizábal先生，一系列可变度量近端方法，数学。编程,68(1995), 15-47. 数字对象标识：2007年10月10日/BF01585756。
[3]	L.博图, F.E.柯蒂斯和J.诺塞达尔、大规模机器学习的优化方法，SIAM版本。,60(2018), 223-311. 数字对象标识：10.1137/16M1080173。
[4]	Y.-H.戴, M.Al-Baali先生和X.杨，正Barzilai-Borwein-like步长和对称线性系统的推广，数值分析与优化,134(2015), 59-75. 数字对象标识：10.1007/978-3-319-17689-5_3.
[5]	Y.-H.戴, Y.Huang（黄）和X.-W.刘，一系列用于优化的谱梯度方法，计算。最佳方案。申请。,74（2019），43-65数字对象标识：10.1007/s10589-019-00107-8。
[6]	A.Defazio，F.Bach和S.Lacoste-Julien，SAGA：支持非强凸复合目标的快速增量梯度法神经信息处理系统的研究进展, (2014), 1646-1654.
[7]	R.Fletcher，《关于Barzilai-Borwein方法》，in应用程序的优化和控制纽约州施普林格，96(2005), 235-256.数字对象标识：10.1007/0-387-24255-4_10.
[8]	S.Ghadimi公司和G.兰，非凸随机规划的随机一阶和零阶方法，SIAM J.Optim公司。,23（2013），第2341-2368页数字对象标识：10.1137/120880811.
[9]	S.Ghadimi公司, G.兰和H.张，非凸随机组合优化的Mini-batch随机逼近方法，数学。程序。,155(2016), 267-305. 数字对象标识：2007年10月10日/10107-014-0846-1。
[10]	T.Hastie、R.Tibshirani和J.Friedman，统计学习的要素：数据挖掘、推理和预测《统计学中的斯普林格系列》。施普林格，纽约，2009年。数字对象标识：10.1007/978-0-387-84858-7。
[11]	Y.Huang（黄）, Y.-H.戴, X.-W.刘和H.张、利用光谱特性的梯度法，最佳方案。方法软件。,35(2020), 681-705. 数字对象标识：10.1080/10556788.2020.1727476.
[12]	R.Johnson和T.Zhang，使用预测方差减少加速随机梯度下降，in神经信息处理系统的研究进展, (2013), 315-323.
[13]	H.Karimi，J.Nutini和M.Schmidt，Polyak-Łohasiewicz条件下梯度和近似粒度方法的线性收敛欧洲机器学习和数据库知识发现联合会议, (2016), 795-811.数字对象标识：10.1007/978-3-319-46128-1_50.
[14]	J.Konečnỳ, J.刘, 里奇塔里克和M.塔卡奇，近端设置中的Mini-bactch半随机梯度下降，IEEE信号处理专题杂志,10(2015), 242-255.
[15]	J.Konečnỳ和P.Richtárik，半随机梯度下降法，应用数学和统计前沿,三(2017), 9.
[16]	L.Lei，C.Ju，J.Chen和M.I.Jordan，基于SCSG方法的非凸有限和优化神经信息处理系统的研究进展, (2017), 2348-2358.
[17]	Z.Li和J.Li，非光滑非凸优化的简单近似随机梯度法神经信息处理系统的研究进展, (2018), 5564-5574.
[18]	刘彦（Y.Liu）, X.王和T.郭一种用于凸优化的线性收敛随机递归梯度方法，最佳方案。莱特。,14(2020), 2265-2283. 数字对象标识：10.1007/s11590-020-01550-x。
[19]	Y.内斯特罗夫，凸规划入门讲座：基础课程，应用优化，87。Kluwer学术出版社，马萨诸塞州波士顿，2004年。数字对象标识：10.1007/978-1-4419-8853-9.
[20]	L.M.阮, J.刘, K.Scheinberg公司和M.Takáč先生，SARAH:一种使用随机递归梯度解决机器学习问题的新方法，第34届国际机器学习会议记录,70(2017), 2613-2621.
[21]	洛杉矶父母, P.A.洛蒂托和M.V.Solodov先生，一类不精确的可变度量近点算法，SIAM J.Optim公司。,19(2008), 240-260. 数字对象标识：10.1137/070688146.
[22]	N.帕里赫和S.Boyd等人。、近似算法、，优化的基础和趋势,1（2014），127-239
[23]	Y.Park、S.Dhar、S.Boyd和M.Shah，带对角线Barzilai-Borwein步长的可变度量近端梯度法，（2019），arXiv:1910.07056.
[24]	N.H.Pham，L.M.Nguyen，D.T.Phan和Q.Tran-Dinh，ProxSARAH：随机复合非凸优化的有效算法框架，J.马赫。学习。物件。,21（2020年），第110号论文，48页。
[25]	S.J.Reddi，A.Hefny，S.Sra，B.Poczos和A.Smola，非凸优化的随机方差缩减，in机器学习国际会议, (2016), 314-323.
[26]	S.J.Reddi，S.Sra，B.Poczos和A.J.Smola，非光滑非凸有限和优化的近似随机方法神经信息处理系统的研究进展, (2016), 1145-1153.
[27]	H.罗宾斯和S.蒙罗，一种随机近似方法，安。数学。统计,22(1951), 400-407. 数字对象标识：10.1214张/张/1177729586。
[28]	M.施密特, N.勒鲁和F.巴赫，用随机平均梯度最小化有限和，数学。程序。,162(2017), 83-112. 数字对象标识：2007年10月10日/10107-016-1030-6。
[29]	F.尚, K.周, H.刘, J.程, I.W.Tsang（曾荫权）, L.Zhang先生, D.陶和焦立中，VR-SGD：一种用于机器学习的简单随机方差缩减方法，IEEE知识与数据工程汇刊,32（2020），188-202数字对象标识：10.1109/TKDE.2018.2878765。
[30]	C.Tan，S.Ma，Y.-H.Dai和Y.Qian，随机梯度下降的Barzilai-Borwein步长，in神经信息处理系统的研究进展, (2016), 685-693.
[31]	X.王, X.王和Y.-X.元，非凸组合优化的随机近端拟Newton方法，最佳方案。方法软件。,34(2019), 922-948. 数字对象标识：10.1080/10556788.2018.1471141.
[32]	X.王, S.Wang（王）和H.张，凸组合优化的非精确近似随机梯度法，计算。最佳方案。申请。,68(2017), 579-618. 数字对象标识：2007年10月10日/10589-017-9932-7。
[33]	X.王和H.张，非凸组合优化的非精确近似随机二阶方法，最佳方案。方法软件。,35（2020），808-835数字对象标识：10.1080/10556788.2020.1713128.
[34]	L.肖和T·张，具有逐步方差减少的近似随机梯度法，SIAM J.Optim公司。,24(2014), 2057-2075. 数字对象标识：10.1137/140961791.
[35]	T.Yu，X.-W.Liu，Y.-H.Dai和J.Sun，使用类信任区域方案和Barzilai-Borwein步长的小批量近似随机递归梯度算法，IEEE神经网络和学习系统汇刊, 2020.数字对象标识：10.1109/TNNLS。2020.3025383.
[36]	T.Yu，X.-W.Liu，Y.-H.Dai和J.Sun，使用类信任区域方案的随机方差减少梯度方法，科学杂志。计算。,87（2021），条款编号：5。数字对象标识：2007年10月10日/10915-020-01402-x。
[37]	T.Yu，X.-W Liu，Y.-H Dai和J.Sun，一种具有对角Barzilai-Borwein步长的可变度量小批量近端随机递归梯度算法，2020，arXiv:2010.00817号.