\`x^2+y_1+z_12^34\`
高级搜索
文章内容
文章内容

非凸非光滑优化的变尺度近似随机方差约化梯度方法

  • *通讯作者:刘新伟

    *通讯作者:刘新伟
摘要 全文(HTML) (4)/表(4) 相关论文 引用人
  • 我们研究最小化两个函数之和的问题。第一个函数是大量非凸分量函数的平均值,第二个函数是允许简单近端映射的凸(可能是非光滑)函数。利用对角线Barzilai-Borwein步长更新度量,我们提出了一种在小范围设置下的可变度量近似随机方差缩减梯度方法,称为VM-SVRG。证明了VM-SVRG在期望下次线性收敛到一个稳定点。我们进一步提出了VM-SVRG的一个变体,以实现线性收敛速度,期望非凸问题满足最近的Polyak-Łojasiewicz不等式。VM-SVRG的复杂度低于近似梯度法和近似随机梯度法,并且与近似随机方差减少梯度法相同。在标准数据集上进行了数值实验。与其他先进的近似随机梯度方法的比较表明了该方法的有效性。

    数学学科分类:一次:90C06;次要:90C30。

    引用:

    \开始{方程式}\\结束{方程式{
  • 加载中
  • 图1。 不同小批量的VM-SVRG的比较

    图2。 VM-SVRG与其他现代方法求解LR问题的比较

    图3。 不同迷你背带尺寸的VM-SVRG的比较

    图4。 VM-SVRG和mS2GD解决SVM问题的比较

    算法2PL-VM-SVRG($w^0,m,b,U_0$)
    输入:内部迭代次数$m$,初始点$\ tilde{w} _0(0)=w^0\in\mathbb{R}^d$,初始度量值$U_0$,迷你包大小$b\in\{1,2,\ldot,n\}$;
    1: 对于$s=0,1,\ldot,s-1$
    2:$w^{s+1}=$VM-SVRG($w^s,m,b,U_0$)。
    3: 结束
    输出:$w^S$。
    |显示表格
    下载:CSV公司

    表1。 SFO和PO复杂性的比较。

    复杂性 前置GD Prox-SGD公司 前置SVRG VM-SVRG公司
    《证券及期货条例》 $\mathcal{O}(n/\epsilon)$ $\mathcal{O}(1/\ε^2)$ $\mathcal{O}(n+(n^{2/3}/\epsilon))$ $\mathcal{O}(n+(n^{2/3}/\epsilon))$
    人事军官 $\mathcal{O}(1/\epsilon)$ $\mathcal{O}(1/\epsilon)$ $\mathcal{O}(1/\epsilon)$ $\mathcal{O}(1/\epsilon)$
    SFO(损益) $\mathcal{O}(n \kappa \log(1/\epsilon))$ $\mathcal{O}(1/\epsilon^2)$ $\mathcal{O}((n+\kappan^{2/3})\log(1/\epsilon))$ $\mathcal{O}((n+\kappan^{2/3})\log(1/\epsilon))$
    采购订单(PL) $\mathcal{O}(\kappa\log(1/\epsilon))$ $\mathcal{O}(1/\epsilon)$ $\mathcal{O}(\kappa\log(1/\epsilon))$ $\mathcal{O}(\kappa\log(1/\epsilon))$
    |显示表格
    下载:CSV公司

    表2。 数据集信息

    数据集 n美元$ d美元$
    ijcnn1 49, 990 22
    rcv1型 20, 242 47, 236
    真实模拟 72, 309 958年
    冠型 581, 012 54
    |显示表格
    下载:CSV公司

    表3。 方法参数的最佳选择

    数据集 mS2GD$(百万,以太)$ mS2GD-BB型 马拉赫$(百万,以塔)$ mSARAH-BB公司 虚拟机-虚拟机
    ijcnn1 $(0.02n,压裂{4}{L})$ 4亿美元$ $(0.05亿,压裂{1.8}{L})$ 4亿美元$ 4亿美元$
    rcv1型 $(0.1亿,压裂{4}{L})$ 1.1亿美元$ $(0.1亿,压裂{3.5}{L})$ 0.9亿美元$ 2.5亿美元$
    真实模拟 $(0.12亿,压裂{0.6}{L})$ 15亿美元$ $(0.07亿,压裂{2}{L})$ $ 0.06 $ 1.1亿美元$
    冠型 $(0.07亿,压裂{21}{L})$ 3亿美元$ $(0.07亿,压裂{25}{L})$ 0.008亿美元$ 10亿美元$
    |显示表格
    下载:CSV公司
  • [1] J.巴尔齐莱J.M.博文,两点步长梯度法,IMA J.数字。分析。,8(1988), 141-148. 数字对象标识:10.1093/imanum/8.1.141。
    [2] J.F.邦南斯J.Ch.吉尔伯特C.LemaréchalC.A.Sagastizábal先生,一系列可变度量近端方法,数学。编程,68(1995), 15-47. 数字对象标识:2007年10月10日/BF01585756。
    [3] L.博图F.E.柯蒂斯J.诺塞达尔、大规模机器学习的优化方法,SIAM版本。,60(2018), 223-311. 数字对象标识:10.1137/16M1080173。
    [4] Y.-H.戴M.Al-Baali先生X.杨,正Barzilai-Borwein-like步长和对称线性系统的推广,数值分析与优化,134(2015), 59-75. 数字对象标识:10.1007/978-3-319-17689-5_3.
    [5] Y.-H.戴Y.Huang(黄)X.-W.刘,一系列用于优化的谱梯度方法,计算。最佳方案。申请。,74(2019),43-65数字对象标识:10.1007/s10589-019-00107-8。
    [6] A.Defazio,F.Bach和S.Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度法神经信息处理系统的研究进展, (2014), 1646-1654.
    [7] R.Fletcher,《关于Barzilai-Borwein方法》,in应用程序的优化和控制纽约州施普林格,96(2005), 235-256.数字对象标识:10.1007/0-387-24255-4_10.
    [8] S.Ghadimi公司G.兰,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim公司。,23(2013),第2341-2368页数字对象标识:10.1137/120880811.
    [9] S.Ghadimi公司G.兰H.张,非凸随机组合优化的Mini-batch随机逼近方法,数学。程序。,155(2016), 267-305. 数字对象标识:2007年10月10日/10107-014-0846-1。
    [10] T.Hastie、R.Tibshirani和J.Friedman,统计学习的要素:数据挖掘、推理和预测《统计学中的斯普林格系列》。施普林格,纽约,2009年。数字对象标识:10.1007/978-0-387-84858-7。
    [11] Y.Huang(黄)Y.-H.戴X.-W.刘H.张、利用光谱特性的梯度法,最佳方案。方法软件。,35(2020), 681-705. 数字对象标识:10.1080/10556788.2020.1727476.
    [12] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,in神经信息处理系统的研究进展, (2013), 315-323.
    [13] H.Karimi,J.Nutini和M.Schmidt,Polyak-Łohasiewicz条件下梯度和近似粒度方法的线性收敛欧洲机器学习和数据库知识发现联合会议, (2016), 795-811.数字对象标识:10.1007/978-3-319-46128-1_50.
    [14] J.KonečnỳJ.刘里奇塔里克M.塔卡奇,近端设置中的Mini-bactch半随机梯度下降,IEEE信号处理专题杂志,10(2015), 242-255. 
    [15] J.Konečnỳ和P.Richtárik,半随机梯度下降法,应用数学和统计前沿,(2017), 9.
    [16] L.Lei,C.Ju,J.Chen和M.I.Jordan,基于SCSG方法的非凸有限和优化神经信息处理系统的研究进展, (2017), 2348-2358.
    [17] Z.Li和J.Li,非光滑非凸优化的简单近似随机梯度法神经信息处理系统的研究进展, (2018), 5564-5574.
    [18] 刘彦(Y.Liu)X.王T.郭一种用于凸优化的线性收敛随机递归梯度方法,最佳方案。莱特。,14(2020), 2265-2283. 数字对象标识:10.1007/s11590-020-01550-x。
    [19] Y.内斯特罗夫,凸规划入门讲座:基础课程,应用优化,87。Kluwer学术出版社,马萨诸塞州波士顿,2004年。数字对象标识:10.1007/978-1-4419-8853-9.
    [20] L.M.阮J.刘K.Scheinberg公司M.Takáč先生,SARAH:一种使用随机递归梯度解决机器学习问题的新方法,第34届国际机器学习会议记录,70(2017), 2613-2621. 
    [21] 洛杉矶父母P.A.洛蒂托M.V.Solodov先生,一类不精确的可变度量近点算法,SIAM J.Optim公司。,19(2008), 240-260. 数字对象标识:10.1137/070688146.
    [22] N.帕里赫S.Boyd等人。、近似算法、,优化的基础和趋势,1(2014),127-239
    [23] Y.Park、S.Dhar、S.Boyd和M.Shah,带对角线Barzilai-Borwein步长的可变度量近端梯度法,(2019),arXiv:1910.07056.
    [24] N.H.Pham,L.M.Nguyen,D.T.Phan和Q.Tran-Dinh,ProxSARAH:随机复合非凸优化的有效算法框架,J.马赫。学习。物件。,21(2020年),第110号论文,48页。
    [25] S.J.Reddi,A.Hefny,S.Sra,B.Poczos和A.Smola,非凸优化的随机方差缩减,in机器学习国际会议, (2016), 314-323.
    [26] S.J.Reddi,S.Sra,B.Poczos和A.J.Smola,非光滑非凸有限和优化的近似随机方法神经信息处理系统的研究进展, (2016), 1145-1153.
    [27] H.罗宾斯S.蒙罗,一种随机近似方法,安。数学。统计,22(1951), 400-407. 数字对象标识:10.1214张/张/1177729586。
    [28] M.施密特N.勒鲁F.巴赫,用随机平均梯度最小化有限和,数学。程序。,162(2017), 83-112. 数字对象标识:2007年10月10日/10107-016-1030-6。
    [29] F.尚K.周H.刘J.程I.W.Tsang(曾荫权)L.Zhang先生D.陶焦立中,VR-SGD:一种用于机器学习的简单随机方差缩减方法,IEEE知识与数据工程汇刊,32(2020),188-202数字对象标识:10.1109/TKDE.2018.2878765。
    [30] C.Tan,S.Ma,Y.-H.Dai和Y.Qian,随机梯度下降的Barzilai-Borwein步长,in神经信息处理系统的研究进展, (2016), 685-693.
    [31] X.王X.王Y.-X.元,非凸组合优化的随机近端拟Newton方法,最佳方案。方法软件。,34(2019), 922-948. 数字对象标识:10.1080/10556788.2018.1471141.
    [32] X.王S.Wang(王)H.张,凸组合优化的非精确近似随机梯度法,计算。最佳方案。申请。,68(2017), 579-618. 数字对象标识:2007年10月10日/10589-017-9932-7。
    [33] X.王H.张,非凸组合优化的非精确近似随机二阶方法,最佳方案。方法软件。,35(2020),808-835数字对象标识:10.1080/10556788.2020.1713128.
    [34] L.肖T·张,具有逐步方差减少的近似随机梯度法,SIAM J.Optim公司。,24(2014), 2057-2075. 数字对象标识:10.1137/140961791.
    [35] T.Yu,X.-W.Liu,Y.-H.Dai和J.Sun,使用类信任区域方案和Barzilai-Borwein步长的小批量近似随机递归梯度算法,IEEE神经网络和学习系统汇刊, 2020.数字对象标识:10.1109/TNNLS。2020.3025383.
    [36] T.Yu,X.-W.Liu,Y.-H.Dai和J.Sun,使用类信任区域方案的随机方差减少梯度方法,科学杂志。计算。,87(2021),条款编号:5。数字对象标识:2007年10月10日/10915-020-01402-x。
    [37] T.Yu,X.-W Liu,Y.-H Dai和J.Sun,一种具有对角Barzilai-Borwein步长的可变度量小批量近端随机递归梯度算法,2020,arXiv:2010.00817号.
  • 加载中

数字(4)

桌子(4)

分享

文章指标

HTML视图(2056) PDF下载(766) 引用人(0)

访问历史记录

作者撰写的其他文章

目录

    /

    返回
    返回