×

随机准粒度方法:通过雅可比草图减少方差。 (英语) Zbl 1471.65051号

摘要:我们开发了一类新的方差减少随机梯度下降方法,用于最小化大量光滑函数的平均值。我们的方法——JacSketch——的动机是随机数值线性代数的新发展,并通过维持由单个函数的梯度组成的雅可比矩阵的随机估计来操作。在每次迭代中,JacSketch都会有效地更新雅可比矩阵,方法是首先通过绘制草图获得真实雅可比的随机线性测量值,然后将之前的估计值投影到线性矩阵方程的解空间中,该方程的解与测量值一致。然后使用雅可比估计来计算梯度的方差减少无偏估计。我们的策略类似于准Newton方法保持Hessian估计值的方式,因此我们的方法可以被视为随机拟粒度方法我们的方法也可以看作是应用于受控随机优化重构控制来自雅可比估计。我们证明了对于光滑和强凸函数,JacSketch以一个适用于一般草图的收敛定理所规定的有意义的速率线性收敛。我们还提供了一个改进的收敛定理,该定理适用于较小的草图类,其特点是基于随机李亚普诺夫函数这使我们能够通过重要性抽样获得更清晰的JacSketch变体复杂性结果。通过将我们的一般方法专门用于特定的草图绘制策略,JacSketch简化为著名的随机平均梯度(SAGA)方法,以及它的几个现有的和许多新的小批量、减少的内存和重要性抽样变量。我们使用重要性抽样的SAGA速率是该方法当前最著名的速率,通过以下公式解决了一个猜想M.W.施密特等【“训练条件随机场的非均匀随机平均梯度法”,载于:《第十八届国际人工智能与统计会议论文集》,AISTATS 2015,美国加利福尼亚州圣地亚哥,2015年5月9日至12日(2015)】。我们为小批量SAGA获得的速率也优于现有速率,并且足够紧凑,以显示随着小批量大小的增加,总复杂度降低。此外,我们还获得了第一个具有重要抽样的小批量SAGA方法。

MSC公司:

65千5 数值数学规划方法
90立方厘米 随机规划
90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achlioptas,D.,《数据库友好随机投影:Johnson-Lindenstraus与二进制硬币》,J.Compute。系统。科学。,66, 4, 671-687 (2003) ·Zbl 1054.68040号 ·doi:10.1016/S0022-0000(03)00025-4
[2] Ailon,N。;Chazelle,B.,《快速Johnson-Lindenstraus变换和近似最近邻》,SIAM J.Compute。,39, 1, 302-322 (2009) ·Zbl 1185.68327号 ·数字对象标识代码:10.1137/060673096
[3] Allen-Zhu,Z.:卡秋莎:随机梯度法的第一次直接加速。摘自:第49届ACM SIGACT计算机理论年会论文集。STOC 2017,第1200-1205页(2017)·Zbl 1369.68273号
[4] Chang,CC;Lin,CJ,LIBSVM:支持向量机库,ACM Trans。智力。系统。技术。,2, 3, 1-27 (2011) ·doi:10.145/1961189.1961199
[5] Csiba,D。;Richtárik,P.,《小批次重要性抽样》,J.Mach。学习。决议,19,1,962982(2018)·Zbl 06982318号
[6] Defazio,A。;巴赫,F。;Lacoste-julien,S.,SAGA:一种支持非强凸复合目标的快速增量梯度方法,高级神经信息处理。系统。,1646-1654年(2014年)
[7] Defazio,A.J.、Caetano,T.S.、Domke,J.:Finito:用于大数据问题的更快、可置换的增量梯度法。收件人:CoRR arXiv:1407.2710(2014)
[8] Goldfarb,D.,矩阵反转和线性代数方程组求解的修正方法,数学。计算。,26, 120, 829-829 (1972) ·Zbl 0268.65026号 ·网址:10.1090/S0025-5718-1972-0317527-4
[9] Goldfarb,D.,由变分平均值导出的一系列变分度量方法,数学。计算。,24, 109, 23-26 (1970) ·Zbl 0196.18002号 ·doi:10.1090/S0025-5718-1970-0258249-6
[10] Gower,R.M.,Richtárik,P.,Bach,F.:随机准粒度方法:通过Jacobian草图减少方差。arXiv:1805.02632(2018)
[11] Gower,RM;Richtárik,P.,线性系统的随机迭代方法,SIAM J.矩阵分析。申请。,36, 4, 1660-1690 (2015) ·Zbl 1342.65110号 ·doi:10.1137/15M1025487
[12] Gower,RM;Richtárik,P.,《随机拟牛顿更新是线性收敛的矩阵反演算法》,SIAM J.matrix Anal。申请。,38, 4, 1380-1409 (2017) ·Zbl 1379.65016号 ·doi:10.1137/16M1062053
[13] FJ希克内尔;Lemieux,C。;Owen,AB,《准蒙特卡罗控制变量》,《统计科学》。,20, 1, 1-31 (2005) ·Zbl 1100.65006号 ·doi:10.1214/08834230400000468
[14] Hofmann,T.,Lucchi,A.,Lacoste-Julien,S.,McWilliams,B.:方差减少了与邻居的随机梯度下降。收录人:Cortes,C.,Lawrence,N.D.,Lee,D.D.,Sugiyama,M.,Garnett,R.(编辑)NIPS,第2305-2313页(2015年)
[15] Johnson,R.,Zhang,T.:使用预测方差减少加速随机梯度下降。摘自:《神经信息处理系统进展》26,第315-323页。Curran Associates,Inc.(2013年)
[16] 科内钦,J。;Richtárik,P.,半随机梯度下降方法,前沿。申请。数学。统计,3,9(2017年)·doi:10.3389/fams.2017.0009
[17] Lin,H。;Mairal,J。;Harchaoui,Z.,《一阶凸优化的催化剂加速:从理论到实践》,J.Mach。学习。研究,18,1,7854-7907(2017)·兹比尔1469.68101
[18] Mairal,J.,《应用于大规模机器学习的增量优化-最小化优化》,SIAM J.Optim。,25, 2, 829-855 (2015) ·Zbl 1320.90047号 ·数字对象标识代码:10.1137/140957639
[19] Nesterov,Y.,《凸优化入门讲座:基础课程》(2014),柏林:施普林格,柏林·Zbl 1086.90045号
[20] Nguyen,L.M.,Liu,J.,Scheinberg,K.,Takánch,M.:SARAH:使用随机递归梯度解决机器学习问题的新方法。摘自:Precup D.,Teh Y.W.(eds)《第34届国际机器学习会议论文集》,第70卷,第2613-2621页。机器学习研究论文集(PMLR)(2017)
[21] Novikova,N.,《解决Hilbert空间优化问题的随机拟粒度方法》,U.S.S.R.Compute。数学。数学。物理。,24, 2, 6-16 (1984) ·Zbl 0561.90073号 ·doi:10.1016/0041-5553(84)90077-6
[22] Qu,Z.,Richtárik,P.:任意抽样的坐标下降法II:预期可分离过度逼近。arXiv:1412.8063(2014)·Zbl 1365.90206号
[23] Qu,Z.,Richtárik,P.,Zhang,T.:石英:随机双坐标上升,任意采样。摘自:第28届神经信息处理系统国际会议论文集——第1卷。NIPS’15,第865-873页。麻省理工学院出版社,剑桥(2015)
[24] 里奇塔里克,P。;Takáč,M.,最小化复合函数的随机块坐标下降方法的迭代复杂性,数学。程序。,144, 1, 1-38 (2014) ·Zbl 1301.65051号 ·doi:10.1007/s10107-012-0614-z
[25] Richtárik,P.,Takáć,M.:大数据优化问题的并行坐标下降方法。摘自:《数学规划》,第1-52页(2015年)·兹比尔1342.90102
[26] Richtárik,P.,Takáć,M.:线性系统的随机重新组合:算法和收敛理论。arXiv:1706.01108(2017)·兹比尔1440.65045
[27] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[28] Robert,N.L.R.,Gower,M.,Bach,F.:使用Hessian跟踪梯度:减少方差随机方法的新视角。摘自:第21届国际人工智能与统计会议论文集。机器学习研究论文集(2018)
[29] 施密特,M。;Le Roux,N。;巴赫,F.,用随机平均梯度最小化有限和,数学。程序。,162, 1, 83-112 (2017) ·兹比尔1358.90073 ·doi:10.1007/s10107-016-1030-6
[30] Schmidt,M.W.,Babanezhad,R.,Ahmed,M.O.,Defazio,A.,Clifton,A.,Sarkar,A.:训练条件随机场的非均匀随机平均梯度法。2015年5月9日至12日,美国加利福尼亚州圣地亚哥,AISTATS 2015,第十八届国际人工智能与统计会议记录
[31] Shalev-Shwartz,S.:无对偶性、正则性和个体凸性的SDCA。arXiv:160201582(2016年)
[32] 沙列夫·施瓦茨,S。;Zhang,T.,《加速微支撑随机双坐标上升》,《高级神经信息处理》。系统。,26, 378-385 (2013)
[33] 沙列夫·施瓦茨,S。;Zhang,T.,正则化损失的随机双坐标上升方法,J.马赫。学习。研究,14,1567-599(2013)·Zbl 1307.68073号
[34] Varga,RS,循环矩阵的特征值,Pac。数学杂志。,1, 151-160 (1954) ·Zbl 0055.01002号 ·doi:10.2140/pjm.1954.4.151
[35] Wang,C.,Chen,X.,Smola,A.J.,Xing,E.P.:随机梯度优化的方差减少。收录:Burges,C.J.C.,Bottou,L.,Welling,M.,Ghahramani,Z.,Weinberger,K.Q.(eds)《神经信息处理系统进展》,第26卷,第181-189页。Curran Associates Inc.(2013年)
[36] Xiao,L.,Zhang,T.:具有逐步方差减少的近似随机梯度法。arXiv:1403.4699(2014)·Zbl 1321.65016号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。