×

具有收缩和向量传输的黎曼随机方差约简梯度算法。 (英语) Zbl 1421.90084号

摘要:近年来,随机方差减少算法在最小化大量但有限数量损失函数的平均值方面引起了广泛关注。本文提出了一种新的欧氏随机方差缩减梯度(R-SVRG)算法的黎曼推广到流形搜索空间。通过收缩和矢量传输解决了平均、添加和减去多重梯度的关键挑战。对于该算法,我们在一些自然假设下,给出了具有衰减步长的全局收敛性分析和具有固定步长的局部收敛速度分析。此外,将该算法应用于对称正定流形上黎曼质心的计算问题以及格拉斯曼流形上的主成分分析和低秩矩阵补全问题。结果表明,所提出的算法在每种情况下都优于标准的黎曼随机梯度下降算法。

MSC公司:

90C06型 数学规划中的大尺度问题
90立方厘米15 随机规划
90立方厘米 非线性规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.-A.Absil、R.Mahony和R.Sepulchre,矩阵流形上的优化算法,普林斯顿大学出版社,新泽西州普林斯顿,2008年·Zbl 1147.65043号
[2] Z.Allen-Zhu和E.Hazan,减少方差以实现更快的非凸优化,《第33届机器学习国际会议论文集》,Proc。机器。学习。2016年第48号决议,第699-707页;可在获取http://processes.mlr.press/v48/。
[3] Z.Allen-Zhu和Y.Yuan,改进的SVRG用于非强凸或非凸和目标,《第33届机器学习国际会议论文集》,Proc。机器。学习。2016年第48号决议,第1080-1089页;可在获取http://processes.mlr.press/v48/。
[4] L.Balzano、R.Nowak和B.Recht,基于高度不完全信息的子空间在线识别与跟踪,载于《第48届阿勒顿通信、控制和计算年会论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2010年,第704-711页。
[5] S.Bonnabel,黎曼流形上的随机梯度下降,IEEE传输。自动化。控制,58(2013),第2217-2229页·Zbl 1369.90110号
[6] N.Boumal、B.Mishra、P.-A.Absil和R.Sepulchre,Manopt:用于流形优化的MATLAB工具箱,J.马赫。学习。Res.,15(2014),第1455-1459页·Zbl 1319.90003号
[7] A.Defazio、F.Bach和S.Lacoste-Julien,SAGA:一种支持非强凸复合目标的快速增量梯度方法,高级神经信息处理。系统。27,Curran Associates,纽约州Red Hook,2014年,第1646-1654页。
[8] D.L.Fisk,拟鞅,事务处理。阿米尔。数学。Soc.,120(1965),第369-389页·Zbl 0133.40303号
[9] D.Garber和E.Hazan,基于凸优化的快速简单PCA,预打印,https://arxiv.org/abs/1509.05647, 2015.
[10] K.Goldberg、T.Roeder、D.Gupta和C.Perkins,特征味道:一种恒定时间的协同过滤算法,Inf.Retr.,输入缩回。,4(2001),第133-151页·Zbl 0989.68052号
[11] W.Huang、P.-A.Absil和K.A.Gallivan,一种黎曼对称秩一信任域方法,数学。程序。,150(2015),第179-216页·Zbl 1314.65083号
[12] W.Huang、K.A.Gallivan和P.-A.Absil,黎曼优化的Broyden类拟Newton方法、SIAM J.Optim.、。,25(2015),第1660-1685页·Zbl 1461.65156号
[13] S.Jayasumana、R.Hartley、M.Salzmann、H.Li和M.Harandi,高斯RBF核黎曼流形上的核方法,IEEE传输。模式分析。机器。整数。,37(2015),第2464-2477页。
[14] B.Jeuris、R.Vanderbil和B.Vandereycken,当代矩阵几何平均值计算算法的综述与比较,电子。事务处理。数字。分析。,39(2012),第379-402页·Zbl 1287.65036号
[15] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,高级神经信息处理。系统。26,Curran Associates,纽约州Red Hook,2013年,第315-323页。
[16] H.Kasai、H.Sato和B.Mishra,格拉斯曼流形上的黎曼随机方差约化梯度,预打印,https://arxiv.org/abs/1605.07367, 2016.
[17] H.Kasai、H.Sato和B.Mishra,黎曼随机递归梯度算法《第35届国际机器学习会议论文集》,J.Dy和A.Krause主编,Proc。机器。学习。2018年第80号决议,第2516-2524页;可在获取http://processes.mlr.press/v80/。
[18] H.Kasai、H.Sato和B.Mishra,方差减少的黎曼随机拟牛顿算法及其收敛性分析,《第二十届国际人工智能与统计会议论文集》,A.Storkey和F.Perez-Cruz编辑,Proc。机器。学习。2018年第84号决议,第269-278页;可在获取http://processes.mlr.press/v84/。
[19] J.Konečný和P.Richtárik,半随机梯度下降法,预打印,https://arxiv.org/abs/1312.1666, 2013.
[20] D.Kressner、M.Steinlechner和B.Vandereycken,基于黎曼优化的低秩张量补全BIT,54(2014),第447-468页·Zbl 1300.65040号
[21] J.Mairal,增量优化-最小化优化及其在大规模机器学习中的应用、SIAM J.Optim.、。,25(2015),第829-855页·Zbl 1320.90047号
[22] G.Meyer、S.Bonnabel和R.Sepulchre,固定秩约束下的线性回归:黎曼方法,摘自《第28届机器学习国际会议论文集》,2011年,威斯康星州麦迪逊Omnipress,第545-552页。
[23] B.Mishra和R.Sepulchre,R\(3\)MC:低秩矩阵完备的黎曼三因子算法,《第53届IEEE决策与控制会议论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2014年,第1137-1142页。
[24] B.Mishra和R.Sepulchre,黎曼预处理、SIAM J.Optim.、。,26(2016),第635-660页·Zbl 1382.65180号
[25] X.Pennec、P.Fillard和N.Ayache,张量计算的黎曼框架《国际计算杂志》。视觉。,66(2006),第41-66页·Zbl 1287.53031号
[26] S.J.Reddi、A.Hefny、S.Sra、B.Poczos和A.Smola,非凸优化的随机方差约简,《第33届机器学习国际会议论文集》,Proc。机器。学习。2016年第48号决议,第314-323页;可在获取http://processes.mlr.press/v48/。
[27] N.L.Roux、M.Schmidt和F.R.Bach,有限训练集指数收敛的随机梯度法,高级神经信息处理。系统。25,Curran Associates,纽约州Red Hook,2012年,第2663-2671页。
[28] S.Shalev Shwartz,无对偶性的SDCA,预打印,https://arxiv.org/abs/1502.06177, 2015.
[29] S.Shalev-Shwartz和T.Zhang,近似随机双坐标上升,预打印,https://arxiv.org/abs/1211.2717, 2012.
[30] S.Shalev-Shwartz和T.Zhang,正则化损失最小化的随机双坐标上升法,J.马赫。学习。研究,14(2013),第567-599页·Zbl 1307.68073号
[31] O.沙米尔,SVD和PCA的快速随机算法:收敛性和凸性,预打印,https://arxiv.org/abs/1507.08788, 2015.
[32] L.Xiao和Y.Zhang,方差递减的近似随机梯度法、SIAM J.Optim.、。,24(2014),第2057-2075页·Zbl 1321.65016号
[33] X.Yuan、P.-A.Huang、W.Absil和K.A.Gallivan,计算矩阵几何平均值的黎曼有限记忆BFGS算法,《国际计算科学会议论文集》,Procedia Comput。科学。80(2016),第2147-2157页。
[34] H.Zhang、S.J.Reddi和S.Sra,黎曼SVRG:黎曼流形上的快速随机优化,在高级神经信息处理中。系统。29,Curran Associates,纽约州Red Hook,2016年,第4592-4600页。
[35] H.Zhang和S.Sra,大地凸优化的一阶方法,2016年学习理论会议,Proc。机器。学习。2016年第49号决议,第1617-1638页;可在获取http://processes.mlr.press/v49/。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。