×

方差减少的随机次采样牛顿法。 (英语) Zbl 1433.62175号

摘要:自引入带有方差减少技术的随机梯度方法以来,大规模机器学习问题的随机优化得到了极大的发展。已经提出了几种随机二阶方法来改进,这些方法在随机环境中近似Hessian的曲率信息。本文介绍了一种随机子样本方差约简牛顿法(S2NMVR),该方法将子样本牛顿法和随机方差约简梯度相结合。对于许多机器学习问题,线性时间Hessian向量产生为S2NMVR的计算效率提供了证据。然后,我们开发了两种S2NMVR变体,它们保留了Hessian逆的估计,并降低了非线性问题Hessian向量积的计算成本。

MSC公司:

62华氏35 多元分析中的图像分析
65千5 数值数学规划方法
68T05型 人工智能中的学习和自适应系统
90C06型 数学规划中的大尺度问题
90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,N.、Bullins,B.和Hazan,E.,线性时间机器学习的二阶随机优化,J.Mach。学习。第18(116)(2017)1-40号决议·Zbl 1441.90115号
[2] Astorino,A.、Fuduli,A.和Gaudioso,M.,机器学习中分类问题的非线性规划,AIP Conf.Proc.1776(1)(2016)040004·Zbl 1258.90066号
[3] Bottou,L.、Curtis,F.E.和Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.60(2)(2018)223-311·Zbl 1397.65085号
[4] G.Bouchard、T.Trouillon、J.Perez和A.Gaidon,《在线学习样本》,预印本(2015),arXiv:1506.09016。
[5] Byrd,R.H.、Chin,G.M.、Neveitt,W.和Nocedal,J.,《关于随机粗麻布信息在机器学习优化方法中的使用》,SIAM J.Optim.21(3)(2011)977-995·Zbl 1245.65062号
[6] Byrd,R.H.,Hansen,S.L.,Nocedal,J.和Singer,Y.,《大规模优化的随机拟牛顿法》,SIAM J.Optim.26(2)(2015)1008-1031·Zbl 1382.65166号
[7] Defazio,A.,Bach,F.和Lacostejulien,S.,SAGA:支持非强凸复合目标的快速增量梯度方法,见Proc。神经信息处理。系统。(2014),第1646-1654页。
[8] Defazio,A.等人,Finito:一种用于大数据问题的更快、可置换的增量梯度方法,见Proc。ACM Int.Conf.Machine Learning(中国北京,2014),第1125-1133页。
[9] Duchi,J.,Hazan,E.和Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第12(7)号决议(2011)257-269·Zbl 1280.68164号
[10] Johnson,R.和Zhang,T.,使用预测方差减少加速随机梯度下降,Proc。神经信息处理。系统。(2013),第315-323页。
[11] R.Kiros,用随机无hessian优化训练神经网络,预印本(2013),arXiv:1301.3641。
[12] Kolte,R.、Erdogdu,M.和OzgüR,A.,《通过二阶信息加速SVRG》,NIPS机器学习优化研讨会(2015)。
[13] 科内肯ỳ, J.和Richtárik,P.,《半随机梯度下降法》,Front。申请。数学。统计数据3(2017)9·Zbl 1386.90080号
[14] A.Lucchi、B.Mcwilliams和T.Hofmann,《方差减少随机牛顿法》,预印本(2015),arXiv:1503.08316。
[15] L.Luo,Z.Chen,Z.Zhang,W.J.Li,方差缩减二阶方法,预印本(2016),arXiv:1602.00223。
[16] Mairal,J.,《应用于大规模机器学习的增量优化-最小化优化》,SIAM J.Optim.25(2)(2014)829-855·Zbl 1320.90047号
[17] Martens,J.,《通过无Hessian优化进行深度学习》,收录于Proc。ACM Int.Conf.Machine Learning(以色列海法,2010),第735-742页。
[18] J.Martens,《自然梯度法的新见解和观点》,预印本(2014),arXiv:1412.1193·Zbl 07306852号
[19] Martens,J.和Sutskever,I.,利用无Hessian优化学习递归神经网络,Proc。ACM Int.Conf.Machine Learning(美国华盛顿贝尔维尤,2011),第1033-1040页。
[20] Moritz,P.、Nishihara,R.和Jordan,M.I.,线性收敛随机l-BFGS算法,见Proc。国际人工智能与统计会议(西班牙加的斯,2016),第249-258页。
[21] Nesterov,Y.,坐标下降法在大规模优化问题上的效率,SIAM J.Optim.22(2)(2012)341-362·Zbl 1257.90073号
[22] Y.Ollivier,《神经网络的黎曼度量:前馈网络》,预印本(2013),arXiv:1303.0818·Zbl 1380.68337号
[23] Robbins,H.和Monro,S.,《随机近似方法》,《数学年鉴》。统计数字22(3)(1951)400-407·兹比尔0054.05901
[24] Roux,N.L.,Schmidt,M.和Bach,F.R.,有限训练集指数收敛率随机梯度法,Proc。神经信息处理。系统。(美国内华达州塔霍湖,2012年),第2663-2671页。
[25] Sa,C.D.,Re,C.和Olukotun,K.,一些非凸矩阵问题随机梯度下降的全局收敛性,见Proc。ACM Int.Conf.Machine Learning(法国里尔,2015),第2332-2341页。
[26] Schmidt,M.,Roux,N.L.和Bach,F.,利用随机平均梯度最小化有限和,数学。项目26(5)(2013)405-11。
[27] Schraudolph,N.N.,Yu,J.和Gunter,S.,在线凸优化的随机拟牛顿方法,J.Mach。学习。决议2(2007)436-443。
[28] Shalevshwartz,S.和Zhang,T.,《近距离随机双坐标上升》,《数学》(2012)。
[29] 伍德拉夫,D.P.,《素描作为数字线性代数的工具》,Found。趋势理论。计算。科学10(2014)1-157·Zbl 1316.65046号
[30] Xiao,L.和Zhang,T.,带逐步方差减少的近似随机梯度法,SIAM J.Optim.24(4)(2014)2057-2075·Zbl 1321.65016号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。