罗志坚;钱云涛 方差减少的随机次采样牛顿法。 (英语) Zbl 1433.62175号 国际J.Wavelets多分辨率。信息处理。 17,第6号,文章ID 195041,23 p.(2019). 摘要:自引入带有方差减少技术的随机梯度方法以来,大规模机器学习问题的随机优化得到了极大的发展。已经提出了几种随机二阶方法来改进,这些方法在随机环境中近似Hessian的曲率信息。本文介绍了一种随机子样本方差约简牛顿法(S2NMVR),该方法将子样本牛顿法和随机方差约简梯度相结合。对于许多机器学习问题,线性时间Hessian向量产生为S2NMVR的计算效率提供了证据。然后,我们开发了两种S2NMVR变体,它们保留了Hessian逆的估计,并降低了非线性问题Hessian向量积的计算成本。 MSC公司: 62华氏35 多元分析中的图像分析 65千5 数值数学规划方法 68T05型 人工智能中的学习和自适应系统 90C06型 数学规划中的大尺度问题 90C25型 凸面编程 关键词:大规模随机优化;亚采样牛顿法;方差减少;线性收敛 软件:阿达格拉德;传奇;菲尼托 PDF格式BibTeX公司 XML格式引用 \textit{Z.Luo}和\textit{Y.Qian},国际小波多分辨率。信息处理。17,第6号,文章ID 195041,23 p.(2019;Zbl 1433.62175) 全文: 内政部 参考文献: [1] Agarwal,N.、Bullins,B.和Hazan,E.,线性时间机器学习的二阶随机优化,J.Mach。学习。第18(116)(2017)1-40号决议·Zbl 1441.90115号 [2] Astorino,A.、Fuduli,A.和Gaudioso,M.,机器学习中分类问题的非线性规划,AIP Conf.Proc.1776(1)(2016)040004·Zbl 1258.90066号 [3] Bottou,L.、Curtis,F.E.和Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.60(2)(2018)223-311·Zbl 1397.65085号 [4] G.Bouchard、T.Trouillon、J.Perez和A.Gaidon,《在线学习样本》,预印本(2015),arXiv:1506.09016。 [5] Byrd,R.H.、Chin,G.M.、Neveitt,W.和Nocedal,J.,《关于随机粗麻布信息在机器学习优化方法中的使用》,SIAM J.Optim.21(3)(2011)977-995·Zbl 1245.65062号 [6] Byrd,R.H.,Hansen,S.L.,Nocedal,J.和Singer,Y.,《大规模优化的随机拟牛顿法》,SIAM J.Optim.26(2)(2015)1008-1031·Zbl 1382.65166号 [7] Defazio,A.,Bach,F.和Lacostejulien,S.,SAGA:支持非强凸复合目标的快速增量梯度方法,见Proc。神经信息处理。系统。(2014),第1646-1654页。 [8] Defazio,A.等人,Finito:一种用于大数据问题的更快、可置换的增量梯度方法,见Proc。ACM Int.Conf.Machine Learning(中国北京,2014),第1125-1133页。 [9] Duchi,J.,Hazan,E.和Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第12(7)号决议(2011)257-269·Zbl 1280.68164号 [10] Johnson,R.和Zhang,T.,使用预测方差减少加速随机梯度下降,Proc。神经信息处理。系统。(2013),第315-323页。 [11] R.Kiros,用随机无hessian优化训练神经网络,预印本(2013),arXiv:1301.3641。 [12] Kolte,R.、Erdogdu,M.和OzgüR,A.,《通过二阶信息加速SVRG》,NIPS机器学习优化研讨会(2015)。 [13] 科内肯ỳ, J.和Richtárik,P.,《半随机梯度下降法》,Front。申请。数学。统计数据3(2017)9·Zbl 1386.90080号 [14] A.Lucchi、B.Mcwilliams和T.Hofmann,《方差减少随机牛顿法》,预印本(2015),arXiv:1503.08316。 [15] L.Luo,Z.Chen,Z.Zhang,W.J.Li,方差缩减二阶方法,预印本(2016),arXiv:1602.00223。 [16] Mairal,J.,《应用于大规模机器学习的增量优化-最小化优化》,SIAM J.Optim.25(2)(2014)829-855·Zbl 1320.90047号 [17] Martens,J.,《通过无Hessian优化进行深度学习》,收录于Proc。ACM Int.Conf.Machine Learning(以色列海法,2010),第735-742页。 [18] J.Martens,《自然梯度法的新见解和观点》,预印本(2014),arXiv:1412.1193·Zbl 07306852号 [19] Martens,J.和Sutskever,I.,利用无Hessian优化学习递归神经网络,Proc。ACM Int.Conf.Machine Learning(美国华盛顿贝尔维尤,2011),第1033-1040页。 [20] Moritz,P.、Nishihara,R.和Jordan,M.I.,线性收敛随机l-BFGS算法,见Proc。国际人工智能与统计会议(西班牙加的斯,2016),第249-258页。 [21] Nesterov,Y.,坐标下降法在大规模优化问题上的效率,SIAM J.Optim.22(2)(2012)341-362·Zbl 1257.90073号 [22] Y.Ollivier,《神经网络的黎曼度量:前馈网络》,预印本(2013),arXiv:1303.0818·Zbl 1380.68337号 [23] Robbins,H.和Monro,S.,《随机近似方法》,《数学年鉴》。统计数字22(3)(1951)400-407·兹比尔0054.05901 [24] Roux,N.L.,Schmidt,M.和Bach,F.R.,有限训练集指数收敛率随机梯度法,Proc。神经信息处理。系统。(美国内华达州塔霍湖,2012年),第2663-2671页。 [25] Sa,C.D.,Re,C.和Olukotun,K.,一些非凸矩阵问题随机梯度下降的全局收敛性,见Proc。ACM Int.Conf.Machine Learning(法国里尔,2015),第2332-2341页。 [26] Schmidt,M.,Roux,N.L.和Bach,F.,利用随机平均梯度最小化有限和,数学。项目26(5)(2013)405-11。 [27] Schraudolph,N.N.,Yu,J.和Gunter,S.,在线凸优化的随机拟牛顿方法,J.Mach。学习。决议2(2007)436-443。 [28] Shalevshwartz,S.和Zhang,T.,《近距离随机双坐标上升》,《数学》(2012)。 [29] 伍德拉夫,D.P.,《素描作为数字线性代数的工具》,Found。趋势理论。计算。科学10(2014)1-157·Zbl 1316.65046号 [30] Xiao,L.和Zhang,T.,带逐步方差减少的近似随机梯度法,SIAM J.Optim.24(4)(2014)2057-2075·Zbl 1321.65016号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。