×

大规模优化的随机拟Newton方法。 (英语) Zbl 1382.65166号

摘要:如何将曲率信息纳入随机近似方法是一个具有挑战性的问题。将经典的拟牛顿更新技术直接应用于确定性优化,会导致噪声曲率估计,从而对迭代的鲁棒性产生不利影响。本文提出了一种高效、稳健、可扩展的随机拟牛顿方法。它以有限的内存形式使用经典的BFGS更新公式,并基于这样的观察,即有利于逐点和间隔时间收集曲率信息。一种方法是通过(子样本)Hessian矢量产品。该技术与经典方法不同,经典方法会在每次迭代时计算梯度差异,并且控制曲率估计的质量可能很困难。我们给出了关于机器学习中出现的问题的数值结果,表明所提出的方法显示出很大的前景。

MSC公司:

65千5 数值数学规划方法
90C06型 数学规划中的大尺度问题
90立方 非线性规划
90C53型 拟Newton型方法
90 C55 连续二次规划型方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] S.-I.Amari,{自然梯度在学习中有效工作},神经计算。,10(1998年),第251-276页。
[2] S.Asmussen和P.W.Glynn,《随机模拟:算法和分析》,斯托克出版社。模型。申请。普罗巴伯。57,施普林格,纽约,2007年·Zbl 1126.65001号
[3] F.Bach和E.Moulines,{具有收敛速度的非严格凸光滑随机逼近\(o(1/n)\)},《神经信息处理系统进展》26,Curran,Red Hook,NY,2013年,第773-781页。
[4] A.Bordes,L.Bottou和P.Gallinari,{它是SGD-QN}:小心的准Newton随机梯度下降,J.Mach。学习。Res.,10(2009),第1737-1754页·Zbl 1235.68130号
[5] L.Bottou和O.Bousquet,《大规模学习的权衡》,摘自《神经信息处理系统进展》20,J.C.Platt、D.Koller、Y.Singer和S.Roweis编辑,麻省理工学院出版社,马萨诸塞州剑桥,2008年,第161-168页。
[6] L.Bottou和Y.LeCun,{大规模在线学习},《神经信息处理系统进展》16,S.Thrun,L.Saul和B.Scho¨lkopf编辑,麻省理工学院出版社,马萨诸塞州剑桥,2004年。
[7] R.H.Byrd、G.M.Chin、J.Nocedal和Y.Wu,{机器学习优化方法中的样本大小选择},数学。程序。,134(2012),第127-155页·Zbl 1252.49044号
[8] R.H Byrd、G.M Chin、W.Neveitt和J.Nocedal,关于随机Hessian信息在机器学习优化方法中的使用,SIAM J.Optim。,21(2011),第977-995页·Zbl 1245.65062号
[9] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·Zbl 1280.68164号
[10] R.Fletcher,《实用优化方法》,第二版,Wiley,Chichester,1987年·Zbl 0905.65002号
[11] D.D Lewis,Y.Yang,T.G.Rose,和F.Li,{it Rcv\(1):文本分类研究的新基准集合},J.Mach。学习。Res.,5(2004),第361-397页。
[12] A.Mokhtari和A.Ribeiro,{正则化随机BFGS算法},IEEE信号和信息处理全球会议,IEEE,新泽西州皮斯卡塔韦,2013年·Zbl 1394.94405号
[13] A.Mokhtari和A.Ribeiro,{在线有限内存bfgs}的全球收敛,预印本,arXiv:1409.20452014·Zbl 1351.90124号
[14] I.Mukherjee、K.Canini、R.Frongillo和Y.Singer,{动量并行推进},收录于ECML PKDD 2013,第三部分,计算机课堂讲稿。科学。8190,施普林格,海德堡,2013年,第17-32页。
[15] N.Murata,《在线学习的统计研究》,摘自《神经网络在线学习》,剑桥大学出版社,英国剑桥,1998年,第63-92页·Zbl 0966.68170号
[16] A.Nedic®和D.Bertsekas,{增量次梯度算法的收敛速度},《随机优化:算法和应用》,Springer,Boston,2001年,第223-264页·Zbl 0984.90033号
[17] A.Nemirovski、A.Juditsky、G.Lan和A.Shapiro,{随机规划的稳健随机近似方法},SIAM J.Optim。,19(2009),第1574-1609页·Zbl 1189.90109号
[18] J.Nocedal和S.Wright,《数值优化》,第二版,纽约施普林格出版社,1999年·Zbl 0930.65067号
[19] H.Park,S.-I.Amari和K.Fukumizu,{各种随机模型的自适应自然梯度学习算法},《神经网络》,13(2000),第755-764页。
[20] A.Plakhov和P.Cruz,{步长自适应随机近似算法},J.Math。科学。,120(2004),第964-973页·Zbl 1061.62123号
[21] M.J.D.Powell,{无精确线搜索最小化的变尺度算法的一些全局收敛性},《非线性规划》,R.W.Cottle和C.E.Lemke编辑,SIAM-AMS Proc。9,AMS,普罗维登斯,RI,1976年,第53-72页·兹伯利0338.65038
[22] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计人员。,22(1951年),第400-407页·兹比尔0054.05901
[23] N.L.Roux和A.W.Fitzgibbon,{快速自然牛顿法},《第27届机器学习国际会议论文集》(ICML-10),2010年,第623-630页。
[24] N.L.Roux、P.-A.Manzagol和Y.Bengio,《神经信息处理系统20进展》,麻省理工学院出版社,马萨诸塞州剑桥,2007年,第849-856页。
[25] N.Schraudolph,J.Yu和S.Gu¨nter,{在线凸优化的随机拟Newton方法},《第十一届国际人工智能与统计会议论文集》,缩微出版,马萨诸塞州布鲁克林,2007年,第436-443页。
[26] P.Sunehag、J.Trumpf、S.V.N.Vishwanathan和N.Schraudolph,{变尺度随机近似理论},《第十二届国际人工智能与统计会议论文集》,缩微图书出版,马萨诸塞州布鲁克林,(2007),第436-443页。
[27] 曾培生,云S.,{非光滑可分离极小化的坐标梯度下降法},数学。程序。,117(2009),第387-423页·Zbl 1166.90016号
[28] F.Yousefian、A.Nedicí和U.V.Shanbhag,{关于具有自适应步长序列的随机梯度和次梯度方法},Automatica J.IFAC,48(2012),第56-67页·Zbl 1244.93178号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。