文件Zbl 1382.65166-zbMATH Open

大规模优化的随机拟Newton方法。（英语） Zbl 1382.65166号

SIAM J.Optim公司。 26，第2期，1008-1031（2016）.

摘要：如何将曲率信息纳入随机近似方法是一个具有挑战性的问题。将经典的拟牛顿更新技术直接应用于确定性优化，会导致噪声曲率估计，从而对迭代的鲁棒性产生不利影响。本文提出了一种高效、稳健、可扩展的随机拟牛顿方法。它以有限的内存形式使用经典的BFGS更新公式，并基于这样的观察，即有利于逐点和间隔时间收集曲率信息。一种方法是通过（子样本）Hessian矢量产品。该技术与经典方法不同，经典方法会在每次迭代时计算梯度差异，并且控制曲率估计的质量可能很困难。我们给出了关于机器学习中出现的问题的数值结果，表明所提出的方法显示出很大的前景。

引用于79文件

MSC公司：

65千5	数值数学规划方法
90C06型	数学规划中的大尺度问题
90立方	非线性规划
90C53型	拟Newton型方法
90 C55	连续二次规划型方法

关键词：

随机优化;拟牛顿;亚采样;大规模优化

软件：

阿达格拉德;新加坡元-QN

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	S.-I.Amari，{自然梯度在学习中有效工作}，神经计算。，10（1998年），第251-276页。
[2]	S.Asmussen和P.W.Glynn，《随机模拟：算法和分析》，斯托克出版社。模型。申请。普罗巴伯。57，施普林格，纽约，2007年·Zbl 1126.65001号
[3]	F.Bach和E.Moulines，{具有收敛速度的非严格凸光滑随机逼近\（o（1/n）\）}，《神经信息处理系统进展》26，Curran，Red Hook，NY，2013年，第773-781页。
[4]	A.Bordes，L.Bottou和P.Gallinari，{它是SGD-QN}：小心的准Newton随机梯度下降，J.Mach。学习。Res.，10（2009），第1737-1754页·Zbl 1235.68130号
[5]	L.Bottou和O.Bousquet，《大规模学习的权衡》，摘自《神经信息处理系统进展》20，J.C.Platt、D.Koller、Y.Singer和S.Roweis编辑，麻省理工学院出版社，马萨诸塞州剑桥，2008年，第161-168页。
[6]	L.Bottou和Y.LeCun，{大规模在线学习}，《神经信息处理系统进展》16，S.Thrun，L.Saul和B.Scho¨lkopf编辑，麻省理工学院出版社，马萨诸塞州剑桥，2004年。
[7]	R.H.Byrd、G.M.Chin、J.Nocedal和Y.Wu，{机器学习优化方法中的样本大小选择}，数学。程序。，134（2012），第127-155页·Zbl 1252.49044号
[8]	R.H Byrd、G.M Chin、W.Neveitt和J.Nocedal，关于随机Hessian信息在机器学习优化方法中的使用，SIAM J.Optim。，21（2011），第977-995页·Zbl 1245.65062号
[9]	J.Duchi、E.Hazan和Y.Singer，在线学习和随机优化的自适应次梯度方法，J.Mach。学习。Res.，12（2011），第2121-2159页·Zbl 1280.68164号
[10]	R.Fletcher，《实用优化方法》，第二版，Wiley，Chichester，1987年·Zbl 0905.65002号
[11]	D.D Lewis，Y.Yang，T.G.Rose，和F.Li，{it Rcv\（1）：文本分类研究的新基准集合}，J.Mach。学习。Res.，5（2004），第361-397页。
[12]	A.Mokhtari和A.Ribeiro，{正则化随机BFGS算法}，IEEE信号和信息处理全球会议，IEEE，新泽西州皮斯卡塔韦，2013年·Zbl 1394.94405号
[13]	A.Mokhtari和A.Ribeiro，{在线有限内存bfgs}的全球收敛，预印本，arXiv:1409.20452014·Zbl 1351.90124号
[14]	I.Mukherjee、K.Canini、R.Frongillo和Y.Singer，{动量并行推进}，收录于ECML PKDD 2013，第三部分，计算机课堂讲稿。科学。8190，施普林格，海德堡，2013年，第17-32页。
[15]	N.Murata，《在线学习的统计研究》，摘自《神经网络在线学习》，剑桥大学出版社，英国剑桥，1998年，第63-92页·Zbl 0966.68170号
[16]	A.Nedic®和D.Bertsekas，{增量次梯度算法的收敛速度}，《随机优化：算法和应用》，Springer，Boston，2001年，第223-264页·Zbl 0984.90033号
[17]	A.Nemirovski、A.Juditsky、G.Lan和A.Shapiro，{随机规划的稳健随机近似方法}，SIAM J.Optim。，19（2009），第1574-1609页·Zbl 1189.90109号
[18]	J.Nocedal和S.Wright，《数值优化》，第二版，纽约施普林格出版社，1999年·Zbl 0930.65067号
[19]	H.Park，S.-I.Amari和K.Fukumizu，{各种随机模型的自适应自然梯度学习算法}，《神经网络》，13（2000），第755-764页。
[20]	A.Plakhov和P.Cruz，{步长自适应随机近似算法}，J.Math。科学。，120（2004），第964-973页·Zbl 1061.62123号
[21]	M.J.D.Powell，{无精确线搜索最小化的变尺度算法的一些全局收敛性}，《非线性规划》，R.W.Cottle和C.E.Lemke编辑，SIAM-AMS Proc。9，AMS，普罗维登斯，RI，1976年，第53-72页·兹伯利0338.65038
[22]	H.Robbins和S.Monro，《随机近似方法》，《数学年鉴》。统计人员。，22（1951年），第400-407页·兹比尔0054.05901
[23]	N.L.Roux和A.W.Fitzgibbon，{快速自然牛顿法}，《第27届机器学习国际会议论文集》（ICML-10），2010年，第623-630页。
[24]	N.L.Roux、P.-A.Manzagol和Y.Bengio，《神经信息处理系统20进展》，麻省理工学院出版社，马萨诸塞州剑桥，2007年，第849-856页。
[25]	N.Schraudolph，J.Yu和S.Gu¨nter，{在线凸优化的随机拟Newton方法}，《第十一届国际人工智能与统计会议论文集》，缩微出版，马萨诸塞州布鲁克林，2007年，第436-443页。
[26]	P.Sunehag、J.Trumpf、S.V.N.Vishwanathan和N.Schraudolph，{变尺度随机近似理论}，《第十二届国际人工智能与统计会议论文集》，缩微图书出版，马萨诸塞州布鲁克林，（2007），第436-443页。
[27]	曾培生，云S.，{非光滑可分离极小化的坐标梯度下降法}，数学。程序。，117（2009），第387-423页·Zbl 1166.90016号
[28]	F.Yousefian、A.Nedicí和U.V.Shanbhag，{关于具有自适应步长序列的随机梯度和次梯度方法}，Automatica J.IFAC，48（2012），第56-67页·Zbl 1244.93178号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

大规模优化的随机拟Newton方法。（英语） Zbl 1382.65166号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

大规模优化的随机拟Newton方法。 （英语） Zbl 1382.65166号

MSC公司：

关键词：

软件：

参考文献：

大规模优化的随机拟Newton方法。（英语） Zbl 1382.65166号