×

兹马思-数学第一资源

训练响应的信赖域算法:使用不确定海森近似的机器学习方法。(英语) Zbl 1440.90092
摘要:机器学习(ML)问题通常是高度非线性和非凸无约束优化问题。基于随机梯度下降的求解ML问题的方法对于非常大的问题很容易进行缩放,但是可能涉及到许多超参数的微调。基于有限内存Broyden-Fletcher-Goldfarb-Shanno(BFGS)更新的拟牛顿方法通常不需要手动调整超参数,但存在用正定矩阵逼近潜在不确定Hessian的问题。无Hessian方法利用Hessian向量乘法的能力,而不需要整个Hessian矩阵,但是每次迭代的复杂度都显著高于拟牛顿法。本文提出一种基于拟牛顿信赖域框架的求解ML问题的新方法,用于求解允许不确定Hessian近似的大规模优化问题。在一个标准测试数据集上的数值实验表明,在固定的计算时间预算下,该方法比传统的有限内存BFGS和Hessian-free方法获得了更好的结果。
理学硕士:
90C53型 拟牛顿型方法
15A06年 线性方程组(线性代数方面)
90摄氏度 数学规划中的大规模问题
6505公里 数值数学规划方法
65K10型 数值优化与变分技术
49米15 牛顿型方法
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] M、M、Agarwal、A、Barham、P、BRVDO、E、陈、Z、Citro、C、Corrado、G.S、戴维斯、A、Dean、J、Dean、J、Devin、M、Ghemawat,S.,Goodfellow,I.J.,Harp,A.,Irving,G.,Isard,M.,M.,贾、贾、Y、J、J、J、J、J、J、J、J、J、J、J、J、L、Kaiser,L、L、Kudlur、M、M、Leven伯格、Leven伯格、J、M、M、M、M、MongaA、R、MooreR、S、Murray、D.G、Olah、C、C、Schuster、M、M、SHB。,Sutskever,I.,Talwar,K.,Tucker,P.A.,Vanhoucke,V.,Vasudevan,V.,Viégas,F.B.,Vinyals,O.,Warden,P.,Wattenberg,M.,Wicke,M.,Yu,Y.,和Zheng,X.,Tensorflow:异构分布式系统上的大规模机器学习,CoRR abs/1603.04467(2016)。网址:http://arxiv.org/abs/1603.04467。
[2] Bengio,Y.,基于梯度的深层架构训练实用建议,神经网络:交易技巧,Montavon,G.,Orr,G.B.和Müller,K.R.,编辑,Springer,2012,第437-478页。
[3] Berahas,A.S.,Nocedal,J.和Takác,M.,机器学习的多批次L-BFGS方法,CoRR abs/1605.06049(2016)。网址:http://arxiv.org/abs/1605.06049。·Zbl 1430.90523
[4] Bergstra,J.;Bengio,Y.,《超参数优化的随机搜索》,J.Mach。学习。第13281-305号决议(2012年)·兹布1283.68282
[5] Bergstra,J.S.,Bardenet,R.,Bengio,Y.和Kégl,B.,超参数优化算法,神经信息处理系统进展,第24卷,Shawe Taylor,J.,Zemel,R.S.,Bartlett,P.L.,Pereira,F.,和Weinberger,K.Q.,eds.,Curran Associates,Inc.,2011年,第2546-2554页。请访问http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf。
[6] Bergstra,J.,Yamins,D.和Cox,D.D.,Making a Science of Model Search:视觉架构的数百维超参数优化,第30届国际机器学习会议论文集,ICML 2013,2013,第115-123页。网址:http://jmlr.org/progressions/papers/v28/bergstra13.html。
[7] Bottou,L.;Curtis,F.;Nocedal,J.,《大规模机器学习的优化方法》,暹罗修订版,60223-311(2018)·Zbl 1397.65085
[8] Brust,J.;Erway,J.B.;Marcia,R.F.,关于求解L-SR1信赖域子问题,计算机。擎天柱。申请书,66245-266(2017年)·Zbl 1364.90239
[9] Burdakov,O.;Gong,L.;Zikrin,S.;Yuan,Y.X.,《有效结合有限记忆和信任区域技术》,数学。程序。计算机,1-34(2016)
[10] 牛顿矩阵的有限表示法。程序,63129-156(1994)·Zbl 0809.90116
[11] Byrd,R.H.;Chin,G.M.;Nocedal,J.;Wu,Y.《机器学习优化方法中的样本量选择》,数学。计划,134127-155(2012年)·Zbl 1252.49044
[12] Byrd,R.H.;Hansen,S.L.;Nocedal,J.;Singer,Y.《大规模优化的随机拟牛顿法》,SIAM J.Optim.,261008-1031(2016)·Zbl 1382.65166号
[13] Choromanska,A.,Henaff,M.,Mathieu,M.,Arous,G.B.,和LeCun,Y.,多层网络的损耗面,CoRR abs/1412.0233(2014)。网址:http://arxiv.org/14133。
[14] Cohen,G.,Afshar,S.,Tapson,J.,和van Schaik,A.,EMNIST:MNIST对手写字母的扩展,预印本(2017)。可从arXiv:1702.05373获取。
[15] Conn,A.R.;Gould,N.I.;Toint,P.L.,《测试一类解决最小化问题的方法,数学中的简单界限》。计算机,50399-430(1988)·Zbl 0645.65033
[16] Conn,A.R.;Gould,N.I.M.;Toint,P.L.,对称秩1生成的拟牛顿矩阵的收敛性,数学。程序,50177-195(1991)·Zbl 0737.90062
[17] Conn,A.R.;Gould,N.I.M.;Toint,P.L.,信赖域方法(2000),工业与应用数学学会(SIAM):工业与应用数学学会(SIAM),宾夕法尼亚州费城
[18] Curtis,F.,随机优化的自校正变尺度算法,第33届机器学习国际会议论文集,纽约,2016,第632-641页。
[19] Curtis,F.E.;Que,X.,具有全局收敛保证的非凸非光滑优化的拟牛顿算法,数学。程序。计算机,7399-428(2015)·Zbl 1333.49042
[20] Dauphin,Y.N.,Pascanu,R.,Gulcehre,C.,Cho,K.,Ganguli,S.和Bengio,Y.,识别和解决高维非凸优化中的鞍点问题,神经信息处理系统的进展,第27卷,Z.Ghahramani,M.Welling,C.Cortes,N.D.Lawrence,和K.Q.Weinberger,eds.,Curran Associates,Inc。,加拿大蒙特利尔,2014年,第2933-2941页。
[21] Dean,J.,Corrado,G.,Monga,R.,Chen,K.,Devin,M.,Le,Q.V.,Mao,M.Z.,Ranzato,M.,Senior,A.W.,Tucker,P.A.,Yang,K.,和Ng,A.Y.,大规模分布式深层网络,神经信息处理系统进展,第25卷,2012年,第1232-1240页。网址:http://papers.nips.cc/paper/4687-large-scale-distributed-deep-networks。
[22] Dewancker,I.,McCourt,M.,Clark,S.,Hayes,P.,Johnson,A.和Ke,G.,贝叶斯优化方法的分层分析,CoRR abs/1603.09441(2016)。网址:ttp://arxiv.org/abs/1603.09441。
[23] Duchi,J.C.;Hazan,E.;Singer,Y.《在线学习和随机优化的自适应次梯度方法》,J.Mach。学习。第12期,第2121-2159页(2011年)·Zbl 1280.68164
[24] Erway,J.B.;Gill,P.E.,信赖域步骤的子空间最小化方法,SIAM。J、 Optim.,201439-1461(2009年)·Zbl 1195.49042
[25] Erway,J.B.;Gill,P.E.;Griffin,J.D.,《寻找信赖域步骤的迭代方法》,SIAM J.Optim.,2011110-1131(2009)·Zbl 1189.49049
[26] Erway,J.B.;Marcia,R.F.,《有效计算有限内存拟牛顿矩阵的特征值》,暹罗J.《矩阵分析》。申请书,36,1338-1359(2015年)·Zbl 1337.49048号
[27] Friedman,J.;Hastie,T.;Tibshirani,R.,《统计学习的要素》,1(2001),纽约
[28] Gay,D.M.,计算最优局部约束步数,暹罗科学杂志。统计学家。计算机,21186-197(1981)·Zbl 0467.65027
[29] Gould,N.,连续优化算法简介,牛津大学计算实验室笔记,2006。
[30] Gould,N.I.M.;Lucidi,S.;Roma,M.;Toint,P.L.《使用Lanczos方法求解信赖域子问题》,SIAM J.Optim.,9504-525(1999)·Zbl 1047.90510号
[31] Gower,R.,Goldfarb,D.和Richtarik,P.,《随机块BFGS:从数据中挤出更多曲率》,第33届机器学习国际会议论文集,机器学习研究论文集,第48卷,6月20-22日,PMLR,纽约,纽约,美国,2016年,第1869-1878页。网址:http://progressions.mlr.press/v48/gower16.html。
[32] Hager,W.W.,球面上二次曲面的最小化,暹罗J.Optim.,12188-208(2001)·900ZB105.8升
[33] Ioffe,S.和Szegedy,C.,《批次规范化:通过减少内部协变量转移加速深度网络培训》,《第32届机器学习国际会议论文集》,ICML 2015,2015,第448-456页。网址:http://jmlr.org/progressions/papers/v37/ioffe15.html。
[34] Kawaguchi,K.,《无局部极小值的深度学习》,神经信息处理系统进展,第29卷,D.D.Lee,M.Sugiyama,U.V.Luxburg,I.Guyon和R.Garnett,eds.,Curran Associates,Inc.,2016年,第586-594页。网址:http://papers.nips.cc/paper/6112-deep-learning-without-poor-local-minima.pdf。
[35] Kingma,D.P.和Ba,J.,Adam:随机优化方法,CoRR abs/1412.6980(2014)。网址:http://arxiv.org/abs/1412.6980。
[36] Kussul,E.;Baidyk,T.,在mnist数据库上测试的改进手写数字识别方法,图像可视化。计算机,22971-981(2004)
[37] Le,Q.,Ngiam,J.,Coates,A.,Lahiri,A.,Prochnow,B.,and Ng,A.,关于深度学习的优化方法,第28届国际机器学习会议论文集(ICML-11),ICML'11,Bellevue,Washington,USA,June,ACM,纽约,美国,2011,第265-272页。
[38] Lecun,Y.;Bottou,L.;Bengio,Y.;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,862278-2324(1998)
[39] Liu,D.C.;Nocedal,J.,《大规模优化的有限内存方法》,数学。程序。B、 45503-528(1989年)·零担0696.90048
[40] Maclaurin,D.,Duvenaud,D.K.,和Adams,R.P.,通过可逆学习实现基于梯度的超参数优化,第32届机器学习国际会议论文集,ICML 2015,JMLR研讨会和会议记录,第37卷,JMLR.org,2015,第2113-2122页。网址:http://jmlr.org/progressions/papers/v37/maclaurin15.html。
[41] Martens,J.,通过Hessian自由优化进行的深度学习,第27届机器学习国际会议论文集(ICML-10),以色列海法,2010,第735-742页。
[42] Martens,J.和Sutskever,I.,《用Hessian-Free optimization学习递归神经网络》,第28届机器学习国际会议论文集,2011年ICML,美国华盛顿,2011年6月28日至7月2日,第1033-1040页。
[43] Martens,J.和Sutskever,I.,用hessian-free optimization训练深度和递归网络,神经网络:交易技巧,G.Montavon,G.B.Orr和K.R.Müller编辑,Springer,2012,第479-535页。
[44] McMahan,H.B.和Streeter,M.J.,异步分布式在线学习的延迟容忍算法,神经信息处理系统进展,第27卷,2014年,第2915-2923页。可从http://papers.nips.cc/paper/5242-delay-tolerative-algorithms-for-asynchronous-distributed-online-learning获取。
[45] Metel,M.R.,具有动态样本量的小批量随机梯度下降,ArXiv e-prints(2017年)。
[46] Moré,J.J.;Sorensen,D.C.,计算信赖域步骤,暹罗科学杂志。统计学家。计算机,4553-572(1983)·Zbl 0551.65042
[47] Moré,J.J.和Sorensen,D.C.,牛顿方法,数学研究,第24卷。数值分析研究,G.H.Golub编辑,数学。美国协会,华盛顿特区,1984年,第29-82页。
[48] Moritz,P.,Nishihara,R.和Jordan,M.,《线性收敛随机L-BFGS算法》,《第19届国际人工智能与统计会议论文集》,机器学习研究论文集,第51卷,5月9日至11日,PMLR,加的斯,西班牙,2016年,第249-258页。网址:http://progressions.mlr.press/v51/moritz16.html。
[49] Nocedal,J.,用有限存储更新拟牛顿矩阵,数学。计算机,35773-782(1980)·Zbl 0464.65037
[50] Nocedal,J.;Wright,S.J.,数值优化(2006),Springer:Springer,纽约·Zbl 1104.65059
[51] Nocedal,J.和Yuan,Y.X.,结合信赖域和线搜索技术,非线性规划的进展,Y.Yuan,ed.,Springer,Dordrecht,荷兰,1998年,第153-175页。·Zbl 0909.90243
[52] Pearlmutter,B.A.,黑森快速精确乘法,神经计算,6147-160(1994)
[53] Recht,B.,Re,C.,Wright,S.,和Niu,F.,Hogwild:并行化随机梯度下降的无锁方法,神经信息处理系统进展,第24卷,J.Shawe Taylor,R.S.Zemel,P.L.Bartlett,F.Pereira和K.Q.Weinberger,eds.,Curran Associates,Inc.,2011年,第693-701页。可从http://papers.nips.cc/paper/4390-hogwild-a-lock-free-approach-to-parallelizing-random-gradient-descent.pdf获取。
[54] Robbins,H.;Monro,S.,《随机逼近方法》,Ann。数学。统计师,22400-407(1951年)·Zbl 0054.05901
[55] Rojas,M.;Santos,S.A.;Sorensen,D.C.,《大规模信赖域子问题的新无矩阵算法》,SIAM J.Optim.,11611-646(2001)·Zbl 0994.65067
[56] Rojas,M.;Santos,S.A.;Sorensen,D.C.,算法873:Lstrs:大规模信赖域子问题和正则化的Matlab软件,ACM Trans。数学。软件,34,11:1-11:28(2008)·Zbl 1291.65177
[57] Sagun,L.,Güney,V.U.,和LeCun,Y.,高维景观探索,CoRR abs/1412.6615(2014)。网址:http://arxiv.org/14115。
[58] Schraudolph,N.N.,Yu,J.和Günter,S.,在线凸优化的随机拟牛顿方法,载于第十一届国际人工智能与统计会议论文集,机器学习研究论文集,第2卷,3月21-24日,PMLR,2007,第436-443页。网址:http://progressions.mlr.press/v2/schraudolph07a.html。
[59] Smith,S.L.,Kindermans,P.J.,和Le,Q.V.,不要降低学习率,增加批量大小,ArXiv电子印刷品(2017)。
[60] Snoek,J.,Larochelle,H.和Adams,R.P.,机器学习算法的实用贝叶斯优化,神经信息处理系统进展,第25卷,2012年,第2960-2968页。网址:http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms。
[61] Sparks,E.R.,Talwalkar,A.,Franklin,M.J.,Jordan,M.I.,和Kraska,T.,Tupaq:大规模预测性分析查询的高效规划器,CoRR abs/1502.00068(2015)。网址:http://arxiv.org/abs/1502.00068。
[62] 张国荣,等.大规模优化中的共轭梯度法与信赖域,国立大学学报。《论语》(1983年第627-636页)·Zbl 0518.65042
[63] Sutskever,I.,Martens,J.,Dahl,G.E.,和Hinton,G.E.,关于深度学习中初始化和动量的重要性,《第30届机器学习国际会议论文集》,2013年6月16日至21日,乔治亚州亚特兰大,2013年,第1139-1147页。网址:http://jmlr.org/progressions/papers/v28/sutskever13.html。
[64] Toint,P.L.,《在稀疏矩阵及其应用中利用牛顿法进行最小化的有效稀疏性》,I.S.Duff,学术出版社,伦敦和纽约,1981年,第57-88页。
〔65〕 Vapnik,V.,《学习理论的风险最小化原则》,神经信息处理系统的进展,J.E.Moody,S.J.Hanson和R.P.Lippmann,eds.,Morgan Kaufmann,Denver,CO.,1992,第831-838页。
[66] Yektamaram,S.,《为并行和分布式环境设计的机器学习优化算法》,宾夕法尼亚州伯利恒利海大学ISE系博士论文集,2017年。
[67] Zeiler,M.D.,ADADELTA:自适应学习率方法,CoRR abs/1212.5701(2012)。网址:http://arxiv.org/abs/1212.5701。
[68] Zhang,S.,Choromanska,A.,和LeCun,Y.,弹性平均SGD深度学习,神经信息处理系统进展,第28卷,2015年,第685-693页。网址:http://papers.nips.cc/paper/5761-deep-learning-with-elastic-averaging-sgd。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。