×

一种用于机器学习的鲁棒多批L-BFGS方法。 (英语) 兹比尔1430.90523

概述:本文描述了L-BFGS方法的一个实现,该方法旨在处理两种对抗情况。第一种情况发生在分布式计算环境中,其中一些用于计算函数和梯度的计算节点无法按时返回结果。在多批次方法中也出现了类似的挑战,在这种方法中,用于计算函数和梯度的数据点在每次迭代时都会被有意更改,以加快学习过程。由于L-BFGS使用梯度差分来更新Hessian近似,因此出现了困难,当使用不同的数据点计算这些梯度时,更新过程可能不稳定。本文介绍了如何在多批设置中进行稳定的拟牛顿更新,研究了凸函数和非凸函数的收敛性,并说明了该算法在分布式计算平台中对机器学习中出现的二元分类逻辑回归和神经网络训练问题的行为。

MSC公司:

90立方 非线性规划
90C06型 数学规划中的大尺度问题
90元53 拟Newton型方法
65千5 数值数学规划方法
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,A。;沙佩尔,O。;杜迪克,M。;Langford,J.,《可靠有效的三级线性学习系统》,J.Mach。学习。第15号决议,1111-1133(2014年)·Zbl 1318.68135号
[2] Berahas,A.S.和Takáć,M.,《具有方差减少梯度的多批次L-BFGS方法:理论和实验》,预印本(2017年)。arXiv提供。
[3] Berahas,A.S.和Takáć,M.,《机器学习的稳健多批次L-BFGS方法:补充材料》(2019年)·Zbl 1430.90523号
[4] Berahas,A.S.、Bollapragada,R.和Nocedal,J.,《Newton-sketch和子样本牛顿方法的研究》,arXiv:1705.06211(2017)·Zbl 1454.90112号
[5] Berahas,A.S.、Jahani,M.和Takánch,M.,《深度学习的准纽顿方法:忘记过去,只需样本,预印本》(2019年)。可从arXiv:1901.09997获得·Zbl 1509.90221号
[6] Berahas,A.S.、Nocedal,J.和Takáć,M.,机器学习的多批次L-BFGS方法,《神经信息处理系统的进展》29,2016年,第1055-1063页。
[7] Bertsekas,D.P。;Tsitsiklis,J.N.,《并行和分布式计算:数值方法》,23(1989),新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔·Zbl 0743.65107号
[8] Bollapragada,R.、Mudigere,D.、Nocedal,J.、Shi,H.J.M.和Tang,P.T.P.,机器学习的渐进分批L-BFGS方法,第35届机器学习国际会议论文集,2018年,第619-628页。
[9] 博拉普拉加达,R。;伯德·R。;Nocedal,J.,随机优化的自适应采样策略,SIAM J.Optim。,28, 3312-3343 (2018) ·Zbl 1461.65131号 ·doi:10.1137/17M1154679
[10] 博拉普拉加达,R。;伯德·R·H。;Nocedal,J.,优化的精确和不精确子采样牛顿法,IMA J.Numer。分析。,39, 545-578 (2018) ·Zbl 1462.65077号 ·doi:10.1093/imanum/dry009
[11] Bordes,A。;博图,L。;Gallinari,P.,SGD-QN:谨慎的准Newton随机梯度下降,J.Mach。学习。研究,101737-1754(2009)·Zbl 1235.68130号
[12] Bottou,L.和Le Cun,Y.,《大规模在线学习》,《神经信息处理系统进展》,第16期,2003年,第217-224页。
[13] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,223-311(2018)·Zbl 1397.65085号 ·doi:10.137/16M1080173
[14] Bousquet,O.和Bottou,L.,《大规模学习的权衡》,《神经信息处理系统的进展》,第20期,2007年,第161-168页。
[15] Broyden,C.G.,《拟Newton方法及其在函数最小化中的应用》,数学。计算。,21, 368-381 (1967) ·兹伯利0155.46704 ·doi:10.1090/S0025-5718-1967-0224273-2
[16] 伯德·R·H。;Chin,G.M。;奈维特,W。;Nocedal,J.,《关于随机Hessian信息在机器学习优化方法中的应用》,SIAM J.Optim。,977-995年7月21日(2011年)·Zbl 1245.65062号 ·数字对象标识码:10.1137/10079923X
[17] 伯德·R·H。;Chin,G.M。;Nocedal,J。;Wu,Y.,机器学习优化方法中的样本量选择,数学。程序。,134, 127-155 (2012) ·Zbl 1252.49044号 ·doi:10.1007/s10107-012-0572-5
[18] 伯德·R·H。;Hansen,S.L。;Nocedal,J。;Singer,Y.,用于大规模优化的随机拟Newton方法,SIAM J.Optim。,26, 1008-1031 (2016) ·Zbl 1382.65166号 ·数字对象标识代码:10.1137/140954362
[19] Chen,W.、Wang,Z.和Zhou,J.,使用MapReduce的大规模L-BFGS,神经信息处理系统的进展,2014年,第1332-1340页。
[20] Curtis,F.,《随机优化的自校正变量算法》,《第33届机器学习国际会议论文集》,2016年,第632-641页。
[21] Dai,Y.H.,BFGS算法的收敛性,SIAM J.Optim。,13, 693-701 (2002) ·Zbl 1036.65052号 ·doi:10.1137/S1052623401383455
[22] Das,D.、Avancha,S.、Mudigere,D.、Vaidynathan,K.、Sridharan,S.,Kalamkar,D.、Kaul,B.和Dubey,P.,《使用同步随机梯度下降的分布式深度学习》,预印本(2016)。可从arXiv:1602.06709获取。
[23] Dean,J.、Corrado,G.、Monga,R.、Chen,K.、Devin,M.、Le,Q.V.、Mao,M.,Ranzato、Marc’Aurelio,Senior,A.、Tucker,P.、Yang,K.和Ng,A.等人,《大规模分布式深层网络,神经信息处理系统进展》,第25期,2012年,第1223-1231页。
[24] Defazio,A.、Bach,F.和Lacoste-Julien,S.,SAGA:支持非强凸复合目标的快速增量梯度法,《神经信息处理系统进展》,2014年第27期,第1646-1654页。
[25] Fletcher,R.,可变度量算法的新方法,计算。J.,13,317-322(1970)·Zbl 0207.17402号 ·doi:10.1093/comjnl/13.3317
[26] 弗里德兰德,M.P。;Schmidt,M.,数据拟合的混合确定性随机方法,SIAM J.Sci。计算。,34,A1380-A1405(2012)·Zbl 1262.90090号 ·doi:10.1137/10830629
[27] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,23, 2341-2368 (2013) ·Zbl 1295.90026号 ·数字对象标识代码:10.1137/120880811
[28] Goldfarb,D.,由变分平均值导出的一系列变分度量方法,数学。计算。,24, 23-26 (1970) ·Zbl 0196.18002号 ·doi:10.1090/S0025-5718-1970-0258249-6
[29] 古德费罗,I。;Y.本吉奥。;Courville,A.,《深度学习》(2016),麻省理工学院出版社·Zbl 1373.68009号
[30] Gower,R.、Goldfarb,D.和Richtarik,P.,《随机块BFGS:从数据中挤出更多曲率》,《第33届机器学习国际会议论文集》,2016年,第1869-1878页。
[31] Goyal,P.、Dollár,P.和Girshick,r.、Noordhuis,P.,Wesolowski,L.、Kyrola,A.、Tulloch,A.、Jia,Y.和He,K.,《精确、大批量sgd:1小时内训练图像网》,预印本(2017)。可从arXiv:1706.02677获取。
[32] Hardt,M.、Recht,B.和Singer,Y.,《训练更快,概括更好:随机梯度下降的稳定性》,《第33届机器学习国际会议论文集》,2016年,第1225-1234页。
[33] He,X.和Takáč,M.,《利用自适应概率实现经验风险最小化的双重自由SDCA》,OptML研讨会,《神经信息处理系统的进展》,arXiv:15100.066842015年。
[34] Johnson,R.和Zhang,T.,使用预测方差减少加速随机梯度下降,神经信息处理系统进展,2013年第26期,第315-323页。
[35] Karakus,C.、Sun,Y.、Diggavi,S.和Yin,W.,通过数据编码的分布式优化中的Straggler缓解,《神经信息处理系统进展》301017,第5434-5442页。
[36] Karakus,C.、Sun,Y.、Diggavi,S.和Yin,W.,分布式优化和学习中分散器缓解的冗余技术,预印本(2018年)。可从arXiv:1803.05397获取·Zbl 1492.90126
[37] Keskar,N.S.和Berahas,A.S.,adaQN:用于训练RNN的自适应准Newton算法,欧洲机器学习和数据库知识发现联合会议,2016年,第1-16页。
[38] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.和Tang,P.T.P.,《关于深度学习的大范围培训:泛化差距和显著极小值》,第五届国际学习代表大会(ICLR)会议记录,2017年。
[39] Kingma,D.P.和Ba,J.,Adam:随机优化方法,第三届学习表征国际会议论文集,2014年。
[40] 科内钦,J。;Richtárik,P.,《半随机梯度下降法》,Front。申请。数学。统计人员。,3, 9 (2017) ·doi:10.3389/fams.2017.0009
[41] 科内钦,J。;刘杰。;里奇塔里克,P。;Takáć,M.,近端环境下的Mini-bactch半随机梯度下降,IEEE J.Sel。顶部。信号处理。,10, 242-255 (2016) ·doi:10.1109/JSTSP.2015.2505682
[42] Leblond,R.、Pedregosa,F.和Lacoste-Julien,S.,ASAGA:异步并行SAGA,《第20届人工智能与统计国际会议论文集》,2017年,第46-54页。
[43] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[44] Li,D.H。;Fukushima,M.,一种修正的BFGS方法及其在非凸极小化中的全局收敛性,J.Comput。申请。数学。,129, 15-35 (2001) ·Zbl 0984.65055号 ·doi:10.1016/S0377-0427(00)00540-9
[45] Li,D.H。;Fukushima,M.,关于非凸无约束优化问题BFGS方法的全局收敛性,SIAM J.Optim。,11, 1054-1064 (2001) ·Zbl 1010.90079号 ·doi:10.1137/S1052623499354242
[46] Lin,H.、Mairal,J.和Harchaoui,Z.,《一阶优化的通用催化剂》,《神经信息处理系统进展》,2015年第28期,第3384-3392页。
[47] 刘博士。;Nocedal,J.,《关于大规模优化的有限内存BFGS方法》,数学。程序。,45, 503-528 (1989) ·Zbl 0696.90048号 ·doi:10.1007/BF01589116
[48] 马尼亚,H。;潘,X。;Papailiopoulos博士。;Recht,B。;Ramchandran,K。;Jordan,M.I.,异步随机优化的扰动迭代分析,SIAM J.Optim。,27, 2202-2229 (2017) ·Zbl 1376.65096号 ·doi:10.1137/16M1057000
[49] Martens,J.,《通过无Hessian优化进行深度学习》,第27届国际机器学习会议论文集,2010年,第735-742页。
[50] Mascarenhas,W.F.,具有精确行搜索的BFGS方法无法用于非凸目标函数,数学。程序。,99, 49-61 (2004) ·Zbl 1082.90108号 ·doi:10.1007/s10107-003-0421-7
[51] 莫赫塔里,A。;Ribeiro,A.,在线有限内存BFGS的全局收敛,J.Mach。学习。研究,16,3151-3181(2015)·Zbl 1351.90124号
[52] Nedić,A.和Bertsekas,D.,增量次梯度算法的收敛速度,摘自《随机优化:算法和应用》,S.Uryasev和P.M.Pardalos,eds.,第54卷,Springer,Boston,MA,2001年,第223-264页·Zbl 0984.90033号
[53] Nesterov,Y.,《凸优化入门讲座:基础课程》,87(2013),斯普林格科学与商业媒体,马萨诸塞州波士顿
[54] Ngiam,J.、Coates,A.、Lahiri,A.、Prochnow,B.、Le,Q.V.和Ng,A.Y.,《深度学习的优化方法》,第28届机器学习国际会议论文集,2011年,第265-272页。
[55] Nguyen,L.,Liu,J.,Scheinberg,K.,and Takáč,M.,SARAH:使用随机递归梯度的机器学习问题的新方法,第34届机器学习国际会议论文集,2017年。
[56] Nguyen,L.M.、Liu,J.、Scheinberg,K.和Takánch,M.,非凸优化的随机递归梯度算法,预印本(2017)。可从arXiv:1705.07261获取。
[57] Nocedal,J.,用有限存储更新拟Newton矩阵,数学。计算。,35, 773-782 (1980) ·Zbl 0464.65037号 ·doi:10.1090/S0025-5718-1980-0572855-7
[58] Nocedal,J。;Wright,S.,《数值优化》(1999),Springer:Springer,纽约·Zbl 0930.65067号
[59] Paszke,A.、Gross,S.、Chintala,S.,Chanan,G.、Yang,E.、DeVito,Z.、Lin,Z.,Desmaison,A.、Antiga,L.和Lerer,A.,《pytorch中的自动区分》(2017)。
[60] 裴,J。;Cheng,B。;刘,X。;帕尔达洛斯,P.M。;Kong,M.,具有基于位置的学习效果和线性设置时间的单机和并行机串行批处理调度问题,Ann.Oper。研究,272,217-241(2019)·兹比尔1410.90092 ·doi:10.1007/s10479-017-2481-8
[61] 裴,J。;Wei,J。;Liao,B。;刘,X。;Pardalos,P.M.,《具有工作位置依赖性老化效应的有界并行支持机器上的双代理调度》,Ann.Oper。第1-33号决议(2019年)
[62] Powell,M.J.,无需精确线搜索最小化的变尺度算法的一些全局收敛性,非线性程序。,9, 53-72 (1976) ·Zbl 0338.65038号
[63] Powell,M.J.,《使用拉格朗日函数的非线性约束算法》,数学。程序。,14, 224-248 (1978) ·Zbl 0383.90092号 ·doi:10.1007/BF01588967
[64] Pytorch示例。可用网址:http://github.com/pytorch/examples/blob/master/mnist/main.py,访问日期:2019-03-29。
[65] Recht,B.、Re,C.、Wright,S.和Niu,F.,霍格沃尔德:并行化随机梯度下降的无锁方法,《神经信息处理系统进展》,2011年第24期,第693-701页。
[66] Reddi,S.J.、Hefny,A.、Sra,S.、Poczos,B.和Smola,A.J.,《随机梯度下降及其异步变体的方差减少》,《神经信息处理系统进展》2015年第28期,第2647-2655页。
[67] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。统计人员。,22, 400-407 (1951) ·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[68] 施密特,M。;Le Roux,N。;巴赫,F.,用随机平均梯度最小化有限和,数学。程序。,162, 1-30 (2016)
[69] Schraudolph,N.N.、Yu,J.和Günter,S.,在线凸优化的随机拟牛顿方法,第十届人工智能与统计国际会议论文集,2007年第7卷,第436-443页。
[70] Shanno,D.F.,函数最小化的拟牛顿方法的条件,数学。计算。,24, 647-656 (1970) ·Zbl 0225.65073号 ·doi:10.1090/S0025-5718-1970-0274029-X
[71] Simonyan,K.和Zisserman,A.,《用于大规模图像识别的极深卷积网络》,预印本(2014)。可从arXiv:1409.1556获取。
[72] Takáć,M.,Bijral,A.,Richtarik,P.,and Srebro,N.,《支持向量机的Minibatch原始和对偶方法》,《第三十届国际机器学习会议论文集》,2013年,第1022-1030页。
[73] 齐齐克利斯,J。;Bertsekas,D。;Athans,M.,分布式异步确定性和随机梯度优化算法,IEEE Trans。自动化。控制。,31, 803-812 (1986) ·Zbl 0602.90120号 ·doi:10.10109/TAC.1986.1104412
[74] 王,X。;马,S。;Goldfarb,D。;刘伟,非凸随机优化的随机拟牛顿方法,SIAM J.Optim。,27, 927-956 (2017) ·Zbl 1365.90182号 ·doi:10.1137/15M1053141
[75] Zhang,Y.和Lin,X.,DiSCO:自相关经验损失的分布式优化,第32届机器学习国际会议论文集,2015年,第362-370页。
[76] Zinkevich,M.、Weimer,M.,Li,L.和Smola,A.J.,并行随机梯度下降,神经信息处理系统进展,2010年第28期,第2595-2603页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。