×

回溯梯度下降法及其在大规模优化中的应用。二: 算法和实验。 (英语) Zbl 07410946号

摘要:在本文中,我们提供了新的结果和算法(包括Nesterov加速梯度和动量的回溯版本),它们更适用于深度神经网络中的大规模优化。我们还证明了回溯梯度下降(Backtracking Gradient Descent,Backtracing GD)可以获得梯度局部Lipschitz常数的良好上界估计,并且回溯GD的收敛速度与Armijo经典工作中的收敛速度相似。在各种流行架构上使用数据集CIFAR10和CIFAR100进行的实验验证了一个启发式论点,即回溯GD稳定在从标准GD构建的用于小批量实践的序列的有限并集,并表明我们的新算法(同时自动微调学习率)性能优于当前最先进的方法,如Adam、Adagrad、Adadelta、RMSProp、Momentum和Nesterov加速梯度。为了帮助读者避免启发式和更严格证明的算法之间的混淆,我们还对梯度下降方法的收敛结果的当前状态进行了综述。GitHub上提供了附带的源代码。

MSC公司:

65Kxx美元 数学规划、优化和变分技术的数值方法
68泰克 人工智能
4.9亿 最优控制中的数值方法
68单位 计算方法和应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 绝对值,P-A;Mahony,R。;Andrews,B.,分析成本函数下降法迭代的收敛性,SIAM J.Optim。,16, 2, 531-547 (2005) ·Zbl 1092.90036号 ·数字对象标识代码:10.1137/040605266
[2] Armijo,L.,具有lipschitz连续一阶偏导数的函数的最小化,Pac。数学杂志。,16, 1, 1-3 (1966) ·Zbl 0202.46105号 ·doi:10.2140/pjm.1966.16.1
[3] 医学博士Asic;阿达莫维奇,DD,度量空间中序列的极限点,美国数学。周一。,77113-616(1970年)·Zbl 0196.26402号 ·doi:10.1080/00029890.1970.11992549
[4] Asl,A。;Overton,ML,对一类非光滑凸函数进行armijo-wolfe线搜索的梯度法分析,Optim。方法软件。,35, 2, 223-242 (2020) ·Zbl 1437.90124号 ·doi:10.1080/10556788.2019.1673388
[5] Bertsekas,DP,非线性规划(1999),马萨诸塞州贝尔蒙特:雅典娜科学公司,马萨诸塞诸塞州贝尔蒙特·Zbl 1015.90077号
[6] Bertsekas,DP;Tsitsiklis,JN,有误差梯度方法中的梯度收敛,SIAM J.Optim。,10, 3, 627-642 (2006) ·Zbl 1049.90130号 ·doi:10.1137/S1052623497331063
[7] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[8] 博伊德,S。;Vandenberghe,L.,《凸优化》(2009),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号
[9] 布雷,AJ;Dean,DS,大维空间上高斯场临界点的统计,Phys。修订稿。,98, 150201 (2007) ·doi:10.1103/PhysRevLett.98.150201
[10] Cauchy,A.,《模拟系统方程的求解方法》,Comptes Rendus,25,2,536(1847)
[11] 克洛克特,JB;Chernoff,H.,最大化梯度方法,太平洋。数学杂志。,5, 33-50 (1955) ·Zbl 0066.10103号 ·doi:10.2140/pjm.1955.5.33
[12] Curry,HB,非线性最小化问题的最速下降法,Q.Appl。数学。,2, 3, 258-261 (1944) ·Zbl 0061.26801号 ·doi:10.1090/qam/10667
[13] Dauphin,YN;帕斯卡努,R。;Gulcehre,C.公司。;Cho,K。;神经节,S。;Bengjo,Y.,识别和解决高维非凸优化中的鞍点问题,NIPS,22933-2941(2014)
[14] 法斯塔。https://www.fast.ai/(2020年)
[15] Fazlyab,M.、Robey,Hassani,H.、Morari,M.和Pappas,G.J.:深度神经网络中lipschitz常数的高效准确估计。arXiv:1906.04893v1(2019)
[16] Goldstein,AA,柯西最小化方法,数值。数学。,4, 146-150 (1962) ·兹伯利0105.10201 ·doi:10.1007/BF01386306
[17] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。In:CoRR,arxiv:1512.03385(2015)
[18] He,K.,Zhang,X.,Ren,S.,Sun,J.:深度剩余网络中的同一映射。收件人:CoRR,arXiv:1603.05027(2016)
[19] Helmke,U.,Moore,J.B.:优化和动力系统。网络图书,第二版(1996)·Zbl 0984.49001号
[20] Hu,J.,Shen,L.,Sun,G.:挤压和激励网络。收件人:CoRR,arXiv:1709.01507(2017)
[21] Huang,G.,Liu,Z.,Weinberger,K.Q.:稠密连通卷积网络。收件人:CoRR,arXiv:1608.06993(2016)
[22] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量的转移来加速深层网络训练。收录于:第32届ICML,JMLR,第448-456页(2015年)
[23] Jastrzebski,S.、Kenton,Z.、Arpit,D.、Ballas,N.、Fischer,A.、Bengio,Y.Y.、Storkey,A.J.:影响sgd最小值的三个因素。收件人:CoRR,arxiv:1711.04623(2017)
[24] Krizhevsky,A.:卷积神经网络并行化的一个奇怪技巧。arXiv:1404.5997(2014年)
[25] Lange,K.,Optimization(2013),纽约:Springer,New York·Zbl 1273.90002号 ·doi:10.1007/978-14614-5838-8
[26] LeCun,Y.,Cortes,C.,Burges,C.:Mnist手写数字数据库。http://yann.lecun.com/exdb/mnist/ (2010)
[27] Lee,JD;Simchowitz,M。;密歇根州约旦;Recht,B.,梯度下降仅收敛于极小值,JMRL,49,1-12(2016)
[28] lrfinder。https://github.com/davidtvs/pytorch-lr-finder网站 (2018)
[29] 马哈塞雷,M。;Hennig,P.,随机优化的概率线搜索,JMLR,18,1-59(2017)·Zbl 1441.90110号
[30] Nesterov,Y.,《凸优化入门讲座:基础课程》(2004),Dordrecht:Kluwer学术出版社,Dordecht·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[31] Nguyen,T.H.:https://github.com/hank-nguyen/MBT-优化器 (2019)
[32] 尼尔森,MA,《神经网络和深度学习》(2015),纽约:决定出版社,纽约
[33] Nocedal,J.、Wright,S.J.:数值优化。Springer运筹学系列(1999)·Zbl 0930.65067号
[34] Panageas,I.,Piliouras,G.:梯度下降仅收敛于极小值:非孤立临界点和不变区域。收录人:C.H.Papadimitrou,第八届理论计算机科学创新大会编辑(ITCS 2017,第2:1-2:12页,德国莱布尼茨,Dagstuhl Publishing,2017)·Zbl 1402.90210号
[35] Panageas,I.,Piliouras,G.,Wang,X.:一阶方法几乎总是避免鞍点:步长消失的情况。在:第33届神经信息处理系统会议(NeurIPS 2019,第6474-6483页,加拿大温哥华,Dagstuhl出版社(2019))
[36] 英国电信Poljak;Tsypkin,YZ,伪梯度自适应和训练算法,Autom。远程控制,1283-94(1973)
[37] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[38] Ruder,S.:梯度下降优化算法概述。arXiv:1609.04747(2016)
[39] Sandler,M.、Howard,A.、Zhu,M.,Zhmoginov,A.、Chen,L.:Mobilenetv2:倒置残差和线性瓶颈。arXiv:1704.04861(2017)
[40] Scaman,K.,Virmaux,A.:深层神经网络的Lipschitz正则性:分析和有效估计。NeurIPS 2018:第32届神经信息处理系统会议,第10页(2018)
[41] 史密斯,法律公告:神经网络训练的循环学习率。arXiv:1506.01186(2015)
[42] Smith,Negal,Topin,N.:超收敛:使用大学习率快速训练剩余网络。CoRR.arxiv:1708.07120(2017)
[43] Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.:退出:防止神经网络过度拟合的简单方法。JMLR,第1929-1958页(2014)·Zbl 1318.68153号
[44] Truong,T.T.:回溯梯度下降的连续版本收敛到最小值。arXiv:1911.04221(2019)
[45] Truong,T.T.:回溯梯度下降允许无限学习率。arXiv:2001.02005(2020)
[46] Truong,T.T.:banach空间上回溯梯度下降法的一些收敛结果。arXiv:2001.05768(2020)
[47] Truong,T.T.,Nguyen,T.H.:一般函数的回溯梯度下降法及其在深度学习中的应用。arXiv:1808.05160(2018年、2019年)
[48] Truong,T.T.,Nguyen,T.H.:阿米乔条件下学习率的渐近行为。arXiv:2007.03618(2020)
[49] Vaswani,S.、Mishkin,A.、Laradji,I.、Schmidt,M.、Gidel,G.、Lacoste-Julien,S.:无痛随机梯度:插值、线性搜索和收敛速度。arXiv:1905.09997(2019)
[50] Wilson,A.C.,Roelofs,R.,Stern,M.,Srebro,N.,Recht,B.:机器学习中自适应梯度方法的边际值。arXiv:1705.08292(2017)
[51] Wolfe,P.,上升法的收敛条件,SIAM Rev.,11,2,226-235(1969)·兹标0177.20603 ·数字对象标识代码:10.1137/1011036
[52] Zhang,J.,Mitliagkas,I.:黄鳍与动量调谐艺术。arXiv公司:1706.03471
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。