Truong、Tuyen Trung;航元阮 回溯梯度下降法及其在大规模优化中的应用。二: 算法和实验。 (英语) Zbl 07410946号 申请。数学。最佳方案。 84,第3期,2557-2586(2021). 摘要:在本文中,我们提供了新的结果和算法(包括Nesterov加速梯度和动量的回溯版本),它们更适用于深度神经网络中的大规模优化。我们还证明了回溯梯度下降(Backtracking Gradient Descent,Backtracing GD)可以获得梯度局部Lipschitz常数的良好上界估计,并且回溯GD的收敛速度与Armijo经典工作中的收敛速度相似。在各种流行架构上使用数据集CIFAR10和CIFAR100进行的实验验证了一个启发式论点,即回溯GD稳定在从标准GD构建的用于小批量实践的序列的有限并集,并表明我们的新算法(同时自动微调学习率)性能优于当前最先进的方法,如Adam、Adagrad、Adadelta、RMSProp、Momentum和Nesterov加速梯度。为了帮助读者避免启发式和更严格证明的算法之间的混淆,我们还对梯度下降方法的收敛结果的当前状态进行了综述。GitHub上提供了附带的源代码。 引用于4文件 MSC公司: 65Kxx美元 数学规划、优化和变分技术的数值方法 68泰克 人工智能 4.9亿 最优控制中的数值方法 68单位 计算方法和应用 关键词:学习率自动化;回溯;深度神经网络;随机动力系统;全球收敛;梯度下降;图像分类;迭代优化;大规模优化;局部最小值 软件:github;MobileNetV2手机;MNIST公司;MBT优化器 PDF格式BibTeX公司 XML格式引用 \textit{T.T.Truong}和\textit{H.-T.Nguyen},应用。数学。最佳方案。84,第3号,2557--2586(2021;Zbl 07410946) 全文: DOI程序 参考文献: [1] 绝对值,P-A;Mahony,R。;Andrews,B.,分析成本函数下降法迭代的收敛性,SIAM J.Optim。,16, 2, 531-547 (2005) ·Zbl 1092.90036号 ·数字对象标识代码:10.1137/040605266 [2] Armijo,L.,具有lipschitz连续一阶偏导数的函数的最小化,Pac。数学杂志。,16, 1, 1-3 (1966) ·Zbl 0202.46105号 ·doi:10.2140/pjm.1966.16.1 [3] 医学博士Asic;阿达莫维奇,DD,度量空间中序列的极限点,美国数学。周一。,77113-616(1970年)·Zbl 0196.26402号 ·doi:10.1080/00029890.1970.11992549 [4] Asl,A。;Overton,ML,对一类非光滑凸函数进行armijo-wolfe线搜索的梯度法分析,Optim。方法软件。,35, 2, 223-242 (2020) ·Zbl 1437.90124号 ·doi:10.1080/10556788.2019.1673388 [5] Bertsekas,DP,非线性规划(1999),马萨诸塞州贝尔蒙特:雅典娜科学公司,马萨诸塞诸塞州贝尔蒙特·Zbl 1015.90077号 [6] Bertsekas,DP;Tsitsiklis,JN,有误差梯度方法中的梯度收敛,SIAM J.Optim。,10, 3, 627-642 (2006) ·Zbl 1049.90130号 ·doi:10.1137/S1052623497331063 [7] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173 [8] 博伊德,S。;Vandenberghe,L.,《凸优化》(2009),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号 [9] 布雷,AJ;Dean,DS,大维空间上高斯场临界点的统计,Phys。修订稿。,98, 150201 (2007) ·doi:10.1103/PhysRevLett.98.150201 [10] Cauchy,A.,《模拟系统方程的求解方法》,Comptes Rendus,25,2,536(1847) [11] 克洛克特,JB;Chernoff,H.,最大化梯度方法,太平洋。数学杂志。,5, 33-50 (1955) ·Zbl 0066.10103号 ·doi:10.2140/pjm.1955.5.33 [12] Curry,HB,非线性最小化问题的最速下降法,Q.Appl。数学。,2, 3, 258-261 (1944) ·Zbl 0061.26801号 ·doi:10.1090/qam/10667 [13] Dauphin,YN;帕斯卡努,R。;Gulcehre,C.公司。;Cho,K。;神经节,S。;Bengjo,Y.,识别和解决高维非凸优化中的鞍点问题,NIPS,22933-2941(2014) [14] 法斯塔。https://www.fast.ai/(2020年) [15] Fazlyab,M.、Robey,Hassani,H.、Morari,M.和Pappas,G.J.:深度神经网络中lipschitz常数的高效准确估计。arXiv:1906.04893v1(2019) [16] Goldstein,AA,柯西最小化方法,数值。数学。,4, 146-150 (1962) ·兹伯利0105.10201 ·doi:10.1007/BF01386306 [17] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。In:CoRR,arxiv:1512.03385(2015) [18] He,K.,Zhang,X.,Ren,S.,Sun,J.:深度剩余网络中的同一映射。收件人:CoRR,arXiv:1603.05027(2016) [19] Helmke,U.,Moore,J.B.:优化和动力系统。网络图书,第二版(1996)·Zbl 0984.49001号 [20] Hu,J.,Shen,L.,Sun,G.:挤压和激励网络。收件人:CoRR,arXiv:1709.01507(2017) [21] Huang,G.,Liu,Z.,Weinberger,K.Q.:稠密连通卷积网络。收件人:CoRR,arXiv:1608.06993(2016) [22] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量的转移来加速深层网络训练。收录于:第32届ICML,JMLR,第448-456页(2015年) [23] Jastrzebski,S.、Kenton,Z.、Arpit,D.、Ballas,N.、Fischer,A.、Bengio,Y.Y.、Storkey,A.J.:影响sgd最小值的三个因素。收件人:CoRR,arxiv:1711.04623(2017) [24] Krizhevsky,A.:卷积神经网络并行化的一个奇怪技巧。arXiv:1404.5997(2014年) [25] Lange,K.,Optimization(2013),纽约:Springer,New York·Zbl 1273.90002号 ·doi:10.1007/978-14614-5838-8 [26] LeCun,Y.,Cortes,C.,Burges,C.:Mnist手写数字数据库。http://yann.lecun.com/exdb/mnist/ (2010) [27] Lee,JD;Simchowitz,M。;密歇根州约旦;Recht,B.,梯度下降仅收敛于极小值,JMRL,49,1-12(2016) [28] lrfinder。https://github.com/davidtvs/pytorch-lr-finder网站 (2018) [29] 马哈塞雷,M。;Hennig,P.,随机优化的概率线搜索,JMLR,18,1-59(2017)·Zbl 1441.90110号 [30] Nesterov,Y.,《凸优化入门讲座:基础课程》(2004),Dordrecht:Kluwer学术出版社,Dordecht·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9 [31] Nguyen,T.H.:https://github.com/hank-nguyen/MBT-优化器 (2019) [32] 尼尔森,MA,《神经网络和深度学习》(2015),纽约:决定出版社,纽约 [33] Nocedal,J.、Wright,S.J.:数值优化。Springer运筹学系列(1999)·Zbl 0930.65067号 [34] Panageas,I.,Piliouras,G.:梯度下降仅收敛于极小值:非孤立临界点和不变区域。收录人:C.H.Papadimitrou,第八届理论计算机科学创新大会编辑(ITCS 2017,第2:1-2:12页,德国莱布尼茨,Dagstuhl Publishing,2017)·Zbl 1402.90210号 [35] Panageas,I.,Piliouras,G.,Wang,X.:一阶方法几乎总是避免鞍点:步长消失的情况。在:第33届神经信息处理系统会议(NeurIPS 2019,第6474-6483页,加拿大温哥华,Dagstuhl出版社(2019)) [36] 英国电信Poljak;Tsypkin,YZ,伪梯度自适应和训练算法,Autom。远程控制,1283-94(1973) [37] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586 [38] Ruder,S.:梯度下降优化算法概述。arXiv:1609.04747(2016) [39] Sandler,M.、Howard,A.、Zhu,M.,Zhmoginov,A.、Chen,L.:Mobilenetv2:倒置残差和线性瓶颈。arXiv:1704.04861(2017) [40] Scaman,K.,Virmaux,A.:深层神经网络的Lipschitz正则性:分析和有效估计。NeurIPS 2018:第32届神经信息处理系统会议,第10页(2018) [41] 史密斯,法律公告:神经网络训练的循环学习率。arXiv:1506.01186(2015) [42] Smith,Negal,Topin,N.:超收敛:使用大学习率快速训练剩余网络。CoRR.arxiv:1708.07120(2017) [43] Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.:退出:防止神经网络过度拟合的简单方法。JMLR,第1929-1958页(2014)·Zbl 1318.68153号 [44] Truong,T.T.:回溯梯度下降的连续版本收敛到最小值。arXiv:1911.04221(2019) [45] Truong,T.T.:回溯梯度下降允许无限学习率。arXiv:2001.02005(2020) [46] Truong,T.T.:banach空间上回溯梯度下降法的一些收敛结果。arXiv:2001.05768(2020) [47] Truong,T.T.,Nguyen,T.H.:一般函数的回溯梯度下降法及其在深度学习中的应用。arXiv:1808.05160(2018年、2019年) [48] Truong,T.T.,Nguyen,T.H.:阿米乔条件下学习率的渐近行为。arXiv:2007.03618(2020) [49] Vaswani,S.、Mishkin,A.、Laradji,I.、Schmidt,M.、Gidel,G.、Lacoste-Julien,S.:无痛随机梯度:插值、线性搜索和收敛速度。arXiv:1905.09997(2019) [50] Wilson,A.C.,Roelofs,R.,Stern,M.,Srebro,N.,Recht,B.:机器学习中自适应梯度方法的边际值。arXiv:1705.08292(2017) [51] Wolfe,P.,上升法的收敛条件,SIAM Rev.,11,2,226-235(1969)·兹标0177.20603 ·数字对象标识代码:10.1137/1011036 [52] Zhang,J.,Mitliagkas,I.:黄鳍与动量调谐艺术。arXiv公司:1706.03471 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。