文件Zbl 07410946-zbMATH Open

回溯梯度下降法及其在大规模优化中的应用。二：算法和实验。（英语） Zbl 07410946号

申请。数学。最佳方案。 84，第3期，2557-2586（2021）.

摘要：在本文中，我们提供了新的结果和算法（包括Nesterov加速梯度和动量的回溯版本），它们更适用于深度神经网络中的大规模优化。我们还证明了回溯梯度下降（Backtracking Gradient Descent，Backtracing GD）可以获得梯度局部Lipschitz常数的良好上界估计，并且回溯GD的收敛速度与Armijo经典工作中的收敛速度相似。在各种流行架构上使用数据集CIFAR10和CIFAR100进行的实验验证了一个启发式论点，即回溯GD稳定在从标准GD构建的用于小批量实践的序列的有限并集，并表明我们的新算法（同时自动微调学习率）性能优于当前最先进的方法，如Adam、Adagrad、Adadelta、RMSProp、Momentum和Nesterov加速梯度。为了帮助读者避免启发式和更严格证明的算法之间的混淆，我们还对梯度下降方法的收敛结果的当前状态进行了综述。GitHub上提供了附带的源代码。

引用于4文件

MSC公司：

65Kxx美元	数学规划、优化和变分技术的数值方法
68泰克	人工智能
4.9亿	最优控制中的数值方法
68单位	计算方法和应用

关键词：

学习率自动化；回溯；深度神经网络；随机动力系统；全球收敛；梯度下降；图像分类；迭代优化；大规模优化；局部最小值

软件：

github；MobileNetV2手机；MNIST公司；MBT优化器

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	绝对值，P-A；Mahony，R。；Andrews，B.，分析成本函数下降法迭代的收敛性，SIAM J.Optim。，16, 2, 531-547 (2005) ·Zbl 1092.90036号 ·数字对象标识代码：10.1137/040605266
[2]	Armijo，L.，具有lipschitz连续一阶偏导数的函数的最小化，Pac。数学杂志。，16, 1, 1-3 (1966) ·Zbl 0202.46105号 ·doi:10.2140/pjm.1966.16.1
[3]	医学博士Asic；阿达莫维奇，DD，度量空间中序列的极限点，美国数学。周一。，77113-616（1970年）·Zbl 0196.26402号 ·doi:10.1080/00029890.1970.11992549
[4]	Asl，A。；Overton，ML，对一类非光滑凸函数进行armijo-wolfe线搜索的梯度法分析，Optim。方法软件。，35, 2, 223-242 (2020) ·Zbl 1437.90124号 ·doi:10.1080/10556788.2019.1673388
[5]	Bertsekas，DP，非线性规划（1999），马萨诸塞州贝尔蒙特：雅典娜科学公司，马萨诸塞诸塞州贝尔蒙特·Zbl 1015.90077号
[6]	Bertsekas，DP；Tsitsiklis，JN，有误差梯度方法中的梯度收敛，SIAM J.Optim。，10, 3, 627-642 (2006) ·Zbl 1049.90130号 ·doi:10.1137/S1052623497331063
[7]	博图，L。；FE柯蒂斯；Nocedal，J.，《大规模机器学习的优化方法》，SIAM Rev.，60，2，223-311（2018）·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[8]	博伊德，S。；Vandenberghe，L.，《凸优化》（2009），剑桥：剑桥大学出版社，剑桥·Zbl 1058.90049号
[9]	布雷，AJ；Dean，DS，大维空间上高斯场临界点的统计，Phys。修订稿。，98, 150201 (2007) ·doi:10.1103/PhysRevLett.98.150201
[10]	Cauchy，A.，《模拟系统方程的求解方法》，Comptes Rendus，25，2，536（1847）
[11]	克洛克特，JB；Chernoff，H.，最大化梯度方法，太平洋。数学杂志。，5, 33-50 (1955) ·Zbl 0066.10103号 ·doi:10.2140/pjm.1955.5.33
[12]	Curry，HB，非线性最小化问题的最速下降法，Q.Appl。数学。，2, 3, 258-261 (1944) ·Zbl 0061.26801号 ·doi:10.1090/qam/10667
[13]	Dauphin，YN；帕斯卡努，R。；Gulcehre，C.公司。；Cho，K。；神经节，S。；Bengjo，Y.，识别和解决高维非凸优化中的鞍点问题，NIPS，22933-2941（2014）
[14]	法斯塔。https://www.fast.ai/（2020年）
[15]	Fazlyab，M.、Robey，Hassani，H.、Morari，M.和Pappas，G.J.：深度神经网络中lipschitz常数的高效准确估计。arXiv:1906.04893v1（2019）
[16]	Goldstein，AA，柯西最小化方法，数值。数学。，4, 146-150 (1962) ·兹伯利0105.10201 ·doi:10.1007/BF01386306
[17]	He，K.，Zhang，X.，Ren，S.，Sun，J.：图像识别的深度剩余学习。In:CoRR，arxiv:1512.03385（2015）
[18]	He，K.，Zhang，X.，Ren，S.，Sun，J.：深度剩余网络中的同一映射。收件人：CoRR，arXiv:1603.05027（2016）
[19]	Helmke，U.，Moore，J.B.：优化和动力系统。网络图书，第二版（1996）·Zbl 0984.49001号
[20]	Hu，J.，Shen，L.，Sun，G.：挤压和激励网络。收件人：CoRR，arXiv:1709.01507（2017）
[21]	Huang，G.，Liu，Z.，Weinberger，K.Q.：稠密连通卷积网络。收件人：CoRR，arXiv:1608.06993（2016）
[22]	Ioffe，S.，Szegedy，C.：批量规范化：通过减少内部协变量的转移来加速深层网络训练。收录于：第32届ICML，JMLR，第448-456页（2015年）
[23]	Jastrzebski，S.、Kenton，Z.、Arpit，D.、Ballas，N.、Fischer，A.、Bengio，Y.Y.、Storkey，A.J.：影响sgd最小值的三个因素。收件人：CoRR，arxiv:1711.04623（2017）
[24]	Krizhevsky，A.：卷积神经网络并行化的一个奇怪技巧。arXiv:1404.5997（2014年）
[25]	Lange，K.，Optimization（2013），纽约：Springer，New York·Zbl 1273.90002号 ·doi:10.1007/978-14614-5838-8
[26]	LeCun，Y.，Cortes，C.，Burges，C.：Mnist手写数字数据库。http://yann.lecun.com/exdb/mnist/ (2010)
[27]	Lee，JD；Simchowitz，M。；密歇根州约旦；Recht，B.，梯度下降仅收敛于极小值，JMRL，49，1-12（2016）
[28]	lrfinder。https://github.com/davidtvs/pytorch-lr-finder网站 (2018)
[29]	马哈塞雷，M。；Hennig，P.，随机优化的概率线搜索，JMLR，18，1-59（2017）·Zbl 1441.90110号
[30]	Nesterov，Y.，《凸优化入门讲座：基础课程》（2004），Dordrecht:Kluwer学术出版社，Dordecht·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[31]	Nguyen，T.H.：https://github.com/hank-nguyen/MBT-优化器 (2019)
[32]	尼尔森，MA，《神经网络和深度学习》（2015），纽约：决定出版社，纽约
[33]	Nocedal，J.、Wright，S.J.：数值优化。Springer运筹学系列（1999）·Zbl 0930.65067号
[34]	Panageas，I.，Piliouras，G.：梯度下降仅收敛于极小值：非孤立临界点和不变区域。收录人：C.H.Papadimitrou，第八届理论计算机科学创新大会编辑（ITCS 2017，第2:1-2:12页，德国莱布尼茨，Dagstuhl Publishing，2017）·Zbl 1402.90210号
[35]	Panageas，I.，Piliouras，G.，Wang，X.：一阶方法几乎总是避免鞍点：步长消失的情况。在：第33届神经信息处理系统会议（NeurIPS 2019，第6474-6483页，加拿大温哥华，Dagstuhl出版社（2019））
[36]	英国电信Poljak；Tsypkin，YZ，伪梯度自适应和训练算法，Autom。远程控制，1283-94（1973）
[37]	罗宾斯，H。；Monro，S.，《随机近似方法》，《数学年鉴》。《统计》，22，400-407（1951）·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[38]	Ruder，S.：梯度下降优化算法概述。arXiv:1609.04747（2016）
[39]	Sandler，M.、Howard，A.、Zhu，M.，Zhmoginov，A.、Chen，L.：Mobilenetv2：倒置残差和线性瓶颈。arXiv:1704.04861（2017）
[40]	Scaman，K.，Virmaux，A.：深层神经网络的Lipschitz正则性：分析和有效估计。NeurIPS 2018:第32届神经信息处理系统会议，第10页（2018）
[41]	史密斯，法律公告：神经网络训练的循环学习率。arXiv:1506.01186（2015）
[42]	Smith，Negal，Topin，N.：超收敛：使用大学习率快速训练剩余网络。CoRR.arxiv:1708.07120（2017）
[43]	Srivastava，N.，Hinton，G.，Krizhevsky，A.，Sutskever，I.，Salakhutdinov，R.：退出：防止神经网络过度拟合的简单方法。JMLR，第1929-1958页（2014）·Zbl 1318.68153号
[44]	Truong，T.T.：回溯梯度下降的连续版本收敛到最小值。arXiv:1911.04221（2019）
[45]	Truong，T.T.：回溯梯度下降允许无限学习率。arXiv:2001.02005（2020）
[46]	Truong，T.T.：banach空间上回溯梯度下降法的一些收敛结果。arXiv:2001.05768（2020）
[47]	Truong，T.T.，Nguyen，T.H.：一般函数的回溯梯度下降法及其在深度学习中的应用。arXiv：1808.05160（2018年、2019年）
[48]	Truong，T.T.，Nguyen，T.H.：阿米乔条件下学习率的渐近行为。arXiv:2007.03618（2020）
[49]	Vaswani，S.、Mishkin，A.、Laradji，I.、Schmidt，M.、Gidel，G.、Lacoste-Julien，S.：无痛随机梯度：插值、线性搜索和收敛速度。arXiv:1905.09997（2019）
[50]	Wilson，A.C.，Roelofs，R.，Stern，M.，Srebro，N.，Recht，B.：机器学习中自适应梯度方法的边际值。arXiv:1705.08292（2017）
[51]	Wolfe，P.，上升法的收敛条件，SIAM Rev.，11，2，226-235（1969）·兹标0177.20603 ·数字对象标识代码：10.1137/1011036
[52]	Zhang，J.，Mitliagkas，I.：黄鳍与动量调谐艺术。arXiv公司：1706.03471

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

回溯梯度下降法及其在大规模优化中的应用。二：算法和实验。（英语） Zbl 07410946号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

回溯梯度下降法及其在大规模优化中的应用。二： 算法和实验。 （英语） Zbl 07410946号

MSC公司：

关键词：

软件：

参考文献：

回溯梯度下降法及其在大规模优化中的应用。二：算法和实验。（英语） Zbl 07410946号