×

一种具有能量和动量的自适应梯度方法。 (英语) Zbl 1499.65243号

摘要:我们介绍了一种新的基于梯度的随机目标函数优化算法。该方法可以被视为SGD的一种变体,其动量配备了由“能量”变量自动调整的自适应学习速率。该方法实现简单,计算效率高,非常适合大规模机器学习问题。该方法对任何大小的基本学习速率都具有无条件的能量稳定性。我们给出了在线凸优化框架下收敛速度的遗憾界。我们还建立了算法在随机非凸环境下对平稳点的能量相关收敛速度。此外,还提供了一个充分的条件来保证能量变量的正下限。实验表明,该算法在训练深度神经网络时收敛速度快,泛化效果优于或,优于带动量的SGD,也优于Adam。

MSC公司:

65K10像素 数值优化和变分技术
90立方厘米 随机规划
65年第68季度 算法和问题复杂性分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Zeyuan Allen-Zhu,Katyusha:随机梯度方法的第一次直接加速,《机器学习研究杂志》,18(221)(2018),第1-51页·Zbl 1475.90044号
[2] Shun-ichi Amari,《自然梯度在学习中的有效作用》,《神经计算》,10(2)(1998),第251-276页。
[3] Leon Bottou,《随机梯度下降技巧》,神经网络,《交易技巧》,重新加载版,《计算机科学(LNCS)讲义》,第7700卷,施普林格出版社,2012年1月。
[4] 陈向一,刘思佳,孙若玉,洪明义,关于非凸优化的一类Adam型算法的收敛性,国际学习表示会议,2019。
[5] Aaron Defazio、Francis Bach和Simon Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度方法,《神经信息处理系统中的进展》,2014年第27卷。
[6] 蒂莫西·多扎特(Timothy Dozat),《将内斯特罗夫的动力融入亚当》(Incorporating Nesterov mountary into Adam),《学习代表国际共识》(International Conference on Learning Representations),2016年。
[7] John Duchi、Elad Hazan和Yoram Singer,在线学习和随机优化的自适应次梯度方法,《机器学习研究杂志》,12(2011),第2121-2159页·Zbl 1280.68164号
[8] Ian Goodfellow、Yoshua Bengio和Aaron Courville,深度学习,麻省理工学院出版社,2016,http://www.deeplearningbook.org。 ·Zbl 1373.68009号
[9] Elad Hazan,在线凸优化简介,arXiv:abs/1909.05207(2019)·Zbl 1136.90430号
[10] 何开明、张翔宇、任少清和孙健,图像识别的深度残差学习,2016年IEEE计算机视觉与模式识别会议(CVPR),(2016),第770-778页。
[11] 高煌、刘庄、劳伦斯·范德马滕和基利安·温伯格,《紧密连接卷积网络》,2017年IEEE计算机振动与模式识别会议(CVPR),(2017),第2261-2269页。
[12] Forrest N.Iandola、M.Moskewicz、Khalid Ashraf、Song Han、W.Dally和K.Keutzer,Squeezenet:Alexnet级精度,参数少50倍,模型大小为1MB,arXiv:abs/1602.07360(2016)。
[13] Stanislaw Jastrzebski、Zachary Kenton、Nicolas Ballas、Asja Fischer、Yoshua Bengio和Amos J.Storkey,DNN在SGD轨迹上最清晰的方向,arXiv:abs/1807.05031(2018)。
[14] Chi Jin、Praneeth Netrapalli和Michael I.Jordan,加速梯度下降比梯度下降更快地逃离鞍点,《第31届学习理论会议论文集》,75(2018),第1042-1085页。
[15] Rie Johnson和Tong Zhang,使用预测方差减少加速随机梯度下降,神经信息处理系统进展,2013年第26卷。
[16] Nitish Shirish Keskar和Richard Socher,《通过从Adam切换到SGD来提高泛化性能》,arXiv:abs/1712.07628(2017)。
[17] Diederik P.Kingma和Jimmy Ba,Adam:随机优化方法,arXiv:abs/1412.6980(2017)。
[18] Alex Krizhevsky和Geoffrey Hinton,《从微小图像中学习多层特征》,多伦多大学,(2009年)。
[19] Y.Lecun、L.Bottou、Y.Bengio和P.Haffner,基于梯度的学习应用于文档识别,IEEE学报,86(11)(1998),第2278-2324页。
[20] Lei Lihua,Cheng Ju,Jianbo Chen,and Michael I.Jordan,通过SCSG方法实现非凸有限和运算,神经信息处理系统进展,30(2017)。
[21] 刘海良(Hailiang Liu)和田旭平(Xuping Tian),澳大利亚能源发展署(AEGD:Adaptive gradient decept with energy),arXiv:abs/2010.05109(2020)。
[22] 刘立元、蒋浩明、何鹏程、陈伟珠、刘晓东、高剑锋和韩嘉伟,《自适应学习率的变化及超越》,学习代表国际会议,2020年。
[23] 伊利亚·洛希洛夫(Ilya Loshchilov)和弗兰克·赫特(Frank Hutter),解耦重量衰减正则化,国际学习代表大会,2019年。
[24] 罗良晨,熊元浩,刘燕,学习率动态界的自适应梯度法,学习表征国际会议,2019年。
[25] 于。E.Nesterov,求解收敛率为O(1/k2)的凸规划问题的一种方法,Dokl。阿卡德。Nauk SSSR,269(3)(1983),第543-547页·Zbl 0535.90071号
[26] 尤里·内斯特罗夫(Yurii Nesterov),关于凸优化的入门讲座——一门基础课程,应用优化,2004年·Zbl 1086.90045号
[27] Brendan O'donoghue和Emmanuel Candès,加速梯度方案的自适应重启,计算数学基础15(3)(2015),第715-732页·Zbl 1320.90061号
[28] Stanley Osher、Bao Wang、Penghang Yin、Xiyang Luo、Farzin Barekat、Minh Pham和Alex Lin,拉普拉斯平滑梯度下降,arXiv:abs/1806.06317(2019)。
[29] B.T.Polyak,加速迭代法收敛的一些方法。维奇岛。Mat i Mat.Fiz.公司。,4(1964年),第791-803页·Zbl 0147.35301号
[30] B.T.Polyak和A.B.Juditsky,通过平均化加速随机近似,SIAM J.控制优化。,30(4)(1992),第838-855页·Zbl 0762.62022号
[31] 钱宁,梯度下降学习算法中的动量项,神经网络,12(1)(1999),第145-151页。
[32] Sashank Reddi、Satyen Kale和Sanjiv Kumar,《亚当与超越的融合》,学习代表国际会议,2018年。
[33] 赫伯特·罗宾斯和萨顿·蒙罗,《随机近似方法》,《数学年鉴》。《统计》,22(1951),第400-407页·Zbl 0054.05901号
[34] Vincent Roulet和Alexandre d'Aspremont,Sharpness,restart and acceleration,《神经信息处理系统的先进性》(I.Guyon,U.V.Luxburg,S.Ben gio,H.Wallach,R.Fergus,S.Vishwanathan和R.Garnett编辑),第30卷,Curran Associates,Inc.,2017。
[35] David E.Rumelhart、Geoffrey E.Hinton和Ronald J.Williams,《通过反向传播错误学习代表性》,第696-699页,麻省理工学院出版社,马萨诸塞州剑桥,美国,1988年。
[36] A.Shapiro和Y.Wardi,梯度下降随机算法的收敛性分析,J.Optim。理论应用。,91(2)(1996),第439-454页·Zbl 0873.93084号
[37] 沈杰,徐杰,杨江,梯度流的标量辅助变量(sav)方法,计算。物理。,353(2018),第407-416页·Zbl 1380.65181号
[38] K.Simonyan和Andrew Zisserman,《用于大规模图像识别的非常深卷积网络》,arXiv:abs/1409.1556(2015)。
[39] Ilya Sutskever、James Martens、George Dahl和Geoffrey Hinton,《论初始化和动量在深度学习中的重要性》,《第30届国际机器学习会议论文集》,2013年第28卷,第1139-1147页。
[40] Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich,《卷积的深入》,2015年IEEE计算机视觉和模式识别会议(CVPR),2015年,第1-9页。
[41] Tijmen Tieleman和Geoffrey Hinton,RMSprop:将梯度除以最近大小的运行平均值,《课程:机器学习的神经网络》,4(2)(2012),第26-31页。
[42] Bao Wang、Tan M.Nguyen、Andrea L.Bertozzi、Richard G.Baraniuk和Stan-ley J.Osher,加速随机梯度下降的计划重启动量,arXiv:abs/2002.10583(2020)。
[43] Ashia C.Wilson、Rebecca Roelofs、Mitchell Stern、Nathan Srebro和Benjamin Recht,机器学习中自适应梯度方法的边际值,arXiv:abs/1705.08292(2018)。
[44] 杨晓峰,均聚物共混物相场模型的线性、一阶和二阶无条件能量稳定数值格式,J.Compute。物理。,327(2016),第294-316页·Zbl 1373.82106号
[45] 马修·泽勒(Matthew D.Zeiler),《ADADELTA:一种自适应学习率方法》,arXiv:abs/1212.5701(2012)。
[46] 张思欣(Sixin Zhang)、安娜·乔洛曼斯卡(Anna E.Choromanska)和杨乐村(Yann LeCun),《弹性平均SGD深度学习》,《神经信息处理系统进展》,第28卷,2015年。
[47] 贾钊,王琦,杨晓峰,基于不变能量正交化ap-proach的相场枝晶生长模型的数值近似,国际期刊数值。《方法工程》,110(2017),第279-300页·兹比尔1365.74138
[48] Martin Zinkevich,在线凸规划和广义无穷小梯度提升,第二十届国际机器学习会议论文集,ICML,2003年,第928-935页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。