文件Zbl 1499.65243-zbMATH Open

一种具有能量和动量的自适应梯度方法。（英语） Zbl 1499.65243号

附录申请。数学。 38，第2期，183-222（2022）.

摘要：我们介绍了一种新的基于梯度的随机目标函数优化算法。该方法可以被视为SGD的一种变体，其动量配备了由“能量”变量自动调整的自适应学习速率。该方法实现简单，计算效率高，非常适合大规模机器学习问题。该方法对任何大小的基本学习速率都具有无条件的能量稳定性。我们给出了在线凸优化框架下收敛速度的遗憾界。我们还建立了算法在随机非凸环境下对平稳点的能量相关收敛速度。此外，还提供了一个充分的条件来保证能量变量的正下限。实验表明，该算法在训练深度神经网络时收敛速度快，泛化效果优于或，优于带动量的SGD，也优于Adam。

引用于1文件

MSC公司：

65K10像素	数值优化和变分技术
90立方厘米	随机规划
65年第68季度	算法和问题复杂性分析

关键词：

随机优化;SGD公司;能量稳定性;动量

软件：

阿达德尔塔;到岸价格;传奇;阿达格拉德;RMS公司;拉普拉斯平滑-渐变下降;亚当;SqueezeNet公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Zeyuan Allen-Zhu，Katyusha:随机梯度方法的第一次直接加速，《机器学习研究杂志》，18（221）（2018），第1-51页·Zbl 1475.90044号
[2]	Shun-ichi Amari，《自然梯度在学习中的有效作用》，《神经计算》，10（2）（1998），第251-276页。
[3]	Leon Bottou，《随机梯度下降技巧》，神经网络，《交易技巧》，重新加载版，《计算机科学（LNCS）讲义》，第7700卷，施普林格出版社，2012年1月。
[4]	陈向一，刘思佳，孙若玉，洪明义，关于非凸优化的一类Adam型算法的收敛性，国际学习表示会议，2019。
[5]	Aaron Defazio、Francis Bach和Simon Lacoste-Julien，SAGA：支持非强凸复合目标的快速增量梯度方法，《神经信息处理系统中的进展》，2014年第27卷。
[6]	蒂莫西·多扎特（Timothy Dozat），《将内斯特罗夫的动力融入亚当》（Incorporating Nesterov mountary into Adam），《学习代表国际共识》（International Conference on Learning Representations），2016年。
[7]	John Duchi、Elad Hazan和Yoram Singer，在线学习和随机优化的自适应次梯度方法，《机器学习研究杂志》，12（2011），第2121-2159页·Zbl 1280.68164号
[8]	Ian Goodfellow、Yoshua Bengio和Aaron Courville，深度学习，麻省理工学院出版社，2016，http://www.deeplearningbook.org。 ·Zbl 1373.68009号
[9]	Elad Hazan，在线凸优化简介，arXiv:abs/1909.05207（2019）·Zbl 1136.90430号
[10]	何开明、张翔宇、任少清和孙健，图像识别的深度残差学习，2016年IEEE计算机视觉与模式识别会议（CVPR），（2016），第770-778页。
[11]	高煌、刘庄、劳伦斯·范德马滕和基利安·温伯格，《紧密连接卷积网络》，2017年IEEE计算机振动与模式识别会议（CVPR），（2017），第2261-2269页。
[12]	Forrest N.Iandola、M.Moskewicz、Khalid Ashraf、Song Han、W.Dally和K.Keutzer，Squeezenet：Alexnet级精度，参数少50倍，模型大小为1MB，arXiv:abs/1602.07360（2016）。
[13]	Stanislaw Jastrzebski、Zachary Kenton、Nicolas Ballas、Asja Fischer、Yoshua Bengio和Amos J.Storkey，DNN在SGD轨迹上最清晰的方向，arXiv:abs/1807.05031（2018）。
[14]	Chi Jin、Praneeth Netrapalli和Michael I.Jordan，加速梯度下降比梯度下降更快地逃离鞍点，《第31届学习理论会议论文集》，75（2018），第1042-1085页。
[15]	Rie Johnson和Tong Zhang，使用预测方差减少加速随机梯度下降，神经信息处理系统进展，2013年第26卷。
[16]	Nitish Shirish Keskar和Richard Socher，《通过从Adam切换到SGD来提高泛化性能》，arXiv:abs/1712.07628（2017）。
[17]	Diederik P.Kingma和Jimmy Ba，Adam：随机优化方法，arXiv:abs/1412.6980（2017）。
[18]	Alex Krizhevsky和Geoffrey Hinton，《从微小图像中学习多层特征》，多伦多大学，（2009年）。
[19]	Y.Lecun、L.Bottou、Y.Bengio和P.Haffner，基于梯度的学习应用于文档识别，IEEE学报，86（11）（1998），第2278-2324页。
[20]	Lei Lihua，Cheng Ju，Jianbo Chen，and Michael I.Jordan，通过SCSG方法实现非凸有限和运算，神经信息处理系统进展，30（2017）。
[21]	刘海良（Hailiang Liu）和田旭平（Xuping Tian），澳大利亚能源发展署（AEGD:Adaptive gradient decept with energy），arXiv:abs/2010.05109（2020）。
[22]	刘立元、蒋浩明、何鹏程、陈伟珠、刘晓东、高剑锋和韩嘉伟，《自适应学习率的变化及超越》，学习代表国际会议，2020年。
[23]	伊利亚·洛希洛夫（Ilya Loshchilov）和弗兰克·赫特（Frank Hutter），解耦重量衰减正则化，国际学习代表大会，2019年。
[24]	罗良晨，熊元浩，刘燕，学习率动态界的自适应梯度法，学习表征国际会议，2019年。
[25]	于。E.Nesterov，求解收敛率为O（1/k2）的凸规划问题的一种方法，Dokl。阿卡德。Nauk SSSR，269（3）（1983），第543-547页·Zbl 0535.90071号
[26]	尤里·内斯特罗夫（Yurii Nesterov），关于凸优化的入门讲座——一门基础课程，应用优化，2004年·Zbl 1086.90045号
[27]	Brendan O'donoghue和Emmanuel Candès，加速梯度方案的自适应重启，计算数学基础15（3）（2015），第715-732页·Zbl 1320.90061号
[28]	Stanley Osher、Bao Wang、Penghang Yin、Xiyang Luo、Farzin Barekat、Minh Pham和Alex Lin，拉普拉斯平滑梯度下降，arXiv:abs/1806.06317（2019）。
[29]	B.T.Polyak，加速迭代法收敛的一些方法。维奇岛。Mat i Mat.Fiz.公司。，4（1964年），第791-803页·Zbl 0147.35301号
[30]	B.T.Polyak和A.B.Juditsky，通过平均化加速随机近似，SIAM J.控制优化。，30（4）（1992），第838-855页·Zbl 0762.62022号
[31]	钱宁，梯度下降学习算法中的动量项，神经网络，12（1）（1999），第145-151页。
[32]	Sashank Reddi、Satyen Kale和Sanjiv Kumar，《亚当与超越的融合》，学习代表国际会议，2018年。
[33]	赫伯特·罗宾斯和萨顿·蒙罗，《随机近似方法》，《数学年鉴》。《统计》，22（1951），第400-407页·Zbl 0054.05901号
[34]	Vincent Roulet和Alexandre d'Aspremont，Sharpness，restart and acceleration，《神经信息处理系统的先进性》（I.Guyon，U.V.Luxburg，S.Ben gio，H.Wallach，R.Fergus，S.Vishwanathan和R.Garnett编辑），第30卷，Curran Associates，Inc.，2017。
[35]	David E.Rumelhart、Geoffrey E.Hinton和Ronald J.Williams，《通过反向传播错误学习代表性》，第696-699页，麻省理工学院出版社，马萨诸塞州剑桥，美国，1988年。
[36]	A.Shapiro和Y.Wardi，梯度下降随机算法的收敛性分析，J.Optim。理论应用。，91（2）（1996），第439-454页·Zbl 0873.93084号
[37]	沈杰，徐杰，杨江，梯度流的标量辅助变量（sav）方法，计算。物理。，353（2018），第407-416页·Zbl 1380.65181号
[38]	K.Simonyan和Andrew Zisserman，《用于大规模图像识别的非常深卷积网络》，arXiv:abs/1409.1556（2015）。
[39]	Ilya Sutskever、James Martens、George Dahl和Geoffrey Hinton，《论初始化和动量在深度学习中的重要性》，《第30届国际机器学习会议论文集》，2013年第28卷，第1139-1147页。
[40]	Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich，《卷积的深入》，2015年IEEE计算机视觉和模式识别会议（CVPR），2015年，第1-9页。
[41]	Tijmen Tieleman和Geoffrey Hinton，RMSprop：将梯度除以最近大小的运行平均值，《课程：机器学习的神经网络》，4（2）（2012），第26-31页。
[42]	Bao Wang、Tan M.Nguyen、Andrea L.Bertozzi、Richard G.Baraniuk和Stan-ley J.Osher，加速随机梯度下降的计划重启动量，arXiv:abs/2002.10583（2020）。
[43]	Ashia C.Wilson、Rebecca Roelofs、Mitchell Stern、Nathan Srebro和Benjamin Recht，机器学习中自适应梯度方法的边际值，arXiv:abs/1705.08292（2018）。
[44]	杨晓峰，均聚物共混物相场模型的线性、一阶和二阶无条件能量稳定数值格式，J.Compute。物理。，327（2016），第294-316页·Zbl 1373.82106号
[45]	马修·泽勒（Matthew D.Zeiler），《ADADELTA:一种自适应学习率方法》，arXiv:abs/1212.5701（2012）。
[46]	张思欣（Sixin Zhang）、安娜·乔洛曼斯卡（Anna E.Choromanska）和杨乐村（Yann LeCun），《弹性平均SGD深度学习》，《神经信息处理系统进展》，第28卷，2015年。
[47]	贾钊，王琦，杨晓峰，基于不变能量正交化ap-proach的相场枝晶生长模型的数值近似，国际期刊数值。《方法工程》，110（2017），第279-300页·兹比尔1365.74138
[48]	Martin Zinkevich，在线凸规划和广义无穷小梯度提升，第二十届国际机器学习会议论文集，ICML，2003年，第928-935页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种具有能量和动量的自适应梯度方法。（英语） Zbl 1499.65243号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

一种具有能量和动量的自适应梯度方法。 （英语） Zbl 1499.65243号

MSC公司：

关键词：

软件：

参考文献：

一种具有能量和动量的自适应梯度方法。（英语） Zbl 1499.65243号