文件Zbl 1492.90132-zbMATH Open

加速随机梯度下降的预定重启动量。（英语）兹比尔1492.90132

SIAM J.成像科学。 15，第2期，738-761（2022）.

摘要：具有恒定动量及其变体（如Adam）的随机梯度下降（SGD）算法是训练深度神经网络（DNN）的优化方法。由于这些方法的计算费用很高，因此人们对加速这些方法的收敛非常感兴趣。具有时变动量的Nesterov加速梯度（NAG）利用专门设计的动量提高了凸优化梯度下降的收敛速度；然而，当使用随机梯度时，它会累积误差，最佳情况下会减缓收敛速度，最坏情况下会发散。在本文中，我们建议计划重启SGD（SRSGD），一种新的NAG式DNN培训方案。SRSGD通过NAG中增加的动量来替换SGD中的恒定动量，但通过根据时间表将动量重置为零来稳定迭代。使用多种模型和基准进行图像分类，我们证明，在训练DNN时，SRSGD显著提高了收敛性和泛化性；例如，在训练ResNet-200进行ImageNet分类时，SRSGD的错误率为20.93%，而基准为22.13%。随着网络的深入，这些改进变得更加重要。此外，在CIFAR和ImageNet上，与SGD基线相比，SRSGD的错误率相似，甚至更好，训练时间明显更少。我们的SRSGD实施可在https://github.com/minhtannguyen/SRSGD网址.

引用于三文件

理学硕士：

90C25型	凸面编程
65B99型	数值分析中的收敛加速
68T07型	人工神经网络与深度学习
93E35型	随机学习与自适应控制

关键词：

随机优化;Nesterov加速梯度;重新启动;深度学习

软件：

阿达格拉德;亚当;github;凯拉斯;PyTorch公司;Wasserstein甘;MNIST公司;RMS公司;SGDR公司;阿达德尔塔

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	M.Arjovsky、S.Chintala和L.Bottou，Wasserstein生成性对抗网络，《第34届国际机器学习会议论文集》，D.Precup和Y.W.Teh编辑，《机器学习研究论文集》70，PMLR，第214-223页，http://proceedings.mlr.press/v70/arjovsky17a.html。
[2]	M.Assran和M.Rabbat，《关于Nesterov加速梯度法在随机环境中的收敛性》，预印本，arXiv:2002.124142020年。
[3]	N.S.Aybat、A.Fallah、M.Gurbuzbalaban和A.Ozdaglar，光滑强凸函数的稳健加速梯度方法，预印本，arXiv:1805.105792018·Zbl 1461.62145号
[4]	N.S.Aybat、A.Fallah、M.Gurbuzbalaban和A.Ozdaglar，一种普遍最优的多级加速随机梯度方法，收录于《神经信息处理系统进展》，2019年，第8525-8536页。
[5]	A.Beck和M.Teboulle，线性反问题的快速迭代收缩阈值算法，SIAM J.成像科学。，2（2009年），第183-202页·Zbl 1175.94009号
[6]	Y.Bengio、N.Boulanger-Lewandowski和R.Pascanu，优化递归网络的进展，《声学、语音和信号处理国际会议论文集》，IEEE，2013年，第8624-8628页。
[7]	L.Bottou、F.E.Curtis和J.Nocedal，《大规模机器学习的优化方法》，SIAM Rev.，60（2018），第223-311页·Zbl 1397.65085号
[8]	S.Bubeck，《凸优化：算法和复杂性》，预印本，arXiv:1405.49802014年。
[9]	A.Cauchy，Me⁄thode geкneкrale pour la reкsolution des systemes dáeкquations simultaneкes，Comp。伦德。科学。巴黎（1847）。
[10]	J.Chen和A.Kyrillidis，《衰退的动力帮助神经网络训练》，预印本，arXiv:1910.04952，2019年。
[11]	F.Cholet等人，Keras，https://keras.io网址, 2015.
[12]	M.B.Cohen、J.Diakonikolas和L.Orecchia，《关于噪声腐蚀梯度的加速度》，预印本，arXiv:1805.255912018。
[13]	O.Devolder、F.Glineur和Y.Nesterov，用不精确预言机进行光滑凸优化的一阶方法，数学。程序。，146（2014），第37-75页·Zbl 1317.90196号
[14]	J.Duchi、E.Hazan和Y.Singer，在线学习和随机优化的自适应次梯度方法，J.Mach。学习。Res.，12（2011），第2121-2159页·兹比尔1280.68164
[15]	S.Ghadimi和G.Lan，非凸随机规划的随机一阶和零阶方法，SIAM J.Optim。，23（2013），第2341-2368页·Zbl 1295.90026号
[16]	S.Ghadimi和G.Lan，非凸非线性随机规划的加速梯度法，数学。程序。，156（2016），第59-99页·Zbl 1335.62121号
[17]	P.Giselsson和S.Boyd，快速梯度法中的单调性和重启，《第53届IEEE决策和控制会议论文集》，IEEE，2014年，第5058-5063页。
[18]	G.Goh，《为什么动量真的有效》，《蒸馏》，2（2017），e6。
[19]	I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville，《Wasserstein GANs的改进训练》，《神经信息处理系统进展》，2017年，第5767-5777页。
[20]	M.Hardt，鲁棒性与加速度，http://blog.mrtz.org/2014/08/18/robustness-versus-acceleration.html, 2014.
[21]	K.He、X.Zhang、S.Ren和J.Sun，《深度剩余网络》，https://github.com/KaimingHe/dep-residual-networks网站, 2016.
[22]	K.He、X.Zhang、S.Ren和J.Sun，深度剩余网络中的身份映射，《欧洲计算机视觉会议》，纽约斯普林格，2016年，第630-645页。
[23]	G.Hinton、N.Srivastava和K.Swersky，机器学习神经网络讲座6a：Mini-Batch梯度下降概述，https://www.cs.toronto.edu/tijmen/csc321/slides/lecure_slides_lec6.pdf。
[24]	S.Hochreiter和J.Schmidhuber，长短期记忆，神经计算。，9（1997），第1735-1780页。
[25]	A.Iouditski和Y.Nesterov，最小化一致凸函数的原对偶子梯度方法，预印本，arXiv:1401.17922014。
[26]	R.Kidambi、P.Netrapalli、P.Jain和S.Kakade，《关于随机优化现有动量方案的不足》，《信息理论与应用研讨会论文集》，IEEE，2018年，第1-9页。
[27]	D.P.Kingma和J.Ba，Adam：随机优化方法，预印本，arXiv:1412.69802014年。
[28]	A.Kulunchakov和J.Mairal，随机复合优化的通用加速框架，《神经信息处理系统进展》，2019年，第12556-12567页。
[29]	G.Lan，随机组合优化的优化方法，数学。程序。，133（2012），第365-397页·Zbl 1273.90136号
[30]	Y.LeCun和C.Cortes，MNIST手写数字数据库，http://yann.lecun.com/exdb/mnist/, 2010.
[31]	Q.Lin和L.Xiao，稀疏优化的自适应加速近端梯度法及其同伦延拓，《机器学习国际会议论文集》，2014年，第73-81页。
[32]	C.Liu和M.Belkin，利用过度参数化学习的势头加速SGD，《2020年学习代表国际会议论文集》，https://openreview.net/forum？id=r1gixp4FPH。
[33]	I.Loshchilov和F.Hutter，SGDR：带热重启的随机梯度下降，预印本，arXiv:1608.039832016。
[34]	B.S.Mordukhovich，变分分析和广义微分I：基础理论，格兰德伦数学。愿望。330，施普林格，纽约，2006年。
[35]	A.S.Nemirovskii和Y.E.Nesterov，光滑凸最小化的优化方法，苏联计算。数学。数学。物理。，25（1985），第21-30页·兹比尔0591.90072
[36]	Y.Nesterov，凸编程入门讲座第一卷：基础课程，应用。最佳方案。87，施普林格，纽约，2004年·Zbl 1086.90045号
[37]	Y.Nesterov，最小化复合函数的梯度方法，数学。程序。，140（2013），第125-161页·Zbl 1287.90067号
[38]	Y.E.Nesterov，一种求解收敛速度为o（1/k^2）的凸规划问题的方法，Dokl。阿卡德。Nauk SSSR，第269页（1983年），第543-547页·Zbl 0535.90071号
[39]	B.Oádonoghue和E.Candes，《加速梯度方案的自适应重启》，Found。计算。数学。，15（2015），第715-732页·Zbl 1320.90061号
[40]	A.Paszke、S.Gross、F.Massa、A.Lerer、J.Bradbury、G.Chanan、T.Killeen、Z.Lin、N.Gimelshein、L.Antiga等人，《PyTorch:一种命令式、高性能的深度学习库》，摘自《神经信息处理系统进展》，2019年，第8024-8035页。
[41]	B.T.Polyak，加速迭代法收敛的一些方法，苏联计算机。数学。数学。物理。，4（1964年），第1-17页·Zbl 0147.35301号
[42]	PyTorch，在PyTotch的ImageNet培训，https://github.com/pytorch/examples/tree/master/imagenet。
[43]	J.Renegar，线性规划和半定规划的高效一阶方法，预印本，arXiv:1409.58322014。
[44]	R.T.Rockafellar，凸分析，普林斯顿地标数学。物理学。28，普林斯顿大学出版社，新泽西州普林斯顿，1970年·Zbl 0193.18401号
[45]	R.T.Rockafellar和R.J.-B.Wets，变分分析，格兰德伦数学。威斯。317，施普林格，纽约，2009年。
[46]	V.Roulet和A.d'Aspremont，《锐利、重启和加速》，《神经信息处理系统进展》，2017年，第1119-1129页。
[47]	O.Russakovsky、J.Deng、H.Su、J.Krause、S.Satheesh、S.Ma、Z.Huang、A.Karpathy、A.Khosla、M.Bernstein等，《Imagenet大规模视觉识别挑战》，国际计算机杂志。视觉。，115（2015），第211-252页。
[48]	W.Su、S.Boyd和E.Candes，《建模nesterov加速梯度法的微分方程：理论和见解》，《神经信息处理系统进展》，2014年，第2510-2518页。
[49]	I.Sutskever、J.Martens、G.Dahl和G.Hinton，《深度学习中初始化和动力的重要性》，《机器学习国际会议论文集》，2013年，第1139-1147页。
[50]	T.Tieleman和G.Hinton，演讲6.5-RmsProp:用梯度最近大小的运行平均值划分梯度，《课程：机器学习的神经网络》，2012年。
[51]	M.D.Zeiler，《ADADELTA:自适应学习率方法》，预印本，arXiv:1212.57012012年。
[52]	S.Zhang、A.E.Choromanska和Y.LeCun，弹性平均SGD深度学习，《神经信息处理系统进展》，2015年，第685-693页。
[53]	M.Zinkevich、M.Weimer、L.Li和A.J.Smola，并行随机梯度下降，《神经信息处理系统进展》，2010年，第2595-2603页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

加速随机梯度下降的预定重启动量。（英语）兹比尔1492.90132

理学硕士：

关键词：

软件：

参考文献：

示例

字段

操作员

加速随机梯度下降的预定重启动量。 （英语） 兹比尔1492.90132

理学硕士：

关键词：

软件：

参考文献：

加速随机梯度下降的预定重启动量。（英语）兹比尔1492.90132