×

加速随机梯度下降的预定重启动量。 (英语) 兹比尔1492.90132

摘要:具有恒定动量及其变体(如Adam)的随机梯度下降(SGD)算法是训练深度神经网络(DNN)的优化方法。由于这些方法的计算费用很高,因此人们对加速这些方法的收敛非常感兴趣。具有时变动量的Nesterov加速梯度(NAG)利用专门设计的动量提高了凸优化梯度下降的收敛速度;然而,当使用随机梯度时,它会累积误差,最佳情况下会减缓收敛速度,最坏情况下会发散。在本文中,我们建议计划重启SGD(SRSGD),一种新的NAG式DNN培训方案。SRSGD通过NAG中增加的动量来替换SGD中的恒定动量,但通过根据时间表将动量重置为零来稳定迭代。使用多种模型和基准进行图像分类,我们证明,在训练DNN时,SRSGD显著提高了收敛性和泛化性;例如,在训练ResNet-200进行ImageNet分类时,SRSGD的错误率为20.93%,而基准为22.13%。随着网络的深入,这些改进变得更加重要。此外,在CIFAR和ImageNet上,与SGD基线相比,SRSGD的错误率相似,甚至更好,训练时间明显更少。我们的SRSGD实施可在https://github.com/minhtannguyen/SRSGD网址.

理学硕士:

90C25型 凸面编程
65B99型 数值分析中的收敛加速
68T07型 人工神经网络与深度学习
93E35型 随机学习与自适应控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Arjovsky、S.Chintala和L.Bottou,Wasserstein生成性对抗网络,《第34届国际机器学习会议论文集》,D.Precup和Y.W.Teh编辑,《机器学习研究论文集》70,PMLR,第214-223页,http://proceedings.mlr.press/v70/arjovsky17a.html。
[2] M.Assran和M.Rabbat,《关于Nesterov加速梯度法在随机环境中的收敛性》,预印本,arXiv:2002.124142020年。
[3] N.S.Aybat、A.Fallah、M.Gurbuzbalaban和A.Ozdaglar,光滑强凸函数的稳健加速梯度方法,预印本,arXiv:1805.105792018·Zbl 1461.62145号
[4] N.S.Aybat、A.Fallah、M.Gurbuzbalaban和A.Ozdaglar,一种普遍最优的多级加速随机梯度方法,收录于《神经信息处理系统进展》,2019年,第8525-8536页。
[5] A.Beck和M.Teboulle,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2(2009年),第183-202页·Zbl 1175.94009号
[6] Y.Bengio、N.Boulanger-Lewandowski和R.Pascanu,优化递归网络的进展,《声学、语音和信号处理国际会议论文集》,IEEE,2013年,第8624-8628页。
[7] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页·Zbl 1397.65085号
[8] S.Bubeck,《凸优化:算法和复杂性》,预印本,arXiv:1405.49802014年。
[9] A.Cauchy,Me⁄thode geкneкrale pour la reкsolution des systemes dáeкquations simultaneкes,Comp。伦德。科学。巴黎(1847)。
[10] J.Chen和A.Kyrillidis,《衰退的动力帮助神经网络训练》,预印本,arXiv:1910.04952,2019年。
[11] F.Cholet等人,Keras,https://keras.io网址, 2015.
[12] M.B.Cohen、J.Diakonikolas和L.Orecchia,《关于噪声腐蚀梯度的加速度》,预印本,arXiv:1805.255912018。
[13] O.Devolder、F.Glineur和Y.Nesterov,用不精确预言机进行光滑凸优化的一阶方法,数学。程序。,146(2014),第37-75页·Zbl 1317.90196号
[14] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·兹比尔1280.68164
[15] S.Ghadimi和G.Lan,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,23(2013),第2341-2368页·Zbl 1295.90026号
[16] S.Ghadimi和G.Lan,非凸非线性随机规划的加速梯度法,数学。程序。,156(2016),第59-99页·Zbl 1335.62121号
[17] P.Giselsson和S.Boyd,快速梯度法中的单调性和重启,《第53届IEEE决策和控制会议论文集》,IEEE,2014年,第5058-5063页。
[18] G.Goh,《为什么动量真的有效》,《蒸馏》,2(2017),e6。
[19] I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville,《Wasserstein GANs的改进训练》,《神经信息处理系统进展》,2017年,第5767-5777页。
[20] M.Hardt,鲁棒性与加速度,http://blog.mrtz.org/2014/08/18/robustness-versus-acceleration.html, 2014.
[21] K.He、X.Zhang、S.Ren和J.Sun,《深度剩余网络》,https://github.com/KaimingHe/dep-residual-networks网站, 2016.
[22] K.He、X.Zhang、S.Ren和J.Sun,深度剩余网络中的身份映射,《欧洲计算机视觉会议》,纽约斯普林格,2016年,第630-645页。
[23] G.Hinton、N.Srivastava和K.Swersky,机器学习神经网络讲座6a:Mini-Batch梯度下降概述,https://www.cs.toronto.edu/tijmen/csc321/slides/lecure_slides_lec6.pdf。
[24] S.Hochreiter和J.Schmidhuber,长短期记忆,神经计算。,9(1997),第1735-1780页。
[25] A.Iouditski和Y.Nesterov,最小化一致凸函数的原对偶子梯度方法,预印本,arXiv:1401.17922014。
[26] R.Kidambi、P.Netrapalli、P.Jain和S.Kakade,《关于随机优化现有动量方案的不足》,《信息理论与应用研讨会论文集》,IEEE,2018年,第1-9页。
[27] D.P.Kingma和J.Ba,Adam:随机优化方法,预印本,arXiv:1412.69802014年。
[28] A.Kulunchakov和J.Mairal,随机复合优化的通用加速框架,《神经信息处理系统进展》,2019年,第12556-12567页。
[29] G.Lan,随机组合优化的优化方法,数学。程序。,133(2012),第365-397页·Zbl 1273.90136号
[30] Y.LeCun和C.Cortes,MNIST手写数字数据库,http://yann.lecun.com/exdb/mnist/, 2010.
[31] Q.Lin和L.Xiao,稀疏优化的自适应加速近端梯度法及其同伦延拓,《机器学习国际会议论文集》,2014年,第73-81页。
[32] C.Liu和M.Belkin,利用过度参数化学习的势头加速SGD,《2020年学习代表国际会议论文集》,https://openreview.net/forum?id=r1gixp4FPH。
[33] I.Loshchilov和F.Hutter,SGDR:带热重启的随机梯度下降,预印本,arXiv:1608.039832016。
[34] B.S.Mordukhovich,变分分析和广义微分I:基础理论,格兰德伦数学。愿望。330,施普林格,纽约,2006年。
[35] A.S.Nemirovskii和Y.E.Nesterov,光滑凸最小化的优化方法,苏联计算。数学。数学。物理。,25(1985),第21-30页·兹比尔0591.90072
[36] Y.Nesterov,凸编程入门讲座第一卷:基础课程,应用。最佳方案。87,施普林格,纽约,2004年·Zbl 1086.90045号
[37] Y.Nesterov,最小化复合函数的梯度方法,数学。程序。,140(2013),第125-161页·Zbl 1287.90067号
[38] Y.E.Nesterov,一种求解收敛速度为o(1/k^2)的凸规划问题的方法,Dokl。阿卡德。Nauk SSSR,第269页(1983年),第543-547页·Zbl 0535.90071号
[39] B.Oádonoghue和E.Candes,《加速梯度方案的自适应重启》,Found。计算。数学。,15(2015),第715-732页·Zbl 1320.90061号
[40] A.Paszke、S.Gross、F.Massa、A.Lerer、J.Bradbury、G.Chanan、T.Killeen、Z.Lin、N.Gimelshein、L.Antiga等人,《PyTorch:一种命令式、高性能的深度学习库》,摘自《神经信息处理系统进展》,2019年,第8024-8035页。
[41] B.T.Polyak,加速迭代法收敛的一些方法,苏联计算机。数学。数学。物理。,4(1964年),第1-17页·Zbl 0147.35301号
[42] PyTorch,在PyTotch的ImageNet培训,https://github.com/pytorch/examples/tree/master/imagenet。
[43] J.Renegar,线性规划和半定规划的高效一阶方法,预印本,arXiv:1409.58322014。
[44] R.T.Rockafellar,凸分析,普林斯顿地标数学。物理学。28,普林斯顿大学出版社,新泽西州普林斯顿,1970年·Zbl 0193.18401号
[45] R.T.Rockafellar和R.J.-B.Wets,变分分析,格兰德伦数学。威斯。317,施普林格,纽约,2009年。
[46] V.Roulet和A.d'Aspremont,《锐利、重启和加速》,《神经信息处理系统进展》,2017年,第1119-1129页。
[47] O.Russakovsky、J.Deng、H.Su、J.Krause、S.Satheesh、S.Ma、Z.Huang、A.Karpathy、A.Khosla、M.Bernstein等,《Imagenet大规模视觉识别挑战》,国际计算机杂志。视觉。,115(2015),第211-252页。
[48] W.Su、S.Boyd和E.Candes,《建模nesterov加速梯度法的微分方程:理论和见解》,《神经信息处理系统进展》,2014年,第2510-2518页。
[49] I.Sutskever、J.Martens、G.Dahl和G.Hinton,《深度学习中初始化和动力的重要性》,《机器学习国际会议论文集》,2013年,第1139-1147页。
[50] T.Tieleman和G.Hinton,演讲6.5-RmsProp:用梯度最近大小的运行平均值划分梯度,《课程:机器学习的神经网络》,2012年。
[51] M.D.Zeiler,《ADADELTA:自适应学习率方法》,预印本,arXiv:1212.57012012年。
[52] S.Zhang、A.E.Choromanska和Y.LeCun,弹性平均SGD深度学习,《神经信息处理系统进展》,2015年,第685-693页。
[53] M.Zinkevich、M.Weimer、L.Li和A.J.Smola,并行随机梯度下降,《神经信息处理系统进展》,2010年,第2595-2603页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。