深度学习优化器进展综述

doi:10.3778/j.issn.1002-8331.2307-0370

摘要/摘要

摘要：优化器是提高深度学习模型性能的关键因素，通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT公司等大语言模型成为自然语言处理领域研究焦点，以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生，其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线，分析其原理及优劣。将优化器应用到变压器架构中，选取法-英翻译任务作为评估基准，通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明，自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时，展望优化器的发展方向并给出在具体任务上的应用场景。

关键词: 优化器, 机器翻译, 变压器，深度学习, 学习率预热算法

摘要：优化算法是通过最小化损失函数来提高深度学习模型性能的最关键因素。GPT等大型语言模型已经成为自然语言处理领域的研究热点，传统梯度下降算法的优化效果受到了限制。因此，自适应矩估计算法应运而生，其泛化能力明显优于传统优化算法。基于梯度下降、自适应梯度和自适应矩估计算法，分析了优化算法的优缺点。本文将优化算法应用于Transformer体系结构，并选择法语-英语翻译任务作为评估基准。实验表明，自适应矩估计算法可以有效提高模型在机器翻译任务中的性能。同时，讨论了优化算法的发展方向和应用。

关键词： 优化器，机器翻译，变压器，深度学习，学习速率预热算法

常禧龙, 梁琨, 李文涛. 深度学习优化器进展综述[J] ●●●●。计算机工程与应用, 2024, 60(7): 1-12.

张喜龙，梁坤，李文涛。深度学习优化器发展综述[J]。计算机工程与应用，2024,60（7）：1-12。

参考文献

[1] DIEBOLD F X。有什么好主意？“大数据”及其起源[J]。MBGD重要性，2021，18（1）：36-37。
[2] SZE V，CHEN Y H，EINER J，等。机器学习硬件：挑战与机遇[C]//2017 IEEE定制集成电路会议（CICC），2017。
[3] SCHMIDHUBER J.神经网络中的深度学习：综述[J]。神经网络，2015，61:85-117。
[4] TORFI A，SHIRVANI R A，KENESHLOO Y，等.深度学习对自然语言处理的影响[J]。arXiv:2003.0122020年。
[5] KOROTEV M.BERT:自然语言处理和理解应用综述[J]。arXiv:2103.119432021。
[6] 沈永川，HSIA T C，HSU C H。基于自然语言处理的深度学习的电子健康记录分析[J]。阿拉伯科学与工程杂志，2021:1-11。
[7] SUTSKEVER I，MARTENS J，HINTON G E.用递归神经网络生成文本[C]//2016年国际机器学习会议。
[8] YANG Z，YANG D，DYER C，等.文档分类的层次注意网络[C]//计算语言学协会北美分会2016年会议论文集：人类语言技术，2016。
[9] 谭志X，苏俊生，王伯乐，等.格-序列注意神经机器翻译模型[J]。神经计算，2018，284:138-147。
[10] VASWANI A，SHAZEER N，PARMAR N等。注意力就是你所需要的[C]//神经信息处理系统的进展，2017。
[11] HAO S，LEE D H，ZHAO D.大型地铁系统短期客流预测的序列到序列学习和注意机制[J]。交通研究C部分新兴技术，2019，107:287-300。
[12] BROWN T，MANN B，RYDER N，et al.语言模型是少数学习者[C]//神经信息处理系统进展，2020：1877-1901。
[13] RADFORD A，NARASIMHAN K，SALIMANS T，等。通过生成性预训练提高语言理解能力[Z]。2018
[14] RADFORD A，WU J，CHILD R，等.语言模型是无监督的多任务学习者[J]。OpenAI博客，2019，1（8）：9。
[15] DEVLIN J，CHANG M W，LEE K，等.BERT：用于语言理解的深层双向变换器预训练[J]。arXiv:1810.048052018年。
[16] 史加荣, 王丹, 尚凡华, 等. 随机梯度下降算法研究进展 [J] ●●●●。自动化学报, 2021, 47(9): 2103-2119.
史建荣，王德，尚福华，等.随机梯度下降算法的研究进展[J]。自动化学报，2021，47（9）：2103-2119。
[17] 张慧. 深度学习中优化算法的研究与改进[D] ●●●●。北京: 北京邮电大学, 2018
张华。深度学习中优化算法的研究与改进[D]。北京：北京邮电大学，2018年。
[18] KINGMA D P，BA J.Adam：一种随机优化方法[J]。arXiv:1412.69802014年。
[19] SUTSKEVER I，VINYALS O，LE Q V.神经网络序列到序列学习[C]//神经信息处理系统进展，2014。
[20] 彼得斯·M，尼曼·M，齐特勒莫耶尔·L，等。语境词嵌入研究：体系结构与表征[J]。arXiv:1808.089492018年。
[21]DUCHI J，HAZAN E，SINGER Y.在线学习和随机优化的自适应次梯度方法[J]。机器学习研究杂志，2011，12（7）：2121-2159。
[22]ZEILER M D.ADADELTA：一种自适应学习速率方法[J]。arXiv:12122.57012012年。
[23]洛希洛夫I，HUTTER F.分解重量衰减正则化[J]。arXiv:1711.051012017年。
[24]LIU L，JIANG H，HE P，et al.关于自适应学习率的方差及其后的影响[J]。arXiv:1908.032652019年。
[25]张M，LUCAS J，BA J，等.前瞻优化器：向前k步，向后1步[C]//神经信息处理系统进展，2019。
[26]WRIGHT L，DEMEURE N.Ranger21：协同深度学习优化器[J]。arXiv:2106.137312021年。
[27]BOTTOU L，CURTIS F E，NOCEDAL J.大规模机器学习的优化方法[J]。工业和应用数学学会，2018（2）：223-311。
[28]DEKEL O，GILAD-BACHRACH R，SHAMIR O，等.基于小样本的最优分布式在线预测[J]。arXiv:10.12.13672010年。
[29]史密斯·L·N。不再有令人讨厌的学习率猜测游戏[J]。arXiv:1506.011862015年。
[30]SMITH L N.神经网络训练的循环学习率[J]。arXiv:1506.011862015年。
[31]O’DONOGHUE B，CANDES E.加速梯度方案的自适应重启[J]。计算数学基础，2015，15:715-732。
[32]LOSHCHILOV I，HUTTER F.SGDR：随机梯度下降与重启[J]。arXiv:1608.039832016年。
[33]DINH L，PASCANU R，BENGIO S，等.尖锐极小可以推广到深网[J]。arXiv:1703.049332017年。
[34]KESKAR N S，MUDIGERE D，NOCEDAL J，等.基于深度学习的大范围训练：泛化差距与尖锐极小值[J]。arXiv:1609.048362016年。
[35]张J，HE T，SRA S，et al.为什么梯度削波加速训练：适应性的理论依据[C]//国际学习表征会议，2020。
[36]IOFFE S，SZEGEDY C.批量归一化：通过减少内部协变量偏移来加速深度网络训练[C]//国际机器学习会议，2015:448-456。
[37]谢Z，袁L，朱忠，等.正负动量：操纵随机梯度噪声提高泛化能力[C]//国际机器学习会议，2021:11448-11458。
[38]乔治·T、施密特·S、B？CK T，等.范数损失：一种有效的深度神经网络正则化方法[C]//2020第25届国际模式识别会议，2021:8812-8818。
[39]谢Z，SATO I，SUGIYAMA M.稳定重量衰减正则化[J]。arXiv：2011.111522020年。
[40]MA J，YARATS D.关于自适应优化的非调谐预热的充分性[C]//AAAI人工智能会议论文集，2021:8828-8836。
[41]ARTETXE M，SCHWENK H.针对零快照跨语言迁移和超越的大规模多语言句子嵌入[J]。计算语言学协会学报，2019年，7:597-610。
[42]IYER N，THEJAS V，KWATRA N，等.广义最小密度假设与探索性学习速率表[J]。机器学习研究杂志，2023，24（65）：1-37。
[43]彭宁顿J，SOCHER R，MANNING C.Glove:单词表示的全局向量[C]//自然语言处理实证方法会议论文集，2014。
[44]DEAN J，CORRADO G，MONGA R，et al.大规模分布式深层网络[C]//神经信息处理系统进展，2012。
[45]TIELEMAN T，HINTON G.讲座6.5-Rmsprop：将梯度除以最近量级的运行平均值[Z]。课程：机器学习的神经网络，2021年。
[46]ANDRYCHOWICZ M，DENIL M，GOMEZ S，et al.通过梯度下降学习梯度下降[C]//神经信息处理系统的进展，2016。
[47]BABICHEV D，BACH F.概率建模的恒定步长随机梯度下降[J]。arXiv:1804.055672018年。
[48]YOU Y，GITMAN I，GINSBURG B.卷积网络的大批量训练[J]。arXiv:1708.038882017年。
[49]KESKAR N S，SOCHER R.通过从Adam切换到SGD来提高泛化性能[J]。arXiv:1712.076282017年。
[50]IZMAILOV P，PODOPRIKHIN D，GARIPOV T，et al.加权平均可以得到更广泛的优化和更好的泛化[J]。arXiv:1803.0540712018年。