计算机工程与应用››2024,第60卷››问题(7): 1-12.内政部:10.3778/j.issn.1002-8331.2307-0370

• 热点与综述 • 上一篇   下一篇

深度学习优化器进展综述

常禧龙,梁琨,李文涛  

  1. 天津科技大学 人工智能学院,天津 300457
  • 出版日期:2024-04-01 发布日期:2024-04-01

深度学习优化器的发展综述

常西龙、梁坤、李文涛  

  1. 天津科技大学人工智能学院,天津300457
  • 在线:2024-04-01 出版:2024-04-01

摘要:优化器是提高深度学习模型性能的关键因素,通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT公司等大语言模型成为自然语言处理领域研究焦点,以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生,其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线分析其原理及优劣。将优化器应用到变压器架构中,选取法-英翻译任务作为评估基准,通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明,自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时,展望优化器的发展方向并给出在具体任务上的应用场景。

关键词: 优化器, 机器翻译, 变压器, 深度学习, 学习率预热算法

摘要:优化算法是通过最小化损失函数来提高深度学习模型性能的最关键因素。GPT等大型语言模型已经成为自然语言处理领域的研究热点,传统梯度下降算法的优化效果受到了限制。因此,自适应矩估计算法应运而生,其泛化能力明显优于传统优化算法。基于梯度下降、自适应梯度和自适应矩估计算法,分析了优化算法的优缺点。本文将优化算法应用于Transformer体系结构,并选择法语-英语翻译任务作为评估基准。实验表明,自适应矩估计算法可以有效提高模型在机器翻译任务中的性能。同时,讨论了优化算法的发展方向和应用。

关键词: 优化器, 机器翻译, 变压器, 深度学习, 学习速率预热算法