×

强凸问题自适应梯度方法的动态遗憾。 (英语) Zbl 07814970号

摘要:自适应梯度算法,如阿达格拉德它的变体在深层神经网络的训练中得到了广泛的应用。虽然许多自适应方法的工作都将静态后悔作为实现良好后悔保证的性能指标,但这些方法的动态后悔分析仍不清楚。与静态后悔相比,动态后悔被认为是一个更强的绩效衡量概念,因为它明确地阐明了环境的非国家性。在本文中,我们介绍了阿达格拉德(简称M-AdaGrad公司)在强凸环境中,通过动态后悔的概念来衡量在线学习者的表现,而参考(最佳)解决方案可能会随着时间的推移而改变。我们从最小化序列的路径长度方面证明了遗憾界限,这基本上反映了环境的非平稳性。此外,我们通过在每一轮中利用梯度对学习者的多次访问来增强动态遗憾边界。实证结果表明M-AdaGrad公司在实践中效果也很好。

理学硕士:

90立方厘米 数学编程
49倍X 变分法与最优控制;最优化

软件:

亚当
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Hazan,E.在线凸优化简介。发现趋势优化。2016;2(3-4):157-325.
[2] Hosseini,S,Chapman,A,Mesbahi,M.动态网络上的在线分布式凸优化。IEEE Trans Automat控制。2016;61(11):3545-3550. ·Zbl 1359.90094号
[3] Zinkevich,M.在线凸规划和广义无穷小梯度上升。第20届机器学习国际会议论文集(icml-03);2003年,第928-936页。
[4] Hazan,E,Agarwal,A,Kale,S.在线凸优化的对数遗憾算法。马赫学习。2007;69(2-3):169-192·Zbl 1471.68327号
[5] Jadbabaie,A,Rakhlin,A,Shahrampour,S等。在线优化:与动态比较器竞争。AISTATS公司。201538:398-406.
[6] Besbes,O,Gur,Y,Zeevi,A.非静态随机优化。2015年运营研究报告;63(5):1227-1244. ·Zbl 1338.90280号
[7] Yang,T,Zhang,L,Jin,R,et al.跟踪缓慢移动的洞察力:具有真实和嘈杂梯度的在线学习的最佳动态遗憾。国际机器学习会议;2016年,第449-457页。PMLR公司。
[8] Mokhtari,A,Shahrampour,S,Jadbabaie,A等。动态环境中的在线优化:改进强凸问题的后悔率。决策与控制(CDC),2016年IEEE第55届会议;IEEE;2016年,第7195-7201页。
[9] Zhang,L,Yang,T,Yi,J,等。非退化函数的改进动态遗憾。高级神经信息处理系统。2017年30月:732-741。
[10] Nazari,P,Khorram,E.在线元学习的动态后悔分析。预印本2021。可从以下网址获得:arXiv:2109.14375。
[11] 霍尔,EC,威利特,RM。在线凸规划中的动态模型和跟踪遗憾。2013年预印本。可从arXiv:1301.1254获取。
[12] Chiang,C-K,Yang,T,Lee,C-J等,《渐进式在线优化》。学习理论会议、JMLR研讨会和会议记录;2012年,第6-1页。
[13] Duchi,J,Hazan,E,Singer,Y。在线学习和随机优化的自适应次梯度方法。J Mach Learn Res.2011;12(7):2121-2159. ·Zbl 1280.68164号
[14] Kingma,DP,Ba,J.Adam:随机优化方法。2014年预印本。可从以下网址获得:arXiv:1412.6980。
[15] Reddi,SJ,Kale,S,Kumar,S。关于亚当与超越的融合。2019年预印本。可从以下网址获得:arXiv:1904.09237。
[16] Chen,Z,Xu,Y,Chen,E,et al.Sadagrad:强自适应随机梯度方法。国际机器学习会议;2018年,第913-921页。PMLR公司。
[17] Wang,G,Lu,S,Tu,W,et al.萨达姆:强凸函数的adam变体。2019年预印本。可从以下网址获得:arXiv:1905.02957。
[18] Nazari,P,Tarzanagh,DA,Michailidis,G.弱凸随机优化问题的自适应一阶和零阶方法。2020年预印本。可从以下网址获得:arXiv:2005.09261。
[19] Mukkamala,MC,Hein,M.rmsprop和adagrad的变体具有对数遗憾边界。国际机器学习会议;2017年,第2545-2553页。PMLR公司。
[20] Nazari,P,Tarzanagh,DA,Michailidis,G.Dadam:用于在线优化的基于共识的分布式自适应梯度方法。2019年预印本。可从以下网址获得:arXiv:1901.09109。
[21] Tieleman,T,Hinton,G将梯度按其最近大小的运行平均值进行划分。课程:机器学习的神经网络。2017年技术报告。
[22] Zeiler,MDAdadelta:一种自适应学习速率方法。预印本2012。可从arXiv:1212.5701获取。
[23] Hazan,E.在线凸优化简介。2019年预印本。可从以下网址获得:arXiv:1909.05207。
[24] van Erven,T,Koolen,WM。Metagrad:在线学习中的多重学习率。2016年预印本。可从以下网址获得:arXiv:1604.08740。
[25] Alacaoglu,A,Malitsky,Y,Mertikopoulos,P等。亚当型算法的新后悔分析。2020年预印本。可从以下网址获得:arXiv:2003.09729。
[26] Reddi,SJ,Kale,S,Kumar,S。关于亚当及其后的收敛性。学习代表国际会议;2018
[27] Nazari,P,Khorram,E,Tarzanagh,DA。动态环境中的自适应在线分布式优化。Optim Meth软件。2019年936:1-25。
[28] Hazan,E,Kale,SBeyond《后悔最小化障碍:随机强凸优化的最优算法》。第24届学习理论年会论文集;2011年,第421-436页。
[29] McMahan,HB,Streeter,M.在线凸优化的自适应界优化。预印本2010。可从以下网址获得:arXiv:1002.4908。
[30] Auer,P,Cesa-Bianchi,N,Gentile,C.自适应和自信在线学习算法。计算机系统科学杂志。2002年;64(1):48-75. ·兹比尔1006.68162
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。