×

非凸随机优化ADAM算法的收敛性和动力学行为。 (英语) 邮编1465.90050

摘要:Adam是随机梯度下降的一个流行变体,用于寻找函数的局部极小值。在常步长范围内,假设目标函数是可微且非凸的,我们建立了在稳定条件下迭代到稳定点的长期收敛性。关键要素是引入了连续时间版本的Adam,以非自治常微分方程的形式。这个连续时间系统是Adam迭代的一个相关近似,即插值Adam过程弱收敛于ODE的解。证明了该解的存在唯一性。我们进一步证明了该解在目标函数的临界点处的收敛性,并在Łojasiewicz假设下量化了其收敛速度。然后,我们介绍了Adam的一个新的缩小步长版本。在温和的假设下,证明了迭代几乎必然有界并且几乎必然收敛到目标函数的临界点。最后,我们利用条件中心极限定理分析了算法的涨落。

MSC公司:

90立方厘米15 随机规划
90C26型 非凸规划,全局优化
62L20型 随机近似
60F05型 中心极限和其他弱定理
65千5 数值数学规划方法
34甲12 初值问题、常微分方程解的存在性、唯一性、连续依赖性和连续性
37C60个 非自治光滑动力系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] H.Attouch和J.Bolte,关于涉及分析特征的非光滑函数的近端算法的收敛性,Math。程序。,116(2009),第5-16页·Zbl 1165.90018号
[2] H.Attouch,X.Goudou和P.Redont,带摩擦的重球方法,即连续动力系统:通过耗散动力系统的渐近分析对实值函数的局部极小值的全局探索,Commun。竞争。数学。,2(2000),第1-34页·Zbl 0983.37016号
[3] L.Balles和P.Hennig,《解剖亚当:随机梯度的符号、大小和方差》,载于《第35届机器学习国际会议论文集》,PMLR 802018年,第404-413页。
[4] A.Basu、S.De、A.Mukherjee和E.Ullah,非凸优化中RMSprop和Adam的收敛保证及其与自动编码器上Nesterov加速度的比较,预打印,https://arxiv.org/abs/1807.06766, 2018.
[5] A.Belotto da Silva和M.Gazeau,一种通用微分方程系统,用于模拟一阶自适应算法,https://arxiv.org/abs/1810.13108,2018年·Zbl 1517.65053号
[6] M.Benai¨M,《随机近似算法的动力学》,载于《概率论》,第三十三卷,数学课堂讲稿。1709年,柏林施普林格出版社,1999年,第1-68页·Zbl 0955.62085号
[7] P.Bianchi、W.Hachem和A.Salim,《含微分包含的常步随机逼近:稳定性、长期收敛性和应用》,《随机学》,91(2019),第288-320页·Zbl 1500.60040号
[8] J.Bolt、S.Sabach和M.Teboulle,非凸和非光滑问题的近似交替线性化最小化,数学。程序。,146(2014),第459-494页·Zbl 1297.90125号
[9] A.Cabot、H.Engler和S.Gadat,关于具有渐近小耗散的二阶微分方程的长时间行为,Trans。阿默尔。数学。Soc.,361(2009),第5983-6017页·Zbl 1191.34078号
[10] X.Chen、S.Liu、R.Sun和M.Hong,《关于非凸优化的一类adam型算法的收敛性》,《学习表征国际会议论文集》,2019年。
[11] D.Davis、D.Drusvyatskiy、S.Kakade和J.Lee,随机次梯度方法收敛于驯服函数,Found。计算。数学。,20(2020),第119-154页·Zbl 1433.65141号
[12] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·Zbl 1280.68164号
[13] J.-C.Fort和G.Pagès,常步长马尔可夫随机算法的渐近行为,SIAM J.控制优化。,37(1999),第1456-1482页·Zbl 0954.60057号
[14] S.Gadat、F.Panloup和S.Saadane,《随机重球》,电子。《统计杂志》,12(2018),第461-529页·Zbl 1392.62244号
[15] A.Haraux,Systemes dynamicques dissitifs et applications,巴黎马森,1991年·Zbl 0726.58001号
[16] A.Haraux和M.Jendoubi,耗散自治系统的收敛问题,Springer Briefs Math。,施普林格,纽约,2015年·Zbl 1345.37081号
[17] I.Karatzas和S.Shreve,《布朗运动与随机微积分》,第二版,施普林格出版社,纽约,1991年·兹标0734.60060
[18] D.P.Kingma和J.Ba,Adam:随机优化方法,《学习表征国际会议论文集》,2015年。
[19] S.Łojasewicz,Une propertiététopologique des sous ensembles analystiques réels,Les équations aux dérivées partielles,117(1963),第87-89页·Zbl 0234.57007号
[20] M.Pelletier,应用于多目标和模拟退火的随机逼近的弱收敛速度,Ann.Appl。概率。,8(1998),第10-44页·Zbl 0965.62065号
[21] S.J.Reddi、S.Kale和S.Kumar,《关于亚当及其后的融合》,《学习代表国际会议论文集》,2018年。
[22] H.Robbins和D.Siegmund,非负几乎上鞅的收敛定理及其应用,载于《统计学中的优化方法》,学术出版社,1971年,第233-257页·Zbl 0286.60025号
[23] T.Tieleman和G.Hinton,讲座(6)。e-RMSprop:将梯度除以最近大小的运行平均值,Coursera:机器学习的神经网络,2012年,第26-31页。
[24] R.Ward、X.Wu和L.Bottou,AdaGrad步长:非凸景观上的急剧收敛,载于《第36届机器学习国际会议论文集》,PMLR 972019,第6677-686页。
[25] M.Zaheer、S.J.Reddi、D.Sachan、S.Kale和S.Kumar,非凸优化的自适应方法,《神经信息处理系统进展》,2018年,第9793-9803页。
[26] D.Zhou、Y.Tang、Z.Yang、Y.Cao和Q.Gu,关于非凸优化自适应梯度方法的收敛性,https://arxiv.org/abs/1808.05671, 2018.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。