×

具有动量的随机优化:收敛、波动和陷阱避免。 (英语) Zbl 1471.62442号

摘要:本文研究了一种通用的随机优化方法,它统一了随机梯度下降的几种变体,例如随机重球法、随机Nesterov加速梯度算法(S-NAG)以及广泛使用的亚当算法。该算法被视为贝洛托·达席尔瓦(Belotto da Silva)和加佐(Gazeau)最近提出的一个非自治常微分方程的带噪Euler离散化,并对其进行了深入分析。假设目标函数是非凸的、可微的,建立了迭代到临界点集的稳定性和几乎必然收敛性。一个值得注意的特例是S-NAG在非凸环境中的收敛证明。在一些假设下,以中心极限定理的形式给出了收敛速度。最后,建立了算法对不期望的临界点(如局部极大值或鞍点)的不收敛性。在这里,主要成分是一种新的避免陷阱的非自主设置结果,这是独立的利益。

MSC公司:

62L20型 随机近似
34甲12 初值问题、常微分方程解的存在性、唯一性、连续依赖性和连续性
60F99型 概率论中的极限定理
68T99型 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alacaoglu,A.、Malitsky,Y.和Cevher,V.(2020年)。弱凸约束优化自适应算法的收敛性。arXiv预印本arXiv:2006.06650。
[2] Alacaoglu,A.、Malitsky,Y.、Mertikopoulos,P.和Cevher,V.(2020年)。Adam型算法的一种新的遗憾分析。第37届机器学习国际会议记录(H.D.III和A.Singh编辑)。机器学习研究进展119 202-210.
[3] Alvarez,F.(2000年)。关于Hilbert空间中二阶耗散系统的极小化性质。SIAM控制与优化杂志38 1102-1119. ·Zbl 0954.34053号
[4] Assran,M.和Rabbat,M.(2020年)。随机环境下Nesterov加速梯度法的收敛性。第37届机器学习国际会议记录(H.D.III和A.Singh编辑)。机器学习研究进展119 410-420.
[5] Attouch,H.、Goudou,X.和Redont,P.(2000)。带摩擦的重球方法,I.连续动力系统:通过耗散动力系统的渐近分析对实值函数局部极小值的全局探索。当代数学传播2 1-34. ·Zbl 0983.37016号
[6] Attouch,H.、Chbani,Z.、Peypouquet,J.和Redont,P.(2018年)。具有渐近消失粘性的惯性动力学和算法的快速收敛。数学规划168 123-175. ·Zbl 1395.34068号
[7] Aujol,J.F.、Dossal,C.和Rondepierre,A.(2019年)。Nesterov加速的最佳收敛速度。SIAM优化杂志29 3131-3153. ·兹比尔1453.90117 ·doi:10.1137/18M1186757
[8] Barakat,A.和Bianchi,P.(2021)。非凸随机优化ADAM算法的收敛性和动力学行为。SIAM优化杂志31 244-274. ·邮编1465.90050
[9] Belotto da Silva,A.和Gazeau,M.(2020年)。用于建模一阶自适应算法的一般微分方程系统。机器学习研究杂志21 1-42. ·Zbl 1517.65053号
[10] Benaïm,m.(1999年)。随机近似算法的动力学。概率标准,三十三.数学课堂笔记。1709 1-68. 柏林施普林格·Zbl 0955.62085号 ·doi:10.1007/BFb0096509
[11] Benaïm,m.和Hirsch,m.W.(1996年)。渐近伪轨迹和链递归流及其应用。J.发电机。微分方程8 141-176. ·Zbl 0878.58053号 ·doi:10.1007/BF02218617
[12] Brandière,O.和Duflo,M.(1996)。Les算法是随机的contourent-ils Les pièges?Ann.Inst.H.PoincaréProbab公司。统计师。32 395-427. ·Zbl 0849.62043号
[13] Cabot,A.、Engler,H.和Gadat,S.(2009年)。关于具有渐近小耗散的二阶微分方程的长时间行为。美国数学学会汇刊361 5983-6017. ·Zbl 1191.34078号
[14] Chen,J.、Zhou,D.、Tang,Y.、Yang,Z.和Gu,Q.(2018)。弥补了深度神经网络训练中自适应梯度方法的泛化差距。arXiv预印本arXiv:1806.06763。
[15] Chen,X.、Liu,S.、Sun,R.和Hong,M.(2019年)。非凸优化中一类Adam型算法的收敛性。学习代表国际会议.
[16] Dalec′kiĭ,J.L.和Kre′n,M.G.(1974)。Banach空间微分方程解的稳定性。美国数学学会,普罗维登斯,R.I.,S.Smith从俄语翻译而来,《数学专著翻译》,第43卷·Zbl 0286.34094号
[17] De,S.、Mukherjee,A.和Ullah,E.(2018年)。RMSProp和ADAM在非凸优化中的收敛保证,以及它们与自动编码器上Nesterov加速度的比较。arXiv预印本arXiv:1807.06766。
[18] Défossez,A.、Bottou,L.、Bach,F.和Usunier,N.(2020年)。Adam和Adagrad的一个简单收敛证明。arXiv预印本arXiv:2003.02395。
[19] Delyon,B.、Lavielle,M.和Moulines,E.(1999)。EM算法的随机近似版本的收敛性。统计年鉴94-128页·Zbl 0932.62094号
[20] Du,S.S.、Jin,C.、Lee,J.D.、Jordan,M.I.、Singh,A.和Poczos,B.(2017)。梯度下降可能需要指数时间才能摆脱鞍点。神经信息处理系统的进展30(I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑)1067-1077。柯兰联合公司。
[21] Duchi,J.、Hazan,E.和Singer,Y.(2011年)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志12 2121-2159. ·Zbl 1280.68164号
[22] Gadat,S.和Gavra,I.(2020)。非凸地形中随机自适应算法的渐近研究。arXiv预印本arXiv:2012.05640。
[23] Gadat,S.、Panloup,F.和Saadane,S.(2018年)。随机重球。电子。J.统计。12 461-529. ·Zbl 1392.62244号 ·doi:10.1214/18-EJS1395
[24] Haraux,A.(1991年)。系统动力学耗散与应用17.马森。
[25] Hartman,P.(2002)。常微分方程,第二版,工业和应用数学学会·Zbl 1009.34001号 ·doi:10.1137/1.9780898719222
[26] Horn,R.A.和Johnson,C.R.(1994)。矩阵分析主题剑桥大学出版社,剑桥修正了1991年原版的重印·Zbl 0729.15001号
[27] Jin,C.,Ge,R.,Netrapalli,P.,Kakade,S.M.和Jordan,M.I.(2017年)。如何有效逃脱鞍点。(D.Precup和Y.W.Teh编辑)。机器学习研究进展70 1724-1732。PMLR公司。
[28] Karatzas,I.和Shreve,S.E.(1991年)。布朗运动与随机微积分第二版,Springer-Verlag·Zbl 0734.60060号
[29] Kingma,D.P.和Ba,J.(2015)。亚当:一种随机优化方法。学习代表国际会议.
[30] Kloeden,P.E.和Rasmussen,M.(2011)。非自治动力系统.数学调查和专著176.美国数学学会,罗得岛州普罗维登斯·Zbl 1244.37001号 ·doi:10.1090/surv/176
[31] Lee,J.D.、Panageas,I.、Piliouras,G.、Simchowitz,M.、Jordan,M.I.和Recht,B.(2019年)。一阶方法几乎总是避免严格的鞍点。数学。程序。176 311-337. ·Zbl 1415.90089号 ·doi:10.1007/s10107-019-01374-3
[32] Mai,V.V.和Johansson,M.(2020年)。非光滑非凸优化的随机梯度动量法的收敛性。机器学习研究进展。PMLR。
[33] Mertikopoulos,P.、Hallak,N.、Kavis,A.和Cevher,V.(2020)。关于非凸问题中随机梯度下降的几乎必然收敛性。神经信息处理系统研究进展(H.Larochelle、M.Ranzato、R.Hadsell、M.F.Balcan和H.Lin编辑)33 1117-1128。柯兰联合公司。
[34] Métiver,M.和Priouret,P.(1987年)。趋同预示着算法的随机性将重现。概率论及其相关领域74 403-428. ·Zbl 0588.62153号 ·doi:10.1007/BF00699098
[35] Panageas,I.和Piliouras,G.(2017年)。梯度下降仅收敛于极小值点:非孤立临界点和不变区域。国际贸易中心. ·Zbl 1402.90210号
[36] Panageas,I.、Piliouras,G.和Wang,X.(2019年)。一阶方法几乎总是避免鞍点:步长消失的情况。神经信息处理系统研究进展32 6474-6483.
[37] Pelletier,M.(1998)。应用于多目标和模拟退火的随机逼近的弱收敛速度。应用概率年鉴10-44. ·Zbl 0965.62065号
[38] Pemantle,R.(1990)。urn模型和随机近似中不稳定点的非收敛性。安·普罗巴伯。18 698-712. ·Zbl 0709.60054号
[39] Pötzsche,C.和Rasmussen,M.(2006)。积分流形的泰勒近似。J.发电机。微分方程18 427-460. ·Zbl 1106.34029号 ·doi:10.1007/s10884-006-9011-8
[40] Robbins,H.和Siegmund,D.(1971)。非负几乎上鞅的收敛定理及其应用。统计学中的优化方法233-257. 纽约学术出版社·Zbl 0286.60025号
[41] Su,W.,Boyd,S.和CandèS,E.J.(2016)。Nesterov加速梯度法建模的微分方程:理论和见解。J.马赫。学习。物件。17第153、43号论文·兹比尔1391.90667
[42] Tieleman,T.和Hinton,G.(2012年)。第六讲e-rmsprop:将梯度除以最近震级的运行平均值。课件:用于机器学习的神经网络26-31.
[43] Yan,Y.、Yang,T.、Li,Z.、Lin,Q.和Yang,Y.(2018)。深度学习随机动量方法的统一分析。第27届国际人工智能联合会议记录2955-2961.
[44] Zaheer,M.、Reddi,S.、Sachan,D.、Kale,S.和Kumar,S.(2018年)。非凸优化的自适应方法。神经信息处理系统研究进展9793-9803.
[45] 周德、唐毅、杨毅、曹毅和顾琦(2018)。非凸优化自适应梯度方法的收敛性。arXiv预印本arXiv:1808.05671。
[46] 邹峰、沈立、杰中、张伟和刘伟(2019)。adam和rmsprop收敛的一个充分条件。IEEE计算机视觉和模式识别会议记录11127-11135.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。