×

一阶优化方法建模的随机微分方程。 (英语) Zbl 07836050号

小结:在本文中,导出了一系列SDE,作为理解数值优化方法在随机梯度评估下的行为的工具。我们的目标是通过ODE转换连续版本的引入,以了解离散优化方案对随机设置的渐近行为。我们考虑随机梯度格式和随机惯性系统的连续版本。本文首先研究了当步长趋于0时,用SDE逼近离散格式的质量。然后,在值(F(X_t)-F^*)上给出了新的渐近界,其中,当(F\)是凸的且在噪声的可积条件下,(X_t\)是SDE和(F^*=min F\的解。在两组假设下给出了结果:首先考虑(mathcal{C}^2)和凸函数,然后加上(F)的一些几何性质。所有这些结果都提供了关于这些惯性和扰动算法在随机算法设置中的行为的见解。

MSC公司:

30日第10天 用级数和积分表示一个复变量的整函数
34F05型 常微分方程和随机系统
65K10码 数值优化和变分技术
90C25型 凸面编程
90立方 非线性规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Apidopoulos,V.、Aujol,J.-F.、Dossal,C.和Rondepierre,A.,增长和平坦条件下惯性梯度下降算法的收敛速度,数学。程序。,187(2021),第151-193页·兹比尔1465.90062
[2] Attouch,H.、Bolt,J.、Redont,P.和Soubeyran,A.,非凸问题的近似交替最小化和投影方法:基于Kurdyka-Łojasiewicz不等式的方法,数学。操作。研究,35(2010),第438-457页·Zbl 1214.65036号
[3] Attouch,H.、Cabot,A.、Chbani,Z.和Riahi,H.,《带扰动的惯性前向后退算法:Tikhonov正则化的应用》,J.Optim。理论应用。,179(2018),第1-36页·Zbl 1417.90114号
[4] Attouch,H.、Chbani,Z.、Peypouquet,J.和Redont,P.,《惯性动力学和具有渐近消失粘性的算法的快速收敛》,数学。程序。,168(2018),第123-175页·Zbl 1395.34068号
[5] Aujol,J.-F.和Dossal,C.,与快速梯度下降格式相关的ODE的最佳收敛速度,https://inria.hal.science/hal-01547251/document(英文), 2017.
[6] Aujol,J.-F.,Dossal,C.和Rondepierre,A.,Nesterov加速度的最佳收敛速度,SIAM J.Optim。,29(2019),第3131-3153页·Zbl 1453.90117号
[7] Bolt,J.,Danilidis,A.和Lewis,A.,非光滑子分析函数的Łojasiewicz不等式及其在次梯度动力系统中的应用,SIAM J.Optim。,17(2007),第1205-1223页·Zbl 1129.26012号
[8] Bolte,J.,Danilidis,A.,Ley,O.和Mazet,L.,Łojasewicz不等式的刻画:次梯度流,talweg,凸性,Trans。阿米尔。数学。Soc.,362(2010),第3319-3363页·Zbl 1202.26026号
[9] Bolt,J.、Nguyen,T.、Peypouquet,J.和Suter,B.,《凸函数的一阶下降法从误差界到复杂性》,数学。程序。,165(2017),第471-507页·Zbl 1373.90076号
[10] Bottou,L.、Curtis,F.E.和Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60(2018),第223-311页,doi:10.1137/16M1080173·Zbl 1397.65085号
[11] Cabot,A.、Engler,H.和Gadat,S.,关于具有渐近小耗散的二阶微分方程的长时间行为,Trans。阿米尔。数学。Soc.,361(2009),第5983-6017页·Zbl 1191.34078号
[12] Garrigos,G.、Rosasco,L.和Villa,S.,前向后退算法的收敛性:借助几何超越最坏情况,数学。程序。,198(2023),第937-996页·Zbl 1512.90166号
[13] Iserles,A.,《微分方程数值分析第一课程》,剑桥大学出版社,剑桥,1996年。
[14] Laborde,M.和Oberman,A.M.,Nesterov的降低学习率的方法导致加速随机梯度下降,https://arxiv.org/abs/1908.07861, 2020.
[15] Li,Q.,Tai,C.和E,W.,《随机修正方程和自适应随机梯度算法》,第34届国际机器学习会议论文集,Precup,D.和Teh,Y.W.,eds.,2017年,第2101-2110页,http://proceedings.mlr.press/v70/li17f.html。
[16] Łojasiewicz,S.,Une propriétét e topologique des sous-ensemples analytiques reéels,收录于《巴黎地区方程》(巴黎,1962),巴黎国家科学研究中心条件,1963年,第87-89页·Zbl 0234.57007号
[17] Łojasiewicz,S.,Sur la géométrie semi-et sous-analizique,《傅里叶学会年鉴》(Grenoble),43(1993),第1575-1595页·Zbl 0803.32002号
[18] Lord,G.J.、Powell,C.E.和Shardlow,T.,《计算随机偏微分方程导论》,剑桥大学出版社,剑桥,2014年,doi:10.1017/CBO9781139017329·Zbl 1327.60011号
[19] Mertikopoulos,P.和Staudigl,M.,关于具有噪声梯度输入的类梯度流的收敛性,SIAM J.Optim。,28(2018),第163-197页·Zbl 1387.90187号
[20] Nesterov,Y.,求解具有收敛速度的凸规划问题的一种方法(o(frac{1}{k^2}),Dokl。阿卡德。Nauk SSSR,269(1983),第543-547页·Zbl 0535.90071号
[21] Oguntuase,J.A.,《关于Gronwall的一个不等式》,J.Inequal。纯应用程序。数学。,2 (2001). ·Zbl 0972.26011号
[22] Oksendal,B.,《随机微分方程:应用简介》,Springer-Verlag,柏林,1992年·兹比尔074760052
[23] Polyak,B.,加速迭代法收敛的一些方法,计算。数学。数学。物理。,4(1964年),第1-17页·Zbl 0147.35301号
[24] Sebbouh,O.、Dossal,C.和Rondepierre,A.,几何条件和扰动下阻尼惯性动力学的收敛速度,SIAM J.Optim。,30(2020年),第1850-1877页·Zbl 1453.34076号
[25] Shi,B.,Du,S.,Su,W.和Jordan,M.,通过高分辨率微分方程的辛离散化加速,《神经信息处理系统进展学报》,第32卷,2019年;也可从以下网址在线获取https://proceedings.neurips.cc/paper/2019/file/a9986cb066812f440bc2bb6e3c13696c-paper.pdf。
[26] Shi,B.,Du,S.,Su,W.和Jordan,M.,通过高分辨率微分方程理解加速度现象,数学。程序。,195(2022),第79-148页·Zbl 1500.65026号
[27] Soto,R.M.、Fadili,J.和Attouch,H.,随机凸优化的SDE观点,https://arxiv.org/abs/2207.02750, 2022.
[28] Su,W.,Boyd,S.,and Candes,E.J.,《Nesterov加速梯度法建模微分方程:理论与见解》,J.Mach。学习。决议,17(2016),第1-43页·Zbl 1391.90667号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。