×

架起恒定步长随机梯度下降和马尔可夫链之间的桥梁。 (英语) Zbl 1454.62242号

本文讨论了一个强凸目标函数的最小化算法,该目标函数通过随机梯度下降法(SGD),也称为Robbins-Monro算法[H.罗宾斯S.蒙罗,安。数学。《美国联邦法律大全》第22卷,第400–407页(1951年;Zbl 0054.05901号)],步长不变。由于仅对二次函数进行了详细分析,作者提供了平均SGD迭代矩的显式渐近展开,概述了对初始条件的依赖性、噪声的影响和步长,以及在一般(非二次)情况下缺乏收敛性。该分析基于马尔可夫链理论中的随机梯度分析工具。据观察,Richardson-Romberg推断[G.帕格斯蒙特卡罗方法应用。第13期,第1期,第37–70页(2007年;Zbl 1119.65004号);N.Frikha公司L·黄,随机过程应用。125,编号114066–4101(2015年;Zbl 1336.60137号)]可用于接近全局最优值。给出了新外推方案的经验改进。
这个方法学问题对于大规模机器学习、优化和随机逼近中出现的不同实际任务很有意义。

MSC公司:

62L20型 随机近似
90立方厘米 随机规划
93E35型 随机学习与自适应控制
60J22型 马尔可夫链中的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdulle,A.、Vilmart,G.和Zygalakis,K.C.(2014)。遍历SDE不变测度的高阶数值逼近。SIAM J.数字。分析。52 1600-1622. ·兹比尔1310.65007 ·doi:10.1137/130935616
[2] Aguech,R.、Moulines,E.和Priouret,P.(2000)。关于随机跟踪算法分析的摄动方法。SIAM J.控制优化。39 872-899. ·Zbl 0972.60026号 ·doi:10.1137/S036301299833852
[3] 巴赫·F(2014)。逻辑回归的平均随机梯度下降对局部强凸性的适应性。J.马赫。学习。第15号决议595-627·Zbl 1318.62224号
[4] Bach,F.和Moulines,E.(2011年)。机器学习随机近似算法的非症状分析。神经信息处理系统进展(NIPS)451-459。
[5] Bach,F.和Moulines,E.(2013年)。具有收敛速度的非严格凸光滑随机逼近\(O(1/n)\)。神经信息处理系统(NIPS)进展。
[6] Benaim,M.(1996)。随机近似的动力系统方法。SIAM J.控制优化。34 437-472. ·Zbl 0841.62072号 ·doi:10.1137/S0363012993253534
[7] Benveniste,A.、Métiver,M.和Priouret,P.(1990年)。自适应算法和随机近似。数学应用(纽约)22。柏林施普林格。斯蒂芬·威尔逊(Stephen S.Wilson)译自法语·Zbl 0752.93073号
[8] Bertsekas,D.P.(1999)。非线性规划,第二版,雅典娜科学优化与计算系列。Athena Scientific,马萨诸塞州贝尔蒙特·Zbl 1015.90077号
[9] Bottou,L.和Bousquet,O.(2008)。大规模学习的权衡。神经信息处理系统(NIPS)进展。
[10] Bouton,C.和Pagès,G.(1997年)。关于常增益多维竞争学习矢量量化算法。Ann.应用。普罗巴伯。7 679-710. ·Zbl 0892.60082号 ·doi:10.1214/aoap/1034801249
[11] Chee,J.和Toulis,P.(2017年)。常步长随机梯度下降的收敛诊断。《国际人工智能与统计会议论文集》(AISTATS)。
[12] Chen,C.、Ding,N.和Carin,L.(2015)。具有高阶积分器的随机梯度MCMC算法的收敛性。神经信息处理系统进展(NIPS)2269-2277。
[13] Chen,X.、Lee,J.D.、Tong,X.T.和Zhang,Y.(2016)。随机梯度下降模型参数的统计推断。ArXiv预印本。可从ArXiv:1610.08637获得·Zbl 1440.62287号 ·doi:10.1214/18-AOS1801
[14] Dalalyan,A.S.(2017)。平滑密度和对数曲线密度近似采样的理论保证。J.R.统计社会服务。B.统计方法。79 651-676. ·Zbl 1411.62030号 ·doi:10.1111/rssb.12183
[15] Défossez,A.和Bach,F.(2015)。平均最小均方:偏方差权衡和最佳抽样分布。《国际人工智能与统计会议论文集》(AISTATS)。
[16] Dieuleveut,A.和Bach,F.(2016)。大步长非参数随机逼近。安。统计师。44 1363-1399. ·Zbl 1346.60041号 ·doi:10.1214/15-AOS1391
[17] Dieuleveut,A.、Durmus,A.和Bach,F.(2019年)。补充“弥合恒定步长随机梯度下降和马尔可夫链之间的差距”https://doi.org/10.1214/19-AOS1850SUPP。
[18] Dieuleveut,A.、Flamarion,N.和Bach,F.(2017年)。最小二乘回归的收敛速度更难、更好、更快、更强。J.马赫。学习。第18 101号决议·Zbl 1441.62215号
[19] Durmus,A.和Moulines,E。(2017). 未调整Langevin算法的非渐近收敛性分析。Ann.应用。普罗巴伯。27 1551-1587. ·Zbl 1377.65007号 ·doi:10.1214/16-AAP1238
[20] Durmus,A.、Simsekli,U.、Moulines,E.、Badeau,R.和Richard,G.(2016)。随机梯度Richardson-Romberg-Markov链Monte Carlo。神经信息处理系统进展2047-2055。
[21] Fort,J.-C.和Pagès,G.(1996年)。随机算法的收敛性:从Kushner-Clark定理到Lyapounov泛函方法。申请中的预付款。普罗巴伯。28 1072-1094之间·Zbl 0881.62085号 ·doi:10.2307/1428165
[22] Fort,J.-C.和Pagès,G.(1999)。常步长马尔可夫随机算法的渐近性。SIAM J.控制优化。37 1456-1482. ·Zbl 0954.60057号 ·doi:10.1137/S0363012997328610
[23] Freidlin,M.I.和Wentzell,A.D.(1998年)。动力系统的随机扰动,第2版,Grundlehren der Mathematischen Wissenschaften[数学科学基本原理]260。纽约州施普林格·Zbl 0922.60006号
[24] Glynn,P.W.和Meyn,S.P.(1996)。泊松方程解的Liapounov界。安·普罗巴伯。24 916-931. ·Zbl 0863.60063号 ·doi:10.1214/aop/1039639370
[25] Hartman,P.(2002)。常微分方程:第二版。应用数学经典38。宾夕法尼亚州费城SIAM。修正了第二版(1982)的再版【Birkhäuser,马萨诸塞州波士顿;MR0658490(83e:34002)】,由Peter Bates撰写前言·Zbl 1009.34001号
[26] He,K.,Zhang,X.,Ren,S.和Sun,J.(2016)。用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集770-778。
[27] Jain,P.、Kakade,S.M.、Kidambi,R.、Netrapali,P.和Sidford,A.(2018)。加速随机梯度下降。学习理论国际会议(COLT)论文集·Zbl 1469.68088号
[28] Jain,P.、Kakade,S.M.、Kidambi,R.、Netrapalli,P.和Sidford,A.(2017)。最小二乘回归随机梯度下降的并行化:微型平衡、平均和模型指定错误。J.马赫。学习。第18 223号决议·Zbl 1469.68088号
[29] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。神经信息处理系统进展(NIPS)1097-1105。
[30] Kushner,H.J.和Clark,D.S.(1978年)。约束和非约束系统的随机逼近方法。应用数学科学26。斯普林格,纽约-柏林·Zbl 0381.60004号
[31] Lan,G.(2012)。随机组合优化的一种优化方法。数学。程序。133 365-397. ·Zbl 1273.90136号 ·doi:10.1007/s10107-010-0434-y
[32] Levy,E.(2006)。为什么高阶导数的Faa di Bruno链式法则中会出现分割?技术报告0602183。
[33] Ljung,L.(1977年)。递归随机算法分析。IEEE传输。自动化。控制AC-22 551-575·Zbl 0362.93031号 ·doi:10.1109/TAC.1977.1101561
[34] Ljung,L.、Pflug,G.和Walk,H.(1992年)。随机系统的随机逼近与优化。DMV研讨会17。巴塞尔Birkhäuser·Zbl 0747.62090号
[35] Mandt,S.、Hoffman,M.和Blei,D.M.(2016)。随机梯度算法的变分分析。在国际机器学习会议354-363。
[36] Mandt,S.、Hoffman,M.D.和Blei,D.M.(2017)。随机梯度下降近似贝叶斯推理。J.马赫。学习。第18 134号决议·Zbl 1442.62055号
[37] J.C.马丁利、A.M.斯图亚特和D.J.海姆(2002)。SDE和近似的遍历性:局部Lipschitz向量场和退化噪声。随机过程。申请。101 185-232. ·兹比尔1075.60072 ·doi:10.1016/S0304-4149(02)00150-3
[38] Métiver,M.和Priouret,P.(1984)。Kushner和Clark引理在一般随机算法类中的应用。IEEE传输。通知。理论30 140-151·Zbl 0546.62056号 ·doi:10.1109/TIT.1984.1056894
[39] Métiver,M.和Priouret,P.(1987年)。收敛预示着将出现一类随机算法。普罗巴伯。理论相关领域74 403-428·Zbl 0588.62153号
[40] Meyn,S.和Tweedie,R.L.(2009年)。马尔可夫链与随机稳定性,第二版,剑桥大学出版社,剑桥·Zbl 1165.60001号
[41] Moulines,E.、Priouret,P.和Roueff,F.(2005年)。时变自回归过程的递推估计。安。统计师。33 2610-2654·Zbl 1084.62089号 ·doi:10.1214/009053605000000624
[42] Nedic,A.和Bertsekas,D.(2001年)。增量次梯度算法的收敛速度。《随机优化:算法和应用》(佛罗里达州盖恩斯维尔,2000年)。申请。最佳方案。54 223-264. 多德雷赫特Kluwer学院·Zbl 0984.90033号
[43] Needell,D.、Ward,R.和Srebro,N.(2014)。随机梯度下降、加权采样和随机Kaczmarz算法。神经信息处理系统进展,1017-1025·Zbl 1333.65070号 ·doi:10.1007/s10107-015-0864-7
[44] Nemirovski,A.、Juditsky,A.、Lan,G.和Shapiro,A.(2008)。随机规划的稳健随机逼近方法。SIAM J.Optim公司。19 1574-1609. ·Zbl 1189.90109号 ·doi:10.1137/070704277
[45] Nemirovsky,A.S.和Yudin,D.B.(1983年)。优化中的问题复杂性和方法效率。Wiley-Interscience出版物。纽约威利出版社,《威利-离散数学交叉科学丛书》(Wiley-Interscience Series in Discrete Mathematics),俄文译本,由E.R.Dawson作序·Zbl 0501.90062号
[46] Nesterov,Y.和Vial,J.-P.(2008)。随机规划的置信水平解。Automatica J.IFAC 44 1559-1568·兹比尔1283.93314 ·doi:10.1016/j.automatica.2008.01.017
[47] Pflug,G.C.(1986年)。恒定步长的随机最小化:渐近定律。SIAM J.控制优化。24 655-666. ·Zbl 0594.90089号 ·doi:10.1137/0324039
[48] Polyak,B.T.和Juditsky,A.B.(1992)。通过平均加速随机近似。SIAM J.控制优化。30 838-855. ·Zbl 0762.62022号 ·doi:10.1137/0330046
[49] Priouret,P.和Veretennikov,A.Y.(1998年)。关于LMS跟踪算法稳定性的备注。斯托克。分析。申请。16 119-129. ·Zbl 0907.93065号 ·doi:10.1080/0736299908809521
[50] Rakhlin,A.、Shamir,O.和Sridharan,K.(2011年)。使强凸随机优化的梯度下降最优。第29届机器学习国际会议论文集。
[51] Robbins,H.和Monro,S.(1951年)。一种随机近似方法。安。数学。统计数字22 400-407·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[52] Ruppert,D.(1988)。根据缓慢收敛的Robbins-Monro工艺技术报告进行的有效估算,康奈尔大学运筹与工业工程。
[53] Shalev Shwartz,S.、Shamir,O.、Srebro,N.和Sridharan,K.(2009年)。随机凸优化。学习理论国际会议(COLT)论文集。
[54] Shalev-Shwartz,S.、Singer,Y.和Srebro,N.(2007年)。Pegasos:SVM的原始估计亚GrAdient SOlver。《机器学习国际会议论文集》,ICML 807-814·Zbl 1211.90239号 ·doi:10.1007/s10107-010-0420-4
[55] Shamir,O.和Zhang,T.(2013)。非光滑优化的随机梯度下降:收敛结果和最优平均方案。机器学习国际会议论文集。
[56] Stoer,J.和Bulirsch,R.(2002年)。数值分析导论,第三版,应用数学课文12。纽约州施普林格·Zbl 1004.65001号
[57] Su,W.J.和Zhu,Y.(2018)。在线学习和随机近似的不确定性量化通过分层增量梯度下降。ArXiv预印本。可从ArXiv:1802.04876获得。
[58] Tadic,V.B.和Doucet,A.(2017年)。随机梯度搜索的渐近偏差。Ann.应用。普罗巴伯。27 3255-3304·Zbl 1387.49044号 ·doi:10.1214/16-AAP1272
[59] Talay,D.和Tubaro,L.(1990年)。随机微分方程数值格式的全局误差展开。斯托克。分析。申请。8 483-509. ·Zbl 0718.60058号 ·doi:10.1080/07362999008809220
[60] Villani,C.(2009年)。最佳交通:新旧。Grundlehren der Mathematischen Wissenschaften[数学科学基本原理]338。柏林施普林格·Zbl 1156.53003号
[61] Welling,M.和Teh,Y.W.(2011年)。通过随机梯度Langevin动力学进行贝叶斯学习。《机器学习国际会议论文集》(ICML)681-688。
[62] 朱,D·兹比尔0855.47043 ·doi:10.1137/S1052623494250415
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。