×

关于具有相互作用粒子的随机镜像下降:收敛特性和方差减少。 (英语) Zbl 1498.90155号

优化模型通常包含函数的噪声估计,这有助于将波动控制在真正的最小值附近。控制误差的传统方法是减小步长。另一种选择是运行算法的独立副本。这些运行中的每一个都被称为粒子。本文讨论的问题是,允许这些粒子相互作用是否有益,并使用随机镜像下降(SMD)的一般框架研究这个问题。主要关注带相互作用粒子的随机镜像下降(ISMD)的收敛特性,演示ISMD在实践中的性能,以及在各种示例中演示相互作用对减小方差的影响。理论和数值证据表明,相互作用有助于提高收敛性和减少估计方差。

MSC公司:

90C25型 凸面编程

软件:

传奇
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Gower,R.M。;Loizou,北卡罗来纳州。;钱,X。;塞兰巴耶夫,A。;Shulgin,E。;Richtárik,P.,SGD:一般分析和改进率(2019年),arXiv预印本arXiv:1901.09401
[2] Mertikopoulos,P。;Staudigl,M.,关于带噪声梯度输入的类梯度流的收敛性,SIAM J.Optim。,28, 1, 163-197 (2018) ·Zbl 1387.90187号
[3] Mertikopoulos,P。;Staudigl,M.,随机镜像下降动力学及其在单调变分不等式中的收敛性,J.Optim。理论应用。,179, 3, 838-867 (2018) ·Zbl 1402.90122号
[4] Smith,S.L.公司。;Kinderman,P.-J。;Ying,C。;Le,Q.V.,《不要降低学习率,增加批量大小》(2017),arXiv预印本arXiv:1711.00489
[5] Nemirovsky,A.S。;尤丁,D.B.,优化中的问题复杂性和方法效率(1983)·兹比尔0501.90062
[6] Beck,A.,优化中的一阶方法,第25卷(2017),SIAM·Zbl 1384.65033号
[7] Needell,D。;Ward,R。;Srebro,N.,《随机梯度下降、加权采样和随机Kaczmarz算法》,(神经信息处理系统进展(2014)),1017-1025
[8] 约翰逊,R。;Zhang,T.,使用预测方差减少加速随机梯度下降,(神经信息处理系统进展(2013)),315-323
[9] 德法齐奥,A。;巴赫,F。;Lacoste-Julien,S.,SAGA:支持非强凸复合目标的快速增量梯度法,(神经信息处理系统进展(2014)),1646-1654
[10] Gorbunov,E。;Hanzely,F。;Richtárik,P.,SGD的统一理论:方差减少、采样、量化和坐标下降(2019),arXiv预印本arXiv:1905.11261
[11] W.克里钦。;Bartlett,P.L.,随机镜像下降动力学中的加速和平均(2017),arXiv预印本arXiv:1707.06219
[12] P.Xu,T.Wang,Q.Gu,《加速随机镜像下降:从连续时间动力学到离散时间算法》,载于:国际人工智能与统计会议(AISTATS),2018年。
[13] Raginsky,M。;Bouvrie,J.,《网络上的连续时间随机镜像下降:方差减少、一致性、收敛性》,(2012年IEEE第51届IEEE决策与控制会议,2012年IEEE第51届决策与控制大会,CDC(2012),IEEE),6793-6800
[14] 杜奇,J.C。;阿加瓦尔,A。;Wainwright,M.J.,《分布式优化的双重平均:收敛分析和网络缩放》,IEEE Trans。自动。控制,57,3,592-606(2011)·Zbl 1369.90156号
[15] 林,P。;Ren,W。;Farrell,J.A.,《分布式连续时间优化:非均匀梯度增益、有限时间收敛和凸约束集》,IEEE Trans。自动化。控制,62,52239-2253(2016)·兹比尔1366.90201
[16] 沙赫拉穆尔,S。;Jadbabaie,A.,使用镜像下降的动态环境中的分布式在线优化,IEEE Trans。自动化。控制,63,3,714-725(2017)·Zbl 1390.90125号
[17] 科洛斯科娃,A。;Stich,美国。;Jaggi,M.,带压缩通信的分散随机优化和八卦算法(2019),arXiv预印本arXiv:1902.00340
[18] 希曼,K。;巴赫,F。;布贝克,S。;Lee,Y.T。;Massoulié,L.,网络中光滑和强凸分布优化的优化算法,(第34届机器学习国际会议论文集,第70卷(2017),JMLR。org),电话:3027-3036
[19] Belykh,V.N。;I.V.Belykh。;Hasler,M.,同步耦合混沌系统的连接图稳定性方法,物理D:非线性现象。,195, 1-2, 159-187 (2004) ·Zbl 1098.82622号
[20] Shi,G。;Proutiere,A。;Johansson,K.H.,凸性网络同步,SIAM J.Control Optim。,53, 6, 3562-3583 (2015) ·Zbl 1327.93222号
[21] 于伟(Yu,W.)。;陈,G。;Cao,M.,《非线性动力学有向代理网络共识》,IEEE Trans。自动化。控制,56,6,1436-1441(2011)·Zbl 1368.93015号
[22] 于伟(Yu,W.)。;曹,J。;陈,G。;卢,J。;Han,J。;Wei,W.,复杂网络模型的本地同步,IEEE Trans。系统。人类网络。B、 39、1、230-241(2008)
[23] 于伟(Yu,W.)。;曹,J。;Lü,J.,具有时变延迟的线性混合耦合网络的全局同步,SIAM J.Appl。动态。系统。,7, 1, 108-133 (2008) ·Zbl 1161.94011号
[24] 谢永平。;卡维斯,A。;罗兰,P。;Cevher,V.,镜像Langevin动力学,(神经信息处理系统进展(2018)),2878-2887
[25] 贝克,J。;费恩黑德,P。;福克斯,E。;Nemeth,C.,概率单纯形的大尺度随机抽样,(神经信息处理系统进展(2018)),6721-6731
[26] 横滨,S。;大冢,T。;Sato,I.,关于随机梯度MCMC中的变换(2019),arXiv预印本arXiv:1903.02750
[27] 马,Y.-A。;陈,Y。;Jin,C。;弗拉马利翁,N。;Jordan,M.I.,《采样可能比优化更快》,Proc。国家。阿卡德。科学。,116、42、第20881-20885条(2019年)·Zbl 1433.68397号
[28] Bakry,D.,关于马尔可夫半群的Sobolev不等式和对数Soboleve不等式,新趋势Stoch。分析。,43-75(1997),(查林沃思,1994)
[29] Bakry,D。;Gentil,I。;Ledoux,M.,《马尔可夫扩散算子的分析与几何》,第348卷(2013),施普林格科学与商业媒体
[30] Malrieu,F.,一些非线性偏微分方程的对数Sobolev不等式,Stoch。过程。申请。,95, 1, 109-132 (2001) ·Zbl 1059.60084号
[31] Veretennikov,A.,关于McKean-Vlasov随机方程的遍历测度,(蒙特卡罗和准蒙特卡罗方法2004(2006),Springer),471-486·Zbl 1098.60056号
[32] Nesterov,Y.,《凸优化讲座》,第137卷(2018),Springer·兹比尔1427.90003
[33] Bubeck,S.,《凸优化:算法和复杂性》(2014),arXiv预打印arXiv:1405.4980
[34] Pettersson,R.,凸约束随机微分方程的投影格式,随机过程。申请。,88, 1, 125-134 (2000) ·兹比尔1045.60062
[35] Storm,A.,带凸约束的随机微分方程,Stoch。斯托克。代表,53,3-4,241-274(1995)·Zbl 0854.60053号
[36] Pavliotis,G.A.,《随机过程和应用:扩散过程,福克-普朗克和朗之万方程》,第60卷(2014年),斯普林格出版社·Zbl 1318.60003号
[37] Wilson,A.,Lyapunov Arguments in Optimization(2018),加州大学:加州大学伯克利分校
[38] Q.Li,C.Tai,E.Weinan,《随机修正方程和自适应随机梯度算法》,载《机器学习国际会议》,2017年,第2101-2110页。
[39] 李强。;Tai,C。;Weinan,E.,随机修正方程与随机梯度算法动力学I:数学基础。,J.马赫。学习。决议,20(2019),40-1·Zbl 1484.62106号
[40] Mandt,S。;医学博士霍夫曼。;Blei,D.M.,《随机梯度下降作为近似贝叶斯推断》,J.Mach。学习。研究,18,1,4873-4907(2017)·Zbl 1442.62055号
[41] 梅斯巴希,M。;Egerstedt,M.,《多智能体网络中的图论方法》(2010),普林斯顿大学出版社·Zbl 1203.93001号
[42] M.Raginsky,A.Rakhlin,M.Telgarsky,通过随机梯度的非凸学习Langevin动力学:非共振分析,载于:学习理论会议,2017年,第1674-1703页。
[43] Shi,B。;苏·W·J。;Jordan,M.I.,《学习率与薛定谔算子》(2020),arXiv预印本arXiv:2004.06977
[44] 朱,Z。;吴杰。;Yu,B。;Wu,L。;Ma,J.,随机梯度下降中的各向异性噪声:其逃避极小值和正则化效应的行为(2018),arXiv预印本arXiv:1803.00195
[45] Helffer,B.,关于相关性衰减和Witten-Laplacians Brascamp-Lieb不等式和半经典极限的评论,J.Funct。分析。,155, 2, 571-586 (1998) ·Zbl 0921.35141号
[46] 张,S。;Choromanska,A.E。;LeCun,Y.,利用弹性平均值进行深度学习SGD,(神经信息处理系统进展(2015)),685-693
[47] 博伊德,S。;Diaconis,P。;肖,L.,图上最快混合马尔可夫链,SIAM Rev.,46,4,667-689(2004)·Zbl 1063.60102号
[48] A.Borovykh,P.Parpas,N.Kantas,G.Pavliotis,互动与否?交互随机镜像下降的收敛特性,载于:国际机器学习会议(ICML)关于“机器学习系统中超越一阶方法”的研讨会,2020。
[49] 马利厄,F。;Talay,D.,Euler格式的集中不等式,(蒙特卡罗和准蒙特卡罗方法2004(2006),Springer),355-371·Zbl 1097.65012号
[50] Ledoux,M.,《测度集中与对数Sobolev不等式》(Seminaire de Probabilites XXXII(1999),Springer),120-216·Zbl 0957.60016号
[51] 奥托,F。;Villani,C.,Talagrand对不等式的推广以及与对数Sobolev不等式的联系,J.Funct。分析。,173, 2, 361-400 (2000) ·Zbl 0985.58019号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。