×

非凸优化中局部条件下随机梯度Langevin动力学的非渐近估计。 (英语) 兹比尔1512.90185

摘要:在本文中,我们对用于非凸优化的采样算法进行了非渐近分析。特别是,我们获得了一类称为随机梯度Langevin动力学(SGLD)的流行算法的Wasserstein-1和Wassersstein-2距离的非渐近估计。此外,上述Wasserstein-2收敛结果可用于建立预期超额风险的非渐近误差界。重要的是,这些结果是在局部Lipschitz条件和局部耗散条件下获得的,在这些条件下,我们消除了数据流中的一致依赖性。我们通过变分推理和索引跟踪优化的例子来说明这种松弛的重要性。

MSC公司:

90C26型 非凸规划,全局优化
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
60J22型 马尔可夫链中的计算方法
65二氧化碳 蒙特卡罗方法
65立方厘米 马尔可夫链的数值分析或方法
62D05型 抽样理论、抽样调查
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 黄,C-R,拉普拉斯方法重温:概率测度的弱收敛性,Ann.Probab。,8, 6, 1177-1182 (1980) ·Zbl 0452.60007号 ·doi:10.1214操作/1176994579
[2] Dalalyan,AS,《平滑密度和对数曲线密度近似采样的理论保证》,J.R.Stat.Soc.B,79,3,651-676(2017)·Zbl 1411.62030号 ·doi:10.1111/rssb.12183
[3] Durmus,A。;Moulines,E.,未调整Langevin算法的非渐近收敛性分析,Ann.Appl。可能性。,27, 3, 1551-1587 (2017) ·Zbl 1377.65007号 ·doi:10.1214/16-AAP1238
[4] Durmus,A。;Moulines,E.,通过未调整的Langevin算法进行高维贝叶斯推断,Bernoulli,25,4,2854-2882(2019)·Zbl 1428.62111号 ·doi:10.3150/18-BEJ1073
[5] 布罗斯,N。;Durmus,A。;Moulines女士。;Sabanis,S.,驯服的未调整Langevin算法,Stoch。过程。申请。,129, 10, 3638-3663 (2019) ·Zbl 07107458号 ·doi:10.1016/j.spa.2018.10.002
[6] Dalalyan,A.S.,Karagulyan,A.:对坡度不准确的朗之万蒙特卡罗的用户友好保证。斯托克。过程。申请。(2019年)·Zbl 1428.62316号
[7] Sabanis,S。;Zhang,Y.,高阶Langevin Monte Carlo算法,Electron。J.Stat.,13,2,3805-3850(2019年)·Zbl 1429.60006号 ·doi:10.1214/19-EJS1615
[8] Welling,M.,Teh,Y.W.:通过随机梯度Langevin动力学进行贝叶斯学习。摘自:第28届国际机器学习会议记录(ICML-11),第681-688页(2011)
[9] 巴克哈根,M。;新罕布什尔州洲;Moulines女士。;Rásonyi,M。;萨巴尼斯,S。;Zhang,Y.,关于对数凹情形下具有相依数据流的随机梯度langevin动力学,Bernoulli,27,1,1-33(2021)·Zbl 1475.60156号 ·doi:10.3150/19-BEJ1187
[10] Brosse,N.,Durmus,A.,Moulines,E.:随机梯度Langevin动力学的承诺和陷阱。摘自:《神经信息处理系统进展》,第8268-8278页(2018年)
[11] Dalalyan,A.:采样和优化之间更进一步、更强的类比:Langevin montecarlo和梯度下降。收录:Kale,S.,Shamir,O.(编辑)2017年学习理论会议论文集。机器学习研究论文集,第65卷,第678-689页。PMLR(2017)。https://proceedings.mlr.press/v65/dalalyan17a.html
[12] Raginsky,M.,Rakhlin,A.,Telgarsky,M.:通过随机梯度Langevin动力学的非凸学习:非共鸣分析。摘自:学习理论会议,第1674-1703页(2017)
[13] Xu,P.,Chen,J.,Zou,D.,Gu,Q.:基于Langevin动力学的非凸优化算法的全局收敛性。摘自:《神经信息处理系统进展》,第3122-3133页(2018年)
[14] 新罕布什尔州洲;Moulines女士。;Rásonyi,M。;Sabanis,S。;Zhang,Y.,《具有相依数据流的随机梯度Langevin动力学:完全非凸情形》,SIAM J.Math。数据科学。,3, 3, 959-986 (2021) ·Zbl 07419554号 ·doi:10.1137/20M1355392
[15] 埃伯勒,A。;吉林,A。;Zimmer,R.,扩散和McKean-Vlasov过程的定量Harris型定理,Trans。美国数学。Soc.,371,10,7135-7173(2019年)·Zbl 1481.60154号 ·doi:10.1090/tran/7576
[16] Cheng,X.,Chatterji,N.S.,Abbasi-Yadkori,Y.,Bartlett,P.L.,Jordan,M.I.:非凸环境中Langevin动力学的尖锐收敛速度。arXiv预印arXiv:1805.01648(2018)
[17] Majka,M.B.,Mijatović,A.,Szpruch,L.:无对数压缩的采样算法的非症状界。arXiv预印arXiv:1808.07105v3(2019)
[18] Eberle,A.,《扩散的反射耦合和收缩速率》,Probab。理论关联。菲尔德,166,3-4,851-886(2016)·兹伯利1367.60099 ·doi:10.1007/s00440-015-0673-1
[19] Erdogdu,M.A.,Mackey,L.,Shamir,O.:离散扩散的全局非凸优化。摘自:《神经信息处理系统进展》,第9671-9680页(2018年)
[20] Zheng,Y.,Chen,B.,Hospedales,T.M.,Yang,Y.:基数约束的指数跟踪:一种随机神经网络方法。摘自:《AAAI人工智能会议记录》,第34卷,第1242-1249页(2020年)
[21] 盖沃伦斯基,AA;Krylov,S。;Van der Wijst,N.,《最优投资组合选择和动态基准跟踪》,欧洲期刊Oper。第163号、第115-131号决议(2005年)·Zbl 1066.91040号 ·doi:10.1016/j.ejor.2003.12.001
[22] 温赖特,MJ;Jordan,MI,图形模型、指数族和变分推理,Found。Trends®马赫数。学习。,1, 1-2, 1-305 (2008) ·Zbl 1193.62107号
[23] Price,R.,具有高斯输入的非线性器件的一个有用定理,IRE-Trans。Inf.理论,4,2,69-72(1958)·Zbl 0108.30605号 ·doi:10.1109/TIT.1958.1057444
[24] Salimans,T。;Knowles,DA,通过随机线性回归的固定形式变分后验近似,贝叶斯分析。,8, 4, 837-882 (2013) ·Zbl 1329.62142号 ·doi:10.1214/13-BA858
[25] Kingma,D.P.,Welling,M.:自动编码变分贝叶斯。arXiv预印arXiv:1312.6114(2013)
[26] Rezende,D.J.,Mohamed,S.,Wierstra,D.:深度生成模型中的随机反向传播和近似推理。摘自:第31届国际机器学习会议论文集——第32卷。ICML’14,第1278-1286页。JMLR.org(2014)。http://dl.acm.org/citation.cfm?id=3044805.3045035
[27] 马丁利,J。;Stuart,A。;Higham,D.,SDE和近似的遍历性:局部Lipschitz向量场和退化噪声,Stoch。过程。申请。,101, 185-232 (2002) ·Zbl 1075.60072号 ·doi:10.1016/S0304-4149(02)00150-3
[28] Cox,S.,Hutzenthaler,M.,Jentzen,A.:非线性随机微分方程初值的局部lipschitz连续性和强完备性。arXiv预印本arXiv:1309.5595(2013)
[29] HN洲;库马尔,C。;Rásonyi,M。;Sabanis,S.,关于参数不连续的固定增益递归估计,ESAIM,23217-244(2019)·Zbl 1420.62359号 ·doi:10.1051/ps/2018019
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。