×

高阶朗之万扩散产生了一种加速的MCMC算法。 (英语) Zbl 07370559号

摘要:我们提出了一种基于三阶Langevin动力学的马尔可夫链蒙特卡罗(MCMC)算法,用于从具有平滑对数凹密度的分布中采样。高阶动力学允许更灵活的离散化方案,我们开发了一种将分裂与更精确的积分相结合的特定方法。对于广义线性模型产生的一大类(d)维分布,我们证明了由此产生的三阶算法从距离目标分布(O左(frac{d^{1/4}}{varepsilon{1/2}}右)步的Wasserstein距离中最多为(varepsilen>0)的分布中产生样本。这个结果只需要梯度上的Lipschitz条件。对于具有α阶光滑性的一般强凸势,我们证明了混合时间标度为(O左(frac{d^{1/4}}{varepsilon^{1/2}}+frac{d_{1/2{}}{varepsilen^{1/(alpha-1)}}右))。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] A.Abdulle、G.Vilmart和K.C.Zygalakis。朗之万动力学李-转子分裂方法的长时间精度。SIAM J.数字。分析。,53(1):1-16, 2015. ·Zbl 1327.65015号
[2] N.Bou-Rabee、A.Eberle和R.Zimmer。哈密顿蒙特卡罗的耦合与收敛。附录申请。概率。,30(3):1209-1250, 06 2020. doi:10.1214/19-AAP1528·兹伯利07325608
[3] A.A.Brown和M.C.Bartholomew-Biggs。基于常微分方程组解的无约束优化的一些有效方法。J.Optimiz·Zbl 0651.90067号
[4] Y.Cao、J.Lu和L.Wang。欠阻尼langevin动力学随机算法的复杂性。arXiv预印本arXiv:2003.099062020。
[5] N.Chatterji、N.Flammarion、Y.A.Ma、P.Bartlett和M.Jordan。关于随机梯度蒙特卡罗的方差约简理论。第35届国际会议记录
[6] Y.Chen、R.Dwivedi、M.J.Wainwright和B.Yu。都市哈密顿蒙特卡罗快速混合:多步梯度的优点。机器学习研究杂志,第页·Zbl 1502.62030
[7] X.Cheng和P.L.Bartlett。Langevin MCMC在KL发散中的收敛性。第29届算法学习理论国际会议(ALT)论文集,186-211页·Zbl 1406.60114号
[8] X.Cheng、N.S.Chatterji、Y.Abbasi-Yadkori、P.L.Bartlett和M.I.Jordan。非凸环境中Langevin动力学的尖锐收敛速度。arXiv:1805.016482018a。
[9] X.Cheng、N.S.Chatterji、P.L.Bartlett和M.I.Jordan。欠阻尼Langevin MCMC:非渐近分析。《第31届学习理论会议论文集》,第300-323页,2018b。
[10] A.S.达拉扬。平滑密度和对数曲线密度近似采样的理论保证。J.Royal Stat.Soc.B,79(3):651-6762017年·Zbl 1411.62030号
[11] A.S.Dalalyan和A.G.Karagulyan。用户友好的保证,朗之万蒙特卡罗的梯度不准确。随机过程。申请。,2019年·Zbl 1428.62316号
[12] A.S.Dalalyan和L.Riou-Durand。使用动力学朗之万扩散从对数曲线密度取样。伯努利,26(3):1956-19882020·Zbl 07193949号
[13] A.Durmus和E.Moulines。基于未调整Langevin算法的高维贝叶斯推理。伯努利,25(4A):2854-28822019年·Zbl 1428.62111号
[14] R.Dwivedi、Y.Chen、M.J.Wainwright和B.Yu。对数压缩采样:Metropolis-Hastings算法速度很快。机器学习研究杂志,20(183):1-422019·Zbl 1440.62039号
[15] 勒杜(M.Ledoux)。马尔可夫扩散生成器的几何结构。Ann Fac Sci Toulouse Math,9(6):305-3662000年·Zbl 0980.60097号
[16] Y.-T.Lee、Z.Song和S.S.Vempala。常微分方程的算法理论和条件良好的对数凹密度抽样。arXiv:1812.062432018年。
[17] B.Leimkuhler和X.Shang。噪音梯度系统的自适应恒温器。SIAM J.科学。计算。,38(2):A712-A7362016年·Zbl 1382.65019号
[18] Y.-A.Ma、T.Chen和E.B.Fox。随机梯度MCMC的完整配方。在《神经信息处理系统进展28》(NIPS)中,第2899-2907页。2015
[19] Y.-A.Ma、E.B.Fox、T.Chen和L.Wu。跳跃和连续马尔可夫过程的不可逆采样器。统计计算。,2018年第1-26页。
[20] Y.-A.Ma、N.S.Chatterji、X.Cheng、N.Flamarion、P.L.Bartlett和M.I.Jordan。MCMC是否有Nesterov加速度的模拟?arXiv:1902.00996,2019a。
[21] Y.-A.Ma、Y.Chen、C.Jin、N.Flamarion和M.I.Jordan。采样可能比优化更快。《美国国家科学院院刊》,116(42):20881-208852019b·Zbl 1433.68397号
[22] O.Mangoubi和A.Smith。强对数凹分布上哈密顿蒙特卡罗的快速混合。arXiv:1708.07114,2017年。
[23] O.Mangoubi和N.K.Vishnoi。二阶哈密顿蒙特卡罗的维数紧运行时间界。神经信息处理系统(NeurIPS)进展
[24] R.M.尼尔。MCMC使用哈密顿动力学。《马尔可夫链蒙特卡罗手册》,54:113-1622010年。
[25] Y.内斯特罗夫。凸优化入门讲座:基础课程。Kluwer,波士顿,2004年·兹比尔1086.90045
[26] G.O.Roberts和J.S.Rosenthal。各种Metropolis-Hastings算法的最佳缩放。统计师。科学。,16(4):351-367, 2001. ·Zbl 1127.65305号
[27] R.Shen和Y.T.Lee。对数压缩抽样的随机中点法。《神经信息处理系统进展》,2019年第2098-2109页。
[28] B.Shi、S.S.Du、M.I.Jordan和W.J.Su。通过高分辨率微分方程了解加速度现象。arXiv预印本arXiv:1810.089072018。
[29] G.W.斯图尔特。研究生院后记:高级数值分析讲座,第58卷。暹罗,1998年·兹伯利0898.65001
[30] J.Stoer和R.Bulirsch。数值分析导论。施普林格,纽约,第三版,2002年·Zbl 1004.65001号
[31] W.Su、S.Boyd和E.Candes。Nesterov加速梯度法建模的微分方程:理论与见解。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger,神经信息处理进展编辑·Zbl 1391.90667号
[32] G.E.乌伦贝克和L.S.奥恩斯坦。关于布朗运动理论。物理学。修订版,36:823-8411930年·JFM 56.1277.03号机组
[33] C.维拉尼。最佳交通:新旧。维森沙芬。施普林格,柏林,2009年·Zbl 1156.53003号
[34] A.Wilson、B.Recht和M.I.Jordan。优化中动量方法的Lyapunov分析。arXiv:1611.026352016年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。