×

随机梯度MCMC的有效且可推广的调整策略。 (英语) Zbl 1517.62011年

摘要:随机梯度马尔可夫链蒙特卡罗(SGMCMC)是一类流行的可扩展贝叶斯推理算法。然而,这些算法包括超参数,如步长或批量大小,这些超参数会影响基于获得的后验样本的估计值的准确性。因此,这些超参数必须由从业者进行调整,目前还没有原则性的自动调整方法。基于接受率的标准马尔可夫链蒙特卡罗调整方法不能用于SGMCMC,因此需要替代工具和诊断。我们提出了一种新的基于盗贼的算法,该算法通过最小化真实后验值与其蒙特卡罗近似值之间的Stein差异来调整SGMCMC超参数。我们提供了支持这种方法的理论结果,并评估了各种基于斯坦因的差异。我们通过在模拟数据集和实际数据集上的实验来支持我们的结果,并发现该方法适用于广泛的应用。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德里厄,C。;Thoms,J.,自适应MCMC教程,统计计算。,18, 4, 343-373 (2008) ·doi:10.1007/s11222-008-9110-y
[2] Audibert,J.Y.,Bubeck,S.,Munos,R.:多武器匪徒的最佳武器识别。收录于:COLT,第41-53页(2010年)
[3] 贝克,J。;费恩黑德,P。;Fox,EB,随机梯度MCMC的控制变量,统计计算。,29, 3, 599-615 (2019) ·Zbl 1430.62265号 ·doi:10.1007/s11222-018-9826-2
[4] Bingham,E.,Chen,J.P.,Jankowiak,M.:等人。Pyro:深度通用概率规划。arXiv预印arXiv:1810.09538(2018)
[5] Brosse,N.、Durmus,A.、Moulines等:随机梯度朗之万动力学的承诺和陷阱。在:《神经信息处理系统的进展》,第8278-8288页(2018)
[6] Bubeck,S.,Cesa-Bianchi,N.:随机和非随机多武器强盗问题的后悔分析(2012)arXiv预印本arXiv:1204.5721·Zbl 1281.91051号
[7] Chen,C.,Carlson,D.,Gan,Z.等。弥合随机梯度MCMC和随机优化之间的差距。摘自:《人工智能与统计》,第1051-1060页(2016年)
[8] Chen,T.,Fox,E.,Guestrin,C.:随机梯度Hamilton Monte Carlo。摘自:国际机器学习会议,第1683-1691页(2014)
[9] Chwialkowski,K.,Strathmann,H.,Gretton,A.:拟合优度的核心测试。摘自:机器学习国际会议,第2606-2615页(2016年)
[10] 库伦,J。;Nemeth,C.,SGMCMCJax:随机梯度马尔可夫链蒙特卡罗算法的轻量级JAX库,J.开源软件。,7, 72, 4113 (2022) ·doi:10.21105/joss.04113
[11] Ding,N.,Fang,Y.,Babbush,R.:等人使用随机梯度恒温器进行贝叶斯采样。摘自:神经信息处理系统进展,第3203-3211页(2014a)
[12] Ding,N.,Fang,Y.,Babbush,R.等人使用随机梯度恒温器进行贝叶斯采样。收录于:Ghahramani Z、Welling M、Cortes C等(编辑)《神经信息处理系统进展》,第27卷。Curran Associates,Inc(2014年b)https://proceedings.neurips.cc/paper/2014/file/21f5b8ba755eeaece7a4508498776228-paper.pdf
[13] Gelman,A。;吉尔克斯,WR;Roberts,GO,随机行走都市算法的弱收敛性和最优尺度,Ann.Appl。概率。,7, 1, 110-120 (1997) ·Zbl 0876.60015号 ·doi:10.1214/aoap/1034625254
[14] Gong,W.,Li,Y.,Hernández-Lobato,J.M.:切片核化Stein差异。CoRR abs/2006.16531。(2020) https://arxiv.org/abs/2006.16531
[15] Gorham,J.,Mackey,L.:用Stein方法测量样品质量。摘自:《神经信息处理系统进展》,第226-234页(2015年)
[16] Gorham,J.,Mackey,L.:用果仁测量样品质量。摘自:第34届机器学习国际会议论文集——第70卷,JMLR。org,第1292-1301页(2017)
[17] Gorham,J.,Raj,A.,Mackey,L.:随机Stein差异。(2020)arXiv预印本arXiv:2007.02857
[18] Guo,C.,Pleiss,G.,Sun,Y.等。关于现代神经网络的校准。收录:Precup,D.,Teh,Y.W.(编辑)《第34届国际机器学习大会论文集》,《机器学习研究论文集》,第70卷。第1321-1330页(2017年)http://proceedings.mlr.press/v70/guo17a.html
[19] Harper,F.M.,Konstan,J.A.:电影数据集:历史与背景5(4)。(2015)doi:10.1145/2827872
[20] 医学博士霍夫曼;Gelman,A.,《无转取样器:哈密顿蒙特卡罗自适应设置路径长度》,J.Mach。学习。第15号、第1号、第1593-1623号决议(2014年)·Zbl 1319.60150号
[21] Izmailov,P.,Vikram,S.,Hoffman,M.D.等人:贝叶斯神经网络后验真的是什么样的?(2021)arXiv预打印arXiv:210414421
[22] Jamieson,K.,Talwalkar,A.:非随机最佳臂识别和超参数优化。摘自:《人工智能与统计》,第240-248页(2016年)
[23] Jitkrittum,W.、Xu,W.和Szabó,Z.等人。线性时间核优度检验。(2017)arXiv预印arXiv:1705.07673
[24] Karnin,Z.,Koren,T.,Somekh,O.:在多武装匪徒中进行几乎最优的探索。摘自:机器学习国际会议,第1238-1246页(2013)
[25] Kim,S.,Song,Q.,Liang,F.:具有自适应漂移的随机梯度朗之万动力学算法。(2020)arXiv预印arXiv:2009.09535·Zbl 07497845号
[26] Lakshminarayanan,B.,Pritzel,A.,Blundell,C.:使用深度集合进行简单且可扩展的预测不确定性估计。收录:Guyon,I.、Luxburg,U.V.、Bengio,S.等(编辑)《神经信息处理系统进展》,第30卷。Curran Associates,Inc.(2017年)https://proceedings.neurips.cc/paper/2017/file/9ef2ed4b7fd2c810847ffa5fa85bce38-paper.pdf
[27] Lattimore,T。;Szepesvári,C.,Bandit Algorithms(2020),剑桥:剑桥大学出版社,剑桥·Zbl 1439.68002号 ·doi:10.1017/9781108571401
[28] LeCun,Y.,Cortes,C.:MNIST手写数字数据库(2010年)。http://yann.lecun.com/exdb/mnist/
[29] Leimkuhkler,B。;肖成,S.,《噪声梯度系统的自适应恒温器》,SIAM J.Sci。计算。,38、2、A712-A736(2016)·Zbl 1382.65019号 ·数字对象标识码:10.1137/15M102318X
[30] Li,C.,Chen,C.,Carlson,D.等人。深度神经网络的预处理随机梯度Langevin动力学。摘自:AAAI人工智能会议记录(2016年)
[31] Liu,Q.,Lee,J.,Jordan,M.:质量测试的核心stein差异。摘自:机器学习国际会议,第276-284页(2016)
[32] Ma,Y.A.,Chen,T.,Fox,E.:随机梯度MCMC的完整配方。摘自:《神经信息处理系统进展》,第2917-2925页(2015年)
[33] Nemeth,C.,Fearnhead,P.:随机梯度马尔可夫链蒙特卡罗。《美国统计协会期刊》,第1-18页(2020年)·Zbl 1457.62024号
[34] Phan,D.,Pradhan,N.,Jankowiak,M.:numpyro中灵活和加速概率规划的合成效应。(2019)arXiv预印本arXiv:1912.11554
[35] 皮莱,NS;斯图亚特,AM;Thiéry,AH,《高维Langevin算法的最佳缩放和扩散极限》,Ann.Appl。概率。,22, 6, 2320-2356 (2012) ·兹比尔1272.60053 ·doi:10.1214/11-AAP828
[36] 罗伯茨,GO;Rosenthal,JS,《Langevin扩散离散近似的最佳缩放》,J.R.Stat.Soc.:Ser。B(Stat.Methodol.),第60、1、255-268页(1998年)·Zbl 0913.60060号 ·doi:10.1111/1467-9868.00123
[37] 罗伯茨,GO;Tweedie,RL,Langevin分布及其离散近似的指数收敛性,Bernoulli,2,4,341-363(1996)·Zbl 0870.60027号 ·doi:10.2307/3318418
[38] Salakhutdinov,R.,Mnih,A.:使用马尔可夫链蒙特卡罗的贝叶斯概率矩阵分解。摘自:《第25届机器学习国际会议论文集》,ACM,第880-887页(2008年)
[39] Serfling,RJ,《数理统计近似定理》(2009),伦敦:威利出版社,伦敦·Zbl 1001.62005号
[40] Slivkins,A.:多武器匪徒简介(2019年)。arXiv预打印arXiv:1904.07272·Zbl 1478.68006号
[41] Vihola,M.,具有强制接受率的鲁棒自适应Metropolis算法,统计计算。,22, 5, 997-1008 (2012) ·Zbl 1252.65024号 ·doi:10.1007/s11222-011-9269-5
[42] Welling,M.,Teh,Y.W.:通过随机梯度Langevin动力学进行贝叶斯学习。摘自:《第28届机器学习国际会议(ICML)论文集》,第681-688页(2011年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。