杰里米·库伦;南部,利亚;克里斯托弗·奈梅特 随机梯度MCMC的有效且可推广的调整策略。 (英语) Zbl 1517.62011年 统计计算。 33,第3号,第66号论文,18页(2023年). 摘要:随机梯度马尔可夫链蒙特卡罗(SGMCMC)是一类流行的可扩展贝叶斯推理算法。然而,这些算法包括超参数,如步长或批量大小,这些超参数会影响基于获得的后验样本的估计值的准确性。因此,这些超参数必须由从业者进行调整,目前还没有原则性的自动调整方法。基于接受率的标准马尔可夫链蒙特卡罗调整方法不能用于SGMCMC,因此需要替代工具和诊断。我们提出了一种新的基于盗贼的算法,该算法通过最小化真实后验值与其蒙特卡罗近似值之间的Stein差异来调整SGMCMC超参数。我们提供了支持这种方法的理论结果,并评估了各种基于斯坦因的差异。我们通过在模拟数据集和实际数据集上的实验来支持我们的结果,并发现该方法适用于广泛的应用。 MSC公司: 62-08 统计问题的计算方法 关键词:随机梯度;斯坦因差异;马尔科夫蒙特卡洛;超参数优化 软件:坚果;NumPyro编号;电影镜头;ramcmc公司;MNIST公司;烟火 PDF格式BibTeX公司 XML格式引用 \textit{J.Coullon}等人,《统计计算》。33,第3号,第66号论文,18页(2023;Zbl 1517.62011) 全文: 内政部 arXiv公司 OA许可证 参考文献: [1] 安德里厄,C。;Thoms,J.,自适应MCMC教程,统计计算。,18, 4, 343-373 (2008) ·doi:10.1007/s11222-008-9110-y [2] Audibert,J.Y.,Bubeck,S.,Munos,R.:多武器匪徒的最佳武器识别。收录于:COLT,第41-53页(2010年) [3] 贝克,J。;费恩黑德,P。;Fox,EB,随机梯度MCMC的控制变量,统计计算。,29, 3, 599-615 (2019) ·Zbl 1430.62265号 ·doi:10.1007/s11222-018-9826-2 [4] Bingham,E.,Chen,J.P.,Jankowiak,M.:等人。Pyro:深度通用概率规划。arXiv预印arXiv:1810.09538(2018) [5] Brosse,N.、Durmus,A.、Moulines等:随机梯度朗之万动力学的承诺和陷阱。在:《神经信息处理系统的进展》,第8278-8288页(2018) [6] Bubeck,S.,Cesa-Bianchi,N.:随机和非随机多武器强盗问题的后悔分析(2012)arXiv预印本arXiv:1204.5721·Zbl 1281.91051号 [7] Chen,C.,Carlson,D.,Gan,Z.等。弥合随机梯度MCMC和随机优化之间的差距。摘自:《人工智能与统计》,第1051-1060页(2016年) [8] Chen,T.,Fox,E.,Guestrin,C.:随机梯度Hamilton Monte Carlo。摘自:国际机器学习会议,第1683-1691页(2014) [9] Chwialkowski,K.,Strathmann,H.,Gretton,A.:拟合优度的核心测试。摘自:机器学习国际会议,第2606-2615页(2016年) [10] 库伦,J。;Nemeth,C.,SGMCMCJax:随机梯度马尔可夫链蒙特卡罗算法的轻量级JAX库,J.开源软件。,7, 72, 4113 (2022) ·doi:10.21105/joss.04113 [11] Ding,N.,Fang,Y.,Babbush,R.:等人使用随机梯度恒温器进行贝叶斯采样。摘自:神经信息处理系统进展,第3203-3211页(2014a) [12] Ding,N.,Fang,Y.,Babbush,R.等人使用随机梯度恒温器进行贝叶斯采样。收录于:Ghahramani Z、Welling M、Cortes C等(编辑)《神经信息处理系统进展》,第27卷。Curran Associates,Inc(2014年b)https://proceedings.neurips.cc/paper/2014/file/21f5b8ba755eeaece7a4508498776228-paper.pdf [13] Gelman,A。;吉尔克斯,WR;Roberts,GO,随机行走都市算法的弱收敛性和最优尺度,Ann.Appl。概率。,7, 1, 110-120 (1997) ·Zbl 0876.60015号 ·doi:10.1214/aoap/1034625254 [14] Gong,W.,Li,Y.,Hernández-Lobato,J.M.:切片核化Stein差异。CoRR abs/2006.16531。(2020) https://arxiv.org/abs/2006.16531 [15] Gorham,J.,Mackey,L.:用Stein方法测量样品质量。摘自:《神经信息处理系统进展》,第226-234页(2015年) [16] Gorham,J.,Mackey,L.:用果仁测量样品质量。摘自:第34届机器学习国际会议论文集——第70卷,JMLR。org,第1292-1301页(2017) [17] Gorham,J.,Raj,A.,Mackey,L.:随机Stein差异。(2020)arXiv预印本arXiv:2007.02857 [18] Guo,C.,Pleiss,G.,Sun,Y.等。关于现代神经网络的校准。收录:Precup,D.,Teh,Y.W.(编辑)《第34届国际机器学习大会论文集》,《机器学习研究论文集》,第70卷。第1321-1330页(2017年)http://proceedings.mlr.press/v70/guo17a.html [19] Harper,F.M.,Konstan,J.A.:电影数据集:历史与背景5(4)。(2015)doi:10.1145/2827872 [20] 医学博士霍夫曼;Gelman,A.,《无转取样器:哈密顿蒙特卡罗自适应设置路径长度》,J.Mach。学习。第15号、第1号、第1593-1623号决议(2014年)·Zbl 1319.60150号 [21] Izmailov,P.,Vikram,S.,Hoffman,M.D.等人:贝叶斯神经网络后验真的是什么样的?(2021)arXiv预打印arXiv:210414421 [22] Jamieson,K.,Talwalkar,A.:非随机最佳臂识别和超参数优化。摘自:《人工智能与统计》,第240-248页(2016年) [23] Jitkrittum,W.、Xu,W.和Szabó,Z.等人。线性时间核优度检验。(2017)arXiv预印arXiv:1705.07673 [24] Karnin,Z.,Koren,T.,Somekh,O.:在多武装匪徒中进行几乎最优的探索。摘自:机器学习国际会议,第1238-1246页(2013) [25] Kim,S.,Song,Q.,Liang,F.:具有自适应漂移的随机梯度朗之万动力学算法。(2020)arXiv预印arXiv:2009.09535·Zbl 07497845号 [26] Lakshminarayanan,B.,Pritzel,A.,Blundell,C.:使用深度集合进行简单且可扩展的预测不确定性估计。收录:Guyon,I.、Luxburg,U.V.、Bengio,S.等(编辑)《神经信息处理系统进展》,第30卷。Curran Associates,Inc.(2017年)https://proceedings.neurips.cc/paper/2017/file/9ef2ed4b7fd2c810847ffa5fa85bce38-paper.pdf [27] Lattimore,T。;Szepesvári,C.,Bandit Algorithms(2020),剑桥:剑桥大学出版社,剑桥·Zbl 1439.68002号 ·doi:10.1017/9781108571401 [28] LeCun,Y.,Cortes,C.:MNIST手写数字数据库(2010年)。http://yann.lecun.com/exdb/mnist/ [29] Leimkuhkler,B。;肖成,S.,《噪声梯度系统的自适应恒温器》,SIAM J.Sci。计算。,38、2、A712-A736(2016)·Zbl 1382.65019号 ·数字对象标识码:10.1137/15M102318X [30] Li,C.,Chen,C.,Carlson,D.等人。深度神经网络的预处理随机梯度Langevin动力学。摘自:AAAI人工智能会议记录(2016年) [31] Liu,Q.,Lee,J.,Jordan,M.:质量测试的核心stein差异。摘自:机器学习国际会议,第276-284页(2016) [32] Ma,Y.A.,Chen,T.,Fox,E.:随机梯度MCMC的完整配方。摘自:《神经信息处理系统进展》,第2917-2925页(2015年) [33] Nemeth,C.,Fearnhead,P.:随机梯度马尔可夫链蒙特卡罗。《美国统计协会期刊》,第1-18页(2020年)·Zbl 1457.62024号 [34] Phan,D.,Pradhan,N.,Jankowiak,M.:numpyro中灵活和加速概率规划的合成效应。(2019)arXiv预印本arXiv:1912.11554 [35] 皮莱,NS;斯图亚特,AM;Thiéry,AH,《高维Langevin算法的最佳缩放和扩散极限》,Ann.Appl。概率。,22, 6, 2320-2356 (2012) ·兹比尔1272.60053 ·doi:10.1214/11-AAP828 [36] 罗伯茨,GO;Rosenthal,JS,《Langevin扩散离散近似的最佳缩放》,J.R.Stat.Soc.:Ser。B(Stat.Methodol.),第60、1、255-268页(1998年)·Zbl 0913.60060号 ·doi:10.1111/1467-9868.00123 [37] 罗伯茨,GO;Tweedie,RL,Langevin分布及其离散近似的指数收敛性,Bernoulli,2,4,341-363(1996)·Zbl 0870.60027号 ·doi:10.2307/3318418 [38] Salakhutdinov,R.,Mnih,A.:使用马尔可夫链蒙特卡罗的贝叶斯概率矩阵分解。摘自:《第25届机器学习国际会议论文集》,ACM,第880-887页(2008年) [39] Serfling,RJ,《数理统计近似定理》(2009),伦敦:威利出版社,伦敦·Zbl 1001.62005号 [40] Slivkins,A.:多武器匪徒简介(2019年)。arXiv预打印arXiv:1904.07272·Zbl 1478.68006号 [41] Vihola,M.,具有强制接受率的鲁棒自适应Metropolis算法,统计计算。,22, 5, 997-1008 (2012) ·Zbl 1252.65024号 ·doi:10.1007/s11222-011-9269-5 [42] Welling,M.,Teh,Y.W.:通过随机梯度Langevin动力学进行贝叶斯学习。摘自:《第28届机器学习国际会议(ICML)论文集》,第681-688页(2011年) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。