×

随机梯度马尔可夫链蒙特卡罗。 (英语) Zbl 1457.62024号

摘要:马尔可夫链蒙特卡罗(MCMC)算法通常被视为贝叶斯推理的金标准技术。它们在理论上很容易理解,在概念上很容易应用于实践。MCMC的缺点是执行精确推理通常需要在算法的每次迭代中处理所有数据。对于大型数据集,MCMC的计算成本可能过高,这导致了可扩展蒙特卡罗算法的最新发展,其计算成本大大低于标准MCMC。在本文中,我们关注一类特殊的可扩展蒙特卡罗算法,即随机梯度马尔可夫链蒙特卡罗(SGMCMC),它利用数据子采样技术来降低MCMC的迭代开销。我们介绍了一些流行的SGMCMC算法,回顾了支持性的理论结果,并在基准示例上比较了SGMCMC和MCMC算法的效率。支持R代码可在线获取,网址为https://github.com/chris-nemeth/sgmcmc-review-paper网站.

MSC公司:

62-08 统计问题的计算方法
2015年1月62日 贝叶斯推断
62L20型 随机近似
65二氧化碳 蒙特卡罗方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahn,S。;科拉提卡拉,A。;刘,N。;Rajan,S。;Welling,M.,使用随机梯度MCMC的大规模分布式贝叶斯矩阵分解,第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集,9-18(2015)·doi:10.1145/2783258.2783373
[2] Ahn,S。;科拉提卡拉,A。;Welling,M.,“通过随机梯度Fisher评分的贝叶斯后验抽样,1591-1598(2012)
[3] 艾彻,C。;马,Y.-A。;新泽西州福蒂。;Fox,E.B.,“状态空间模型的随机梯度MCMC,SIAM数据科学数学杂志,1555-587(2019)·兹比尔1499.60251 ·doi:10.1137/18M1214780
[4] Aicher,C.、Putcha,S.、Nemeth,C.、Fearnhead,P.和Fox,E.B.(2019),“非线性状态空间模型的随机梯度MCMC”,arXiv编号1901.10568。
[5] 安徒生,M。;Winther,O。;Hansen,L.K。;波德拉克,R。;Koyejo,O.,《动态大脑连接的贝叶斯结构学习》,1436-1446(2018)
[6] 贝克,J。;费恩黑德,P。;福克斯·E·B。;Nemeth,C.,《概率单纯形的大尺度随机抽样》,神经信息处理系统进展,6721-6731(2018)
[7] 贝克,J。;费恩黑德,P。;福克斯·E·B。;Nemeth,C.,“随机梯度MCMC的控制变量,统计与计算,29599-615(2019)·Zbl 1430.62265号
[8] 贝克,J。;费恩黑德,P。;福克斯·E·B。;Nemeth,C.,“sgmcmc:随机梯度马尔可夫链蒙特卡罗的R包,统计软件杂志,91,1-27(2019)
[9] Balan,A.K。;Rathod,V。;墨菲,K.P。;Welling,M.,Bayesian Dark Knowledge,《神经信息处理系统进展》,3438-3446(2015)
[10] Bardenet,R。;Doucet,A。;Holmes,C.,《向上扩展马尔可夫链蒙特卡罗:自适应子抽样方法》,405-413(2014)
[11] Bardenet,R。;Doucet,A。;Holmes,C.,“关于高数据的马尔可夫链蒙特卡罗方法”,《机器学习研究杂志》,18,1515-1557(2017)·Zbl 1433.68394号
[12] 贝克,A。;Teboulle,M.,“凸优化的镜像下降和非线性投影子梯度方法,运筹学快报,31167-175(2003)·Zbl 1046.90057号 ·doi:10.1016/S0167-6377(02)00231-6
[13] Besag,J.,“U.Grenander和MI Miller对‘复杂系统中知识的表示’的评论”,《皇家统计学会杂志》,B辑,56,591-592(1994)
[14] 比尔肯斯,J。;费恩黑德,P。;Roberts,G.O.,“大数据贝叶斯分析的Zig-Zag过程和超高效采样,《统计年鉴》,4711288-1320(2019)·Zbl 1417.65008号 ·doi:10.1214/18-AOS1715
[15] Bishop,C.M.,模式识别和机器学习(2006),纽约:Springer,纽约·Zbl 1107.68072号
[16] 布莱,D.M。;Kucukelbir,A。;McAuliffe,J.D.,“变量推断:统计学家评论”,《美国统计协会杂志》,第112期,第859-877页(2017年)·doi:10.1080/01621459.2017.1285773
[17] 布莱,D.M。;Ng,A.Y。;Jordan,M.I.,“潜在的Dirichlet分配,机器学习研究杂志,3,993-1022(2003)·兹比尔1112.68379
[18] 布沙尔德·科特,A。;Vollmer,S.J。;Doucet,A.,“反弹粒子采样器:不可逆拒绝自由马尔可夫链蒙特卡罗方法”,美国统计协会杂志,113855-867(2018)·Zbl 1398.60084号 ·doi:10.1080/01621459.2017.1294075
[19] 布鲁克斯,S。;Gelman,A.,“监测迭代模拟收敛性的一般方法”,《计算与图形统计杂志》,7434-455(1998)
[20] 布鲁克斯,S。;Gelman,A。;琼斯·G。;Meng,X.-L.,《马尔可夫链蒙特卡罗手册》(2011),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州波卡拉顿·Zbl 1218.65001号
[21] 布罗斯,N。;杜尔姆斯,A。;Moulines女士。,随机梯度Langevin动力学的前景和陷阱,神经信息处理系统进展,8278-8288(2018)
[22] 布罗斯,N。;Durmus,A。;Moulines女士。;Pereyra,M.,《利用近端Langevin Monte Carlo进行紧密支持的对数凹面分布抽样》,学习理论会议,319-342(2017)
[23] Bubeck,S。;Eldan,R。;Lehec,J.,“利用投影Langevin Monte Carlo从对数凹面分布中取样”,《离散与计算几何》,59,757-783(2018)·Zbl 1397.65010号
[24] 卡彭特,B。;Gelman,A。;医学博士霍夫曼。;Lee博士。;古德里奇,B。;贝当古,M。;布鲁贝克,M。;郭杰。;李,P。;Riddell,A.,“Stan:概率编程语言,统计软件杂志,76,1-32(2017)·doi:10.18637/jss.v076.i01
[25] 查特基,N。;弗拉马利翁,N。;马云(Ma,Y.)。;Bartlett,P。;Jordan,M.,《随机梯度蒙特卡罗方差减少理论》,机器学习研究论文集(PMLR),80,764-773(2018)
[26] Chen,T。;福克斯,E。;Guestrin,C.,随机梯度哈密尔顿蒙特卡罗,1683-1691(2014)
[27] Cheng,X。;查特吉,N.S。;Bartlett,P.L。;M.I.乔丹。;Bubeck,S。;珀歇,V。;Rigollet,P.,《第31届学习理论会议论文集》,《机器学习研究论文集》(PMLR),欠阻尼Langevin MCMC:非症状分析,300-323(2018)
[28] Dalalyan,A.S.,“平滑密度和对数凹面密度近似采样的理论保证”,《皇家统计学会杂志》,B辑,79,651-676(2017)·Zbl 1411.62030号 ·doi:10.1111/rssb.12183
[29] Dalalyan,A.S。;Karagulyan,A.,“具有不准确梯度的Langevin Monte Carlo的用户友好保证,随机过程及其应用,129,5278-5311(2019)·Zbl 1428.62316号 ·doi:10.1016/j.spa.2019.02.016
[30] de Valpine,P。;Turek,D。;Paciorek,C.J。;安德森·伯格曼,C。;朗·D·T。;Bodik,R.,“用模型编程:用敏捷编写一般模型结构的统计算法”,《计算与图形统计杂志》,26,403-413(2017)·doi:10.1080/10618600.2016.1172487
[31] 丁,N。;方,Y。;巴布什,R。;陈,C。;Skeel,R.D。;Neven,H.,使用随机梯度恒温器的贝叶斯采样,神经信息处理系统进展,3203-3211(2014)
[32] Dubey,K.A。;Reddi,S.J。;威廉姆森,S.A。;波佐斯,B。;Smola,A.J。;Xing,E.P.,随机梯度Langevin动力学中的方差减少,神经信息处理系统的进展,1154-1162(2016)
[33] 邓森,D.B。;Johndrow,J.,“五十岁的黑斯廷斯算法,生物特征,107,1-23(2020)·Zbl 1435.62042号 ·doi:10.1093/biomet/asz066
[34] Durmus,A。;Moulines,E.,“未调整Langevin算法的非渐近收敛分析,应用概率年鉴,271551-1587(2017)·Zbl 1377.65007号 ·doi:10.1214/16-AAP1238
[35] Ermak,D.L.,“溶液中带电粒子的计算机模拟。I.技术和平衡特性,化学物理杂志,62,4189-4196(1975)·doi:10.1063/1.430300
[36] 费恩黑德,P。;比尔肯斯,J。;波洛克,M。;Roberts,G.O.,“连续时间蒙特卡罗的分段确定性马尔可夫过程,统计科学,33,386-412(2018)·Zbl 1403.62148号 ·doi:10.1214/18-STS648
[37] 费恩黑德,P。;O.帕帕斯皮利奥普洛斯。;Roberts,G.O.,“部分观测扩散的粒子过滤器”,《皇家统计学会杂志》,B辑,70755-777(2008)·Zbl 05563368号 ·doi:10.1111/j.1467-9868.2008.00661.x
[38] 甘,Z。;陈,C。;Henao,R。;卡尔森博士。;Carin,L.,《主题建模的可扩展深泊松因子分析》,1823-1832(2015)
[39] Gibbs,A.L。;Su,F.E.,“关于选择和限定概率指标,国际统计评论,70419-435(2002)·Zbl 1217.62014年 ·doi:10.1111/j.1751-5823.002.tb00178.x
[40] Girolma,M。;Calderhead,B.,“Riemann流形Langevin和Hamilton Monte Carlo方法”(含讨论),《皇家统计学会杂志》,B辑,73,123-214(2011)·Zbl 1411.62071号 ·文件编号:10.1111/j.1467-9868.2010.00765.x
[41] J.戈勒姆。;邓肯,A.B。;Vollmer,S.J。;Mackey,L.,“用扩散测量样本质量,应用概率年鉴,292884-2928(2019)·Zbl 1439.60073号 ·doi:10.1214/19-AAP1467
[42] J.戈勒姆。;Mackey,L.,用Stein方法测量样品质量,神经信息处理系统进展,226-234(2015)
[43] J.戈勒姆。;Mackey,L.,用内核测量样本质量,第34届机器学习国际会议论文集,701292-1301(2017)
[44] 黑斯廷斯,W.K.,“使用马尔可夫链的蒙特卡罗采样方法及其应用,生物特征,57,97-109(1970)·Zbl 0219.65008号 ·doi:10.1093/biomet/57.1.97
[45] 医学博士霍夫曼。;Gelman,A.,“无转取样器:在哈密尔顿蒙特卡罗中自适应设置路径长度”,《机器学习研究杂志》,第15期,第1593-1623页(2014年)·兹比尔1319.60150
[46] 谢永平。;卡维斯,A。;罗兰,P。;Cevher,V.,镜像Langevin动力学,神经信息处理系统进展,2883-2892(2018)
[47] 哈金斯,J。;邹,J.,量化近似扩散和马尔可夫链的准确性,人工智能与统计,382-391(2017)
[48] 科拉提卡拉,A。;陈,Y。;Welling,M.,《MCMC土地的紧缩:削减大都会-黑斯廷斯预算》,机器学习国际会议,181-189(2014)
[49] Kucukelbir,A。;Ranganath,R。;Gelman,A。;Blei,D.,Stan中的自动变分推理,神经信息处理系统的进展,568-576(2015)
[50] 乐村,Y。;科尔特斯,C。;Burges,C.(2010年)
[51] 李伟(Li,W.)。;Ahn,S。;Welling,M.,混合成员随机块模型的可伸缩MCMC,人工智能与统计,723-731(2016)
[52] Lunn,D.J。;托马斯。;贝斯特,N。;Spiegelhalter,D.,WinBUGS-A Bayesian建模框架:概念、结构、可扩展性、统计与计算,10,325-337(2000)·doi:10.1023/A:1008929526011
[53] 马,Y.-A。;Chen,T。;Fox,E.,《随机梯度MCMC的完整配方》,《神经信息处理系统的进展》,2917-2925(2015)
[54] Ma,Y.-A.,Foti,N.J.和Fox,E.B.(2017),“隐马尔可夫模型的随机梯度MCMC方法”,arXiv编号1706.04632。
[55] Majka,M.B。;Mijatović,A。;Szpruch,Ł。,“无对数凹度采样算法的非渐近边界,应用概率年鉴,30,1534-1581(2020)·Zbl 1466.65008号 ·doi:10.1214/19-AAP1535
[56] 北卡罗来纳州大都会。;罗森布鲁斯,A.W。;Rosenbluth,M.N。;出纳员,A.H。;Teller,E.,“快速计算机器的状态方程计算”,《化学物理杂志》,211087-1092(1953)·Zbl 1431.65006号 ·数字对象标识代码:10.1063/1.1699114
[57] Meyn,S.P。;Tweedie,R.L.,“马尔可夫链几何收敛率的可计算边界,应用概率年鉴,4981-1011(1994)·Zbl 0812.60059号 ·doi:10.1214/aoap/1177004900
[58] Minka,T.P.,《第17届人工智能不确定性会议论文集,近似贝叶斯推断的期望传播》,362-369(2001),Morgan Kaufmann Publishers Inc
[59] 明斯克,S。;Srivastava,S。;林,L。;Dunson,D.B.,“通过子集后验度量中值实现稳健和可伸缩贝叶斯”,《机器学习研究杂志》,18,4488-4527(2017)·Zbl 1442.62056号
[60] Nagapetyan,T.,Duncan,A.B.,Hasenclaver,L.,Vollmer,S.J.,Szpruch,L.和Zygalakis,K.(2017),“随机梯度Langevin动力学的真实成本”,arXiv编号1706.02692。
[61] 尼尔·R·M。;布鲁克斯,S。;Gelman,A。;Jones,G.L。;Meng,X.-L.,马尔可夫链蒙特卡罗手册,使用哈密顿动力学的MCMC,“,113-162(2011),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州博卡拉顿·Zbl 1229.65018号
[62] Neal,R.M.,神经网络贝叶斯学习,118(2012),纽约:Springer,纽约
[63] 内斯旺格,W。;王,C。;Xing,E.P.,《渐近精确,尴尬的平行MCMC》,623-632(2014)
[64] 奈梅特,C。;Sherlock,C.,“通过高斯过程近似合并MCMC次后验,贝叶斯分析,13507-530(2018)·Zbl 1407.62081号 ·doi:10.1214/17-BA1063
[65] Parisi,G.,“相关函数和计算机模拟,核物理B,180,378-384(1981)·doi:10.1016/0550-3213(81)90056-0
[66] 帕特森,S。;Teh,Y.W.,概率单纯形上的随机梯度黎曼-朗之万动力学,神经信息处理系统进展,3102-3110(2013)
[67] 皮莱,N.S。;Stuart,A.M。;Thiéry,A.H.,“高维Langevin算法的最佳缩放和扩散极限,应用概率年鉴,222320-2356(2012)·Zbl 1272.60053号 ·doi:10.1214/11-AAP828
[68] Plummer,M.,JAGS:使用吉布斯抽样分析贝叶斯图形模型的程序,第三届分布式统计计算国际研讨会论文集,124,10(2003)
[69] 波洛克,M。;费恩黑德,P。;Johansen,A.M。;Roberts,G.O.,“准静态蒙特卡罗和尺度算法”,《皇家统计学会杂志》,B辑(2020年)·Zbl 07554789号
[70] 基罗兹,M。;科恩,R。;维拉尼,M。;Tran,M.-N.,“通过有效数据子抽样加速MCMC,美国统计协会期刊,114831-843(2019)·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[71] 拉比诺维奇,M。;安吉利诺,E。;Jordan,M.I.,变分共识蒙特卡罗,神经信息处理系统进展,1207-1215(2015)
[72] Raginsky,M。;Rakhlin,A。;Telgarsky,M.,《通过随机梯度Langevin动力学进行非凸学习:非渐进分析》,学习理论会议,1674-1703(2017)
[73] Raj,A。;斯蒂芬斯,M。;Pritchard,J.K.,“快速结构:大型SNP数据集中群体结构的变分推断,遗传学,197573-589(2014)·doi:10.1534/genetics.114.164350
[74] Ripley,B.D.,《随机模拟》(1987),纽约:威利,纽约·Zbl 0613.65006号
[75] 罗宾斯,H。;Monro,S.,“一种随机近似方法,《数理统计年鉴》,22400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/oms/1177729586
[76] Roberts,G.O。;Rosenthal,J.S.,“几何遍历性和混合马尔可夫链,概率电子通信,213-25(1997)·Zbl 0890.60061号 ·doi:10.1214/ECP.v2-981
[77] Roberts,G.O。;Rosenthal,J.S.,“离散近似对朗之万扩散的最佳缩放”,《皇家统计学会杂志》,B辑,60,255-268(1998)·Zbl 0913.60060号
[78] 罗伯茨,G.O。;Rosenthal,J.S.,“各种大都市黑斯廷斯算法的最佳缩放”,《统计科学》,16,351-367(2001)·Zbl 1127.65305号
[79] Roberts,G.O。;Rosenthal,J.S.,“一般状态空间马尔可夫链和MCMC算法,概率调查,120-71(2004)·Zbl 1189.60131号
[80] Roberts,G.O。;Tweedie,R.L.,“朗之万分布及其离散近似的指数收敛性”,伯努利,2341-363(1996)·Zbl 0870.60027号 ·doi:10.2307/3318418
[81] Salakhutdinov,R。;Mnih,A.,使用马尔可夫链蒙特卡罗的贝叶斯概率矩阵分解,第25届机器学习国际会议论文集,880-887(2008)·doi:10.145/1390156.1390267
[82] Salehi,F.、Celis,L.E.和Thiran,P.(2017),“Bandit抽样的随机优化”,arXiv编号1708.02544。
[83] 斯科特,S.L。;拦截器,A.W。;F.V.博纳西。;Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,“贝叶斯和大数据:共识蒙特卡罗算法”,《国际管理科学与工程管理杂志》,11,78-88(2016)·doi:10.1080/1759653.2016.1142191
[84] 森·D。;萨克斯,M。;卢,J。;Dunson,D.B.,“高维非平衡Logistic回归的有效后验抽样,生物特征分析(2020)·Zbl 1457.62221号 ·doi:10.1093/biomet/asa035
[85] Srivastava,S。;李,C。;Dunson,D.B.,“通过Wasserstein空间中的重心可缩放贝叶斯”,《机器学习研究杂志》,19,312-346(2018)·Zbl 1444.62037号
[86] Teh,Y.W。;Thiery,A.H。;Vollmer,S.J.,“随机梯度Langevin动力学的一致性和波动,机器学习研究杂志,17,193-225(2016)·Zbl 1360.60144号
[87] Tran,D.、Kucukelbir,A.、Dieng,A.B.、Rudolph,M.、Liang,D.和Blei,D.M.(2016),“爱德华:概率建模、推理和批评图书馆”,arXiv编号1610.09787。
[88] Vollmer,S.J。;齐加拉基斯,K.C。;Teh,Y.W.,“随机梯度Langevin动力学(非)渐近偏差和方差的探索,机器学习研究杂志,17,5504-5548(2016)·Zbl 1391.60178号
[89] 王,Y.-X。;费恩伯格,S。;Smola,A.,《免费隐私:后验抽样和随机梯度蒙特卡罗》,2493-2502(2015)
[90] 韦林,M。;Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,681-688(2011)
[91] Yogatama,D。;王,C。;劳特利奇,B.R。;Smith,N.A.公司。;Xing,E.P.,“流文本的动态语言模型,计算语言学协会学报,2181-192(2014)·doi:10.1162/tacla_00175
[92] Zuanetti,D。;缪勒,P。;Zhu,Y。;Yang,S。;Ji,Y.,“大数据集、统计和计算的贝叶斯非参数聚类,29203-215(2019)·兹比尔1430.62146 ·doi:10.1007/s11222-018-9803-9
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。