文件Zbl 1457.62024-zbMATH Open

随机梯度马尔可夫链蒙特卡罗。（英语） Zbl 1457.62024号

美国统计协会。 116，编号533，433-450（2021）.

摘要：马尔可夫链蒙特卡罗（MCMC）算法通常被视为贝叶斯推理的金标准技术。它们在理论上很容易理解，在概念上很容易应用于实践。MCMC的缺点是执行精确推理通常需要在算法的每次迭代中处理所有数据。对于大型数据集，MCMC的计算成本可能过高，这导致了可扩展蒙特卡罗算法的最新发展，其计算成本大大低于标准MCMC。在本文中，我们关注一类特殊的可扩展蒙特卡罗算法，即随机梯度马尔可夫链蒙特卡罗（SGMCMC），它利用数据子采样技术来降低MCMC的迭代开销。我们介绍了一些流行的SGMCMC算法，回顾了支持性的理论结果，并在基准示例上比较了SGMCMC和MCMC算法的效率。支持R代码可在线获取，网址为https://github.com/chris-nemeth/sgmcmc-review-paper网站.

引用于10文件

MSC公司：

62-08	统计问题的计算方法
2015年1月62日	贝叶斯推断
62L20型	随机近似
65二氧化碳	蒙特卡罗方法

关键词：

贝叶斯推断;马尔科夫蒙特卡洛;可缩放蒙特卡罗;随机梯度

软件：

PRMLT公司;WinBUGS公司;R（右）;卡爪;斯坦;ADVI公司;github;爱德华;fastSTRUCTURE（快速结构）;螺母;sgmcmc公司;灵活的

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Ahn，S。；科拉提卡拉，A。；刘，N。；Rajan，S。；Welling，M.，使用随机梯度MCMC的大规模分布式贝叶斯矩阵分解，第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集，9-18（2015）·doi:10.1145/2783258.2783373
[2]	Ahn，S。；科拉提卡拉，A。；Welling，M.，“通过随机梯度Fisher评分的贝叶斯后验抽样，1591-1598（2012）
[3]	艾彻，C。；马，Y.-A。；新泽西州福蒂。；Fox，E.B.，“状态空间模型的随机梯度MCMC，SIAM数据科学数学杂志，1555-587（2019）·兹比尔1499.60251 ·doi:10.1137/18M1214780
[4]	Aicher，C.、Putcha，S.、Nemeth，C.、Fearnhead，P.和Fox，E.B.（2019），“非线性状态空间模型的随机梯度MCMC”，arXiv编号1901.10568。
[5]	安徒生，M。；Winther，O。；Hansen，L.K。；波德拉克，R。；Koyejo，O.，《动态大脑连接的贝叶斯结构学习》，1436-1446（2018）
[6]	贝克，J。；费恩黑德，P。；福克斯·E·B。；Nemeth，C.，《概率单纯形的大尺度随机抽样》，神经信息处理系统进展，6721-6731（2018）
[7]	贝克，J。；费恩黑德，P。；福克斯·E·B。；Nemeth，C.，“随机梯度MCMC的控制变量，统计与计算，29599-615（2019）·Zbl 1430.62265号
[8]	贝克，J。；费恩黑德，P。；福克斯·E·B。；Nemeth，C.，“sgmcmc:随机梯度马尔可夫链蒙特卡罗的R包，统计软件杂志，91，1-27（2019）
[9]	Balan，A.K。；Rathod，V。；墨菲，K.P。；Welling，M.，Bayesian Dark Knowledge，《神经信息处理系统进展》，3438-3446（2015）
[10]	Bardenet，R。；Doucet，A。；Holmes，C.，《向上扩展马尔可夫链蒙特卡罗：自适应子抽样方法》，405-413（2014）
[11]	Bardenet，R。；Doucet，A。；Holmes，C.，“关于高数据的马尔可夫链蒙特卡罗方法”，《机器学习研究杂志》，18，1515-1557（2017）·Zbl 1433.68394号
[12]	贝克，A。；Teboulle，M.，“凸优化的镜像下降和非线性投影子梯度方法，运筹学快报，31167-175（2003）·Zbl 1046.90057号 ·doi:10.1016/S0167-6377（02）00231-6
[13]	Besag，J.，“U.Grenander和MI Miller对‘复杂系统中知识的表示’的评论”，《皇家统计学会杂志》，B辑，56，591-592（1994）
[14]	比尔肯斯，J。；费恩黑德，P。；Roberts，G.O.，“大数据贝叶斯分析的Zig-Zag过程和超高效采样，《统计年鉴》，4711288-1320（2019）·Zbl 1417.65008号 ·doi:10.1214/18-AOS1715
[15]	Bishop，C.M.，模式识别和机器学习（2006），纽约：Springer，纽约·Zbl 1107.68072号
[16]	布莱，D.M。；Kucukelbir，A。；McAuliffe，J.D.，“变量推断：统计学家评论”，《美国统计协会杂志》，第112期，第859-877页（2017年）·doi:10.1080/01621459.2017.1285773
[17]	布莱，D.M。；Ng，A.Y。；Jordan，M.I.，“潜在的Dirichlet分配，机器学习研究杂志，3，993-1022（2003）·兹比尔1112.68379
[18]	布沙尔德·科特，A。；Vollmer，S.J。；Doucet，A.，“反弹粒子采样器：不可逆拒绝自由马尔可夫链蒙特卡罗方法”，美国统计协会杂志，113855-867（2018）·Zbl 1398.60084号 ·doi:10.1080/01621459.2017.1294075
[19]	布鲁克斯，S。；Gelman，A.，“监测迭代模拟收敛性的一般方法”，《计算与图形统计杂志》，7434-455（1998）
[20]	布鲁克斯，S。；Gelman，A。；琼斯·G。；Meng，X.-L.，《马尔可夫链蒙特卡罗手册》（2011），佛罗里达州博卡拉顿：CRC出版社，佛罗里达州波卡拉顿·Zbl 1218.65001号
[21]	布罗斯，N。；杜尔姆斯，A。；Moulines女士。，随机梯度Langevin动力学的前景和陷阱，神经信息处理系统进展，8278-8288（2018）
[22]	布罗斯，N。；Durmus，A。；Moulines女士。；Pereyra，M.，《利用近端Langevin Monte Carlo进行紧密支持的对数凹面分布抽样》，学习理论会议，319-342（2017）
[23]	Bubeck，S。；Eldan，R。；Lehec，J.，“利用投影Langevin Monte Carlo从对数凹面分布中取样”，《离散与计算几何》，59，757-783（2018）·Zbl 1397.65010号
[24]	卡彭特，B。；Gelman，A。；医学博士霍夫曼。；Lee博士。；古德里奇，B。；贝当古，M。；布鲁贝克，M。；郭杰。；李，P。；Riddell，A.，“Stan:概率编程语言，统计软件杂志，76，1-32（2017）·doi:10.18637/jss.v076.i01
[25]	查特基，N。；弗拉马利翁，N。；马云（Ma，Y.）。；Bartlett，P。；Jordan，M.，《随机梯度蒙特卡罗方差减少理论》，机器学习研究论文集（PMLR），80，764-773（2018）
[26]	Chen，T。；福克斯，E。；Guestrin，C.，随机梯度哈密尔顿蒙特卡罗，1683-1691（2014）
[27]	Cheng，X。；查特吉，N.S。；Bartlett，P.L。；M.I.乔丹。；Bubeck，S。；珀歇，V。；Rigollet，P.，《第31届学习理论会议论文集》，《机器学习研究论文集》（PMLR），欠阻尼Langevin MCMC:非症状分析，300-323（2018）
[28]	Dalalyan，A.S.，“平滑密度和对数凹面密度近似采样的理论保证”，《皇家统计学会杂志》，B辑，79，651-676（2017）·Zbl 1411.62030号 ·doi:10.1111/rssb.12183
[29]	Dalalyan，A.S。；Karagulyan，A.，“具有不准确梯度的Langevin Monte Carlo的用户友好保证，随机过程及其应用，129，5278-5311（2019）·Zbl 1428.62316号 ·doi:10.1016/j.spa.2019.02.016
[30]	de Valpine，P。；Turek，D。；Paciorek，C.J。；安德森·伯格曼，C。；朗·D·T。；Bodik，R.，“用模型编程：用敏捷编写一般模型结构的统计算法”，《计算与图形统计杂志》，26，403-413（2017）·doi:10.1080/10618600.2016.1172487
[31]	丁，N。；方，Y。；巴布什，R。；陈，C。；Skeel，R.D。；Neven，H.，使用随机梯度恒温器的贝叶斯采样，神经信息处理系统进展，3203-3211（2014）
[32]	Dubey，K.A。；Reddi，S.J。；威廉姆森，S.A。；波佐斯，B。；Smola，A.J。；Xing，E.P.，随机梯度Langevin动力学中的方差减少，神经信息处理系统的进展，1154-1162（2016）
[33]	邓森，D.B。；Johndrow，J.，“五十岁的黑斯廷斯算法，生物特征，107，1-23（2020）·Zbl 1435.62042号 ·doi:10.1093/biomet/asz066
[34]	Durmus，A。；Moulines，E.，“未调整Langevin算法的非渐近收敛分析，应用概率年鉴，271551-1587（2017）·Zbl 1377.65007号 ·doi:10.1214/16-AAP1238
[35]	Ermak，D.L.，“溶液中带电粒子的计算机模拟。I.技术和平衡特性，化学物理杂志，62，4189-4196（1975）·doi:10.1063/1.430300
[36]	费恩黑德，P。；比尔肯斯，J。；波洛克，M。；Roberts，G.O.，“连续时间蒙特卡罗的分段确定性马尔可夫过程，统计科学，33，386-412（2018）·Zbl 1403.62148号 ·doi:10.1214/18-STS648
[37]	费恩黑德，P。；O.帕帕斯皮利奥普洛斯。；Roberts，G.O.，“部分观测扩散的粒子过滤器”，《皇家统计学会杂志》，B辑，70755-777（2008）·Zbl 05563368号 ·doi:10.1111/j.1467-9868.2008.00661.x
[38]	甘，Z。；陈，C。；Henao，R。；卡尔森博士。；Carin，L.，《主题建模的可扩展深泊松因子分析》，1823-1832（2015）
[39]	Gibbs，A.L。；Su，F.E.，“关于选择和限定概率指标，国际统计评论，70419-435（2002）·Zbl 1217.62014年 ·doi:10.1111/j.1751-5823.002.tb00178.x
[40]	Girolma，M。；Calderhead，B.，“Riemann流形Langevin和Hamilton Monte Carlo方法”（含讨论），《皇家统计学会杂志》，B辑，73，123-214（2011）·Zbl 1411.62071号 ·文件编号：10.1111/j.1467-9868.2010.00765.x
[41]	J.戈勒姆。；邓肯，A.B。；Vollmer，S.J。；Mackey，L.，“用扩散测量样本质量，应用概率年鉴，292884-2928（2019）·Zbl 1439.60073号 ·doi:10.1214/19-AAP1467
[42]	J.戈勒姆。；Mackey，L.，用Stein方法测量样品质量，神经信息处理系统进展，226-234（2015）
[43]	J.戈勒姆。；Mackey，L.，用内核测量样本质量，第34届机器学习国际会议论文集，701292-1301（2017）
[44]	黑斯廷斯，W.K.，“使用马尔可夫链的蒙特卡罗采样方法及其应用，生物特征，57，97-109（1970）·Zbl 0219.65008号 ·doi:10.1093/biomet/57.1.97
[45]	医学博士霍夫曼。；Gelman，A.，“无转取样器：在哈密尔顿蒙特卡罗中自适应设置路径长度”，《机器学习研究杂志》，第15期，第1593-1623页（2014年）·兹比尔1319.60150
[46]	谢永平。；卡维斯，A。；罗兰，P。；Cevher，V.，镜像Langevin动力学，神经信息处理系统进展，2883-2892（2018）
[47]	哈金斯，J。；邹，J.，量化近似扩散和马尔可夫链的准确性，人工智能与统计，382-391（2017）
[48]	科拉提卡拉，A。；陈，Y。；Welling，M.，《MCMC土地的紧缩：削减大都会-黑斯廷斯预算》，机器学习国际会议，181-189（2014）
[49]	Kucukelbir，A。；Ranganath，R。；Gelman，A。；Blei，D.，Stan中的自动变分推理，神经信息处理系统的进展，568-576（2015）
[50]	乐村，Y。；科尔特斯，C。；Burges，C.（2010年）
[51]	李伟（Li，W.）。；Ahn，S。；Welling，M.，混合成员随机块模型的可伸缩MCMC，人工智能与统计，723-731（2016）
[52]	Lunn，D.J。；托马斯。；贝斯特，N。；Spiegelhalter，D.，WinBUGS-A Bayesian建模框架：概念、结构、可扩展性、统计与计算，10，325-337（2000）·doi:10.1023/A:1008929526011
[53]	马，Y.-A。；Chen，T。；Fox，E.，《随机梯度MCMC的完整配方》，《神经信息处理系统的进展》，2917-2925（2015）
[54]	Ma，Y.-A.，Foti，N.J.和Fox，E.B.（2017），“隐马尔可夫模型的随机梯度MCMC方法”，arXiv编号1706.04632。
[55]	Majka，M.B。；Mijatović，A。；Szpruch，Ł。，“无对数凹度采样算法的非渐近边界，应用概率年鉴，30，1534-1581（2020）·Zbl 1466.65008号 ·doi:10.1214/19-AAP1535
[56]	北卡罗来纳州大都会。；罗森布鲁斯，A.W。；Rosenbluth，M.N。；出纳员，A.H。；Teller，E.，“快速计算机器的状态方程计算”，《化学物理杂志》，211087-1092（1953）·Zbl 1431.65006号 ·数字对象标识代码：10.1063/1.1699114
[57]	Meyn，S.P。；Tweedie，R.L.，“马尔可夫链几何收敛率的可计算边界，应用概率年鉴，4981-1011（1994）·Zbl 0812.60059号 ·doi:10.1214/aoap/1177004900
[58]	Minka，T.P.，《第17届人工智能不确定性会议论文集，近似贝叶斯推断的期望传播》，362-369（2001），Morgan Kaufmann Publishers Inc
[59]	明斯克，S。；Srivastava，S。；林，L。；Dunson，D.B.，“通过子集后验度量中值实现稳健和可伸缩贝叶斯”，《机器学习研究杂志》，18，4488-4527（2017）·Zbl 1442.62056号
[60]	Nagapetyan，T.，Duncan，A.B.，Hasenclaver，L.，Vollmer，S.J.，Szpruch，L.和Zygalakis，K.（2017），“随机梯度Langevin动力学的真实成本”，arXiv编号1706.02692。
[61]	尼尔·R·M。；布鲁克斯，S。；Gelman，A。；Jones，G.L。；Meng，X.-L.，马尔可夫链蒙特卡罗手册，使用哈密顿动力学的MCMC，“，113-162（2011），佛罗里达州博卡拉顿：CRC出版社，佛罗里达州博卡拉顿·Zbl 1229.65018号
[62]	Neal，R.M.，神经网络贝叶斯学习，118（2012），纽约：Springer，纽约
[63]	内斯旺格，W。；王，C。；Xing，E.P.，《渐近精确，尴尬的平行MCMC》，623-632（2014）
[64]	奈梅特，C。；Sherlock，C.，“通过高斯过程近似合并MCMC次后验，贝叶斯分析，13507-530（2018）·Zbl 1407.62081号 ·doi:10.1214/17-BA1063
[65]	Parisi，G.，“相关函数和计算机模拟，核物理B，180，378-384（1981）·doi:10.1016/0550-3213（81）90056-0
[66]	帕特森，S。；Teh，Y.W.，概率单纯形上的随机梯度黎曼-朗之万动力学，神经信息处理系统进展，3102-3110（2013）
[67]	皮莱，N.S。；Stuart，A.M。；Thiéry，A.H.，“高维Langevin算法的最佳缩放和扩散极限，应用概率年鉴，222320-2356（2012）·Zbl 1272.60053号 ·doi:10.1214/11-AAP828
[68]	Plummer，M.，JAGS:使用吉布斯抽样分析贝叶斯图形模型的程序，第三届分布式统计计算国际研讨会论文集，124，10（2003）
[69]	波洛克，M。；费恩黑德，P。；Johansen，A.M。；Roberts，G.O.，“准静态蒙特卡罗和尺度算法”，《皇家统计学会杂志》，B辑（2020年）·Zbl 07554789号
[70]	基罗兹，M。；科恩，R。；维拉尼，M。；Tran，M.-N.，“通过有效数据子抽样加速MCMC，美国统计协会期刊，114831-843（2019）·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[71]	拉比诺维奇，M。；安吉利诺，E。；Jordan，M.I.，变分共识蒙特卡罗，神经信息处理系统进展，1207-1215（2015）
[72]	Raginsky，M。；Rakhlin，A。；Telgarsky，M.，《通过随机梯度Langevin动力学进行非凸学习：非渐进分析》，学习理论会议，1674-1703（2017）
[73]	Raj，A。；斯蒂芬斯，M。；Pritchard，J.K.，“快速结构：大型SNP数据集中群体结构的变分推断，遗传学，197573-589（2014）·doi:10.1534/genetics.114.164350
[74]	Ripley，B.D.，《随机模拟》（1987），纽约：威利，纽约·Zbl 0613.65006号
[75]	罗宾斯，H。；Monro，S.，“一种随机近似方法，《数理统计年鉴》，22400-407（1951）·Zbl 0054.05901号 ·doi:10.1214/oms/1177729586
[76]	Roberts，G.O。；Rosenthal，J.S.，“几何遍历性和混合马尔可夫链，概率电子通信，213-25（1997）·Zbl 0890.60061号 ·doi:10.1214/ECP.v2-981
[77]	Roberts，G.O。；Rosenthal，J.S.，“离散近似对朗之万扩散的最佳缩放”，《皇家统计学会杂志》，B辑，60，255-268（1998）·Zbl 0913.60060号
[78]	罗伯茨，G.O。；Rosenthal，J.S.，“各种大都市黑斯廷斯算法的最佳缩放”，《统计科学》，16，351-367（2001）·Zbl 1127.65305号
[79]	Roberts，G.O。；Rosenthal，J.S.，“一般状态空间马尔可夫链和MCMC算法，概率调查，120-71（2004）·Zbl 1189.60131号
[80]	Roberts，G.O。；Tweedie，R.L.，“朗之万分布及其离散近似的指数收敛性”，伯努利，2341-363（1996）·Zbl 0870.60027号 ·doi:10.2307/3318418
[81]	Salakhutdinov，R。；Mnih，A.，使用马尔可夫链蒙特卡罗的贝叶斯概率矩阵分解，第25届机器学习国际会议论文集，880-887（2008）·doi:10.145/1390156.1390267
[82]	Salehi，F.、Celis，L.E.和Thiran，P.（2017），“Bandit抽样的随机优化”，arXiv编号1708.02544。
[83]	斯科特，S.L。；拦截器，A.W。；F.V.博纳西。；Chipman，H.A。；E.I.乔治。；McCulloch，R.E.，“贝叶斯和大数据：共识蒙特卡罗算法”，《国际管理科学与工程管理杂志》，11，78-88（2016）·doi:10.1080/1759653.2016.1142191
[84]	森·D。；萨克斯，M。；卢，J。；Dunson，D.B.，“高维非平衡Logistic回归的有效后验抽样，生物特征分析（2020）·Zbl 1457.62221号 ·doi:10.1093/biomet/asa035
[85]	Srivastava，S。；李，C。；Dunson，D.B.，“通过Wasserstein空间中的重心可缩放贝叶斯”，《机器学习研究杂志》，19，312-346（2018）·Zbl 1444.62037号
[86]	Teh，Y.W。；Thiery，A.H。；Vollmer，S.J.，“随机梯度Langevin动力学的一致性和波动，机器学习研究杂志，17，193-225（2016）·Zbl 1360.60144号
[87]	Tran，D.、Kucukelbir，A.、Dieng，A.B.、Rudolph，M.、Liang，D.和Blei，D.M.（2016），“爱德华：概率建模、推理和批评图书馆”，arXiv编号1610.09787。
[88]	Vollmer，S.J。；齐加拉基斯，K.C。；Teh，Y.W.，“随机梯度Langevin动力学（非）渐近偏差和方差的探索，机器学习研究杂志，17，5504-5548（2016）·Zbl 1391.60178号
[89]	王，Y.-X。；费恩伯格，S。；Smola，A.，《免费隐私：后验抽样和随机梯度蒙特卡罗》，2493-2502（2015）
[90]	韦林，M。；Teh，Y.W.，通过随机梯度Langevin动力学进行贝叶斯学习，681-688（2011）
[91]	Yogatama，D。；王，C。；劳特利奇，B.R。；Smith，N.A.公司。；Xing，E.P.，“流文本的动态语言模型，计算语言学协会学报，2181-192（2014）·doi:10.1162/tacla_00175
[92]	Zuanetti，D。；缪勒，P。；Zhu，Y。；Yang，S。；Ji，Y.，“大数据集、统计和计算的贝叶斯非参数聚类，29203-215（2019）·兹比尔1430.62146 ·doi:10.1007/s11222-018-9803-9

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

随机梯度马尔可夫链蒙特卡罗。（英语） Zbl 1457.62024号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

随机梯度马尔可夫链蒙特卡罗。 （英语） Zbl 1457.62024号

MSC公司：

关键词：

软件：

参考文献：

随机梯度马尔可夫链蒙特卡罗。（英语） Zbl 1457.62024号