×

知情亚抽样MCMC:大数据集的近似贝叶斯推断。 (英语) Zbl 1430.62059号

摘要:本文介绍了一种在大数据集情况下加速贝叶斯推理的框架。我们设计了一个马尔可夫链,它的转移核使用在整个算法中随机刷新的可用数据的固定大小的未知部分。受近似贝叶斯计算文献的启发,子采样过程以观测数据的保真度为指导,如摘要统计所测。由此产生的算法Informed Sub-Sampling MCMC是一种通用且灵活的方法,与现有的可扩展方法相反,它保留了Metropolis-Hastings算法的简单性。尽管失去了精确性,即链分布近似于后验分布,但我们从理论上研究并量化了这种偏差,并通过一组不同的示例表明,当计算预算有限时,它会产生出色的性能。如果可用且计算成本低,我们表明将汇总统计设置为最大似然估计值得到了理论论证的支持。

MSC公司:

2015年1月62日 贝叶斯推断
62-08 统计问题的计算方法
65二氧化碳 蒙特卡罗方法
60J10型 马尔可夫链(离散状态空间上的离散时间马尔可夫过程)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allassonnière,S.,Amit,Y.,Trouvé,A.:走向稠密可变形模板估计的连贯统计框架。J.R.统计社会服务。B(Stat.Methodol.)69(1),3-29(2007)·Zbl 07555347号 ·doi:10.1111/j.1467-9868.2007.00574.x
[2] Alquier,P.,Friel,N.,Everitt,R.,Boland,A.:噪声蒙特卡罗:具有近似转移核的马尔可夫链的收敛性。统计计算。26(1-2),29-47(2016)·Zbl 1342.60122号 ·doi:10.1007/s11222-014-9521-x
[3] Andrieu,C.,Roberts,G.O.:有效蒙特卡罗计算的伪边缘方法。Ann.Stat.37,697-725(2009年)·Zbl 1185.60083号 ·doi:10.1214/07-AOS574
[4] Andrieu,C.,Vihola,M.:伪边际马尔可夫链蒙特卡罗算法的收敛性。附录。普罗巴伯。25(2), 1030-1077 (2015) ·Zbl 1326.65012号 ·doi:10.1214/14-AAP1022
[5] Banterle,M.,Grazian,C.,Lee,A.,Robert,C.P.:通过延迟接受加速Metropolis-Hastings算法。arXiv预印arXiv:1503.00996(2015)
[6] Bardenet,R.,Doucet,A.,Holmes,C.:走向放大马尔可夫链蒙特卡罗:一种自适应子采样方法。收录于:ICML,第405-413页(2014年)
[7] Bardenet,R.,Doucet,A.,Holmes,C.:高数据的马尔可夫链蒙特卡罗方法。J.马赫。学习。第18号决议,第1-43号决议(2017年)·Zbl 1433.68394号
[8] Bierkens,J.、Fearnhead,P.、Roberts,G.:大数据贝叶斯分析的之字形过程和超高效采样。Ann.Stat.(2018)(待发布)·Zbl 1417.65008号
[9] Chib,S.,Greenberg,E.:了解大都市——黑斯廷斯算法。《美国统计》第49卷第4期,第327-335页(1995年)
[10] Csillery,K.,Blum,M.G.,Gaggiotti,O.E.,Francois,O.:实际中的近似贝叶斯计算(ABC)。经济趋势。进化。25(7), 410-418 (2010) ·doi:10.1016/j.tree.2010.04.001
[11] Dalalyan,A.S.:采样和优化之间更进一步、更强的类比:朗之万蒙特卡罗和梯度下降。arXiv预印arXiv:1704.04752(2017)
[12] Douc,R.,Moulines,E.,Rosenthal,J.S.:时间非均匀马尔可夫链收敛的定量界限。Ann.应用。普罗巴伯。14, 1643-1665 (2004) ·Zbl 1072.60059号 ·doi:10.1214/10505160400000620
[13] Fearnhead,P.,Bierkens,J.,Pollock,M.,Roberts,G.O.:连续时间蒙特卡罗的分段确定性马尔可夫过程。arXiv预印arXiv:1611.07873(2016)·Zbl 1403.62148号
[14] Fearnhead,P.,Prangle,D.:为近似贝叶斯计算构建摘要统计:半自动近似贝叶斯计算。《J.R.Stat.Soc.Seri.B(Stat.Methodol.)》74(3),419-474(2012)·Zbl 1411.62057号 ·文件编号:10.1111/j.1467-9868.2011.010.10.x
[15] Geyer,C.J.,Thompson,E.A.:退火马尔可夫链蒙特卡罗及其在祖先推断中的应用。《美国统计协会期刊》90(431),909-920(1995)·兹比尔0850.62834 ·doi:10.1080/01621459.1995.10476590
[16] Haario,H.,Saksman,E.,Tamminen,J.:自适应大都会算法。伯努利7223-242(2001)·Zbl 0989.65004号 ·doi:10.2307/3318737
[17] Hobert,J.P.,Robert,C.P.:π的混合表示及其在马尔可夫链蒙特卡罗和完美抽样中的应用。Ann.应用。普罗巴伯。14, 1295-1305 (2004) ·Zbl 1046.60062号 ·doi:10.1214/10505160400000305
[18] Huggins,J.,Zou,J.:量化近似扩散和马尔可夫链的准确性。摘自:《第20届国际人工智能与统计会议论文集》,PLMR,第54卷,第382-391页(2016)
[19] Jacob,P.E.,Thiery,A.H.等人:关于非负无偏估计。Ann.Stat.43(2),769-784(2015)·Zbl 1321.65015号 ·doi:10.1214/15-AOS1311
[20] Johndrow,J.E.,Mattingly,J.C.:马尔可夫链近似的误差界。arXiv预印arXiv:1711.05382(2017)
[21] Johndrow,J.E.,Mattingly,J.C.,Mukherjee,S.,Dunson,D.:马尔可夫链近似和贝叶斯推理。arXiv预印arXiv:1508.03387(2015)
[22] Koratikara,A.,Chen,Y.,Welling,M.:MCMC土地的紧缩:削减大都会黑斯廷斯的预算。摘自:第31届机器学习国际会议记录(2014年)
[23] Le Cam,L.:关于极大似然估计和相关Bayes估计的一些渐近性质。加州大学出版社。《统计》第1卷,第277-330页(1953年)·Zbl 0052.15404号
[24] Le Cam,L.:统计决策理论中的渐近方法。柏林施普林格(1986)·Zbl 0605.62002号 ·doi:10.1007/978-1-4612-4946-7
[25] Maclaurin,D.,Adams,R.P.:萤火虫蒙特卡罗:具有数据子集的精确MCMC。参加:第二十四届国际人工智能联合会议(2015)
[26] Marin,J.-M.,Pudlo,P.,Robert,C.P.,Ryder,R.J.:近似贝叶斯计算方法。统计计算。22(6), 1167-1180 (2012) ·Zbl 1252.62022号 ·doi:10.1007/s11222-011-9288-2
[27] Medina-Aguayo,F.J.,Lee,A.,Roberts,G.O.:喧闹都市的稳定性——黑斯廷斯。统计计算。26(6), 1187-1211 (2016) ·Zbl 1505.62286号 ·doi:10.1007/s11222-015-9604-3
[28] Metropolis,N.、Rosenbluth,A.W.、Rosenbruth,M.N.、Teller,A.H.、Teler,E.:快速计算机器的状态方程计算。化学杂志。物理学。21(6), 1087-1092 (1953) ·Zbl 1431.65006号 ·数字对象标识代码:10.1063/1.1699114
[29] Meyn,S.P.,Tweedie,R.L.:马尔可夫链和随机稳定性。剑桥大学出版社,剑桥(2009)·Zbl 1165.60001号 ·文件编号:10.1017/CBO9780511626630
[30] Mitrophanov,A.Y.:一致遍历马尔可夫链的敏感性和收敛性。J.应用。普罗巴伯。142, 003-1014 (2005) ·兹比尔1092.60027
[31] Nunes,M.A.,Balding,D.J.:关于近似贝叶斯计算汇总统计的最佳选择。统计应用程序。遗传学。分子生物学。9(1) (2010) ·兹比尔1304.92047
[32] Pollock,M.、Fearnhead,P.、Johansen,A.M.、Roberts,G.O.:可扩展的Langevin精确算法:大数据的贝叶斯推断。arXiv预印arXiv:1609.03436(2016)
[33] Pritchard,J.K.,Seielstad,M.T.,Perez-Lezaun,A.,Feldman,M.W.:人类Y染色体的群体增长:Y染色体微卫星的研究。分子生物学。埃沃。16(12), 1791-1798 (1999) ·doi:10.1093/oxfordjournals.molbev.a026091
[34] Quiroz,M.,Villani,M.,Kohn,R.:通过有效的数据子采样加速MCMC。瑞典央行研究论文系列(121)(2015)·Zbl 1420.62121号
[35] Quiroz,M.、Villani,M.和Kohn,R.:精确子采样MCMC。arXiv预印arXiv:1603.08232(2016)·Zbl 1420.62121号
[36] Roberts,G.O.,Rosenthal,J.S.等人:各种Metropolis-Hastings算法的最佳缩放。统计科学。16(4), 351-367 (2001) ·Zbl 1127.65305号 ·doi:10.1214/ss/1015346320
[37] Rudolf,D.,Schweizer,N.:基于Wasserstein距离的马尔可夫链扰动理论。伯努利24(4A),2610-2639(2018)·Zbl 1465.60065号 ·文件编号:10.3150/17-BEJ938
[38] Van der Vaart,A.W.:渐近统计,第3卷。剑桥大学出版社,剑桥(2000)·Zbl 0943.6202号
[39] Welling,M.,Teh,Y.W.:通过随机梯度Langevin动力学进行贝叶斯学习。摘自:第28届机器学习国际会议(ICML-11)论文集。第681-688页(2011年)
[40] Wilkinson,R.D.:近似贝叶斯计算(ABC)在模型误差的假设下给出了准确的结果。统计应用程序。遗传学。《分子生物学》12(2),129-141(2013)·doi:10.1515/sagmb-2013-0010
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。