×

兹马思-数学第一资源

随机梯度马尔可夫链蒙特卡罗。(英语) Zbl 1457.62024
摘要:马尔可夫链蒙特卡罗(MCMC)算法通常被认为是贝叶斯推理的金标准技术。它们在理论上有很好的理解,概念上也很容易在实践中应用。MCMC的缺点是执行精确推理通常需要在算法的每次迭代中处理所有数据。对于大型数据集,MCMC的计算成本可能会很高,这导致了可伸缩montecarlo算法的最新发展,其计算成本明显低于标准MCMC。本文主要研究一类特殊的可伸缩蒙特卡罗算法,即随机梯度马尔可夫链蒙特卡罗(sgmc),它利用数据子抽样技术降低MCMC的每次迭代成本。本文介绍了一些流行的sgmc算法,回顾了相关的理论结果,并在基准实例上比较了sgmc算法与MCMC算法的效率。支持R代码可在https://github.com/chris-nemeth/sgmc-review-paper.
理学硕士:
62-08年 统计问题的计算方法
15层62层 贝叶斯推理
62L20型 随机逼近
65摄氏度 蒙特卡罗方法
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 安,S。;科拉提卡拉,A。;刘,N。;拉詹,S。;Welling,M.,使用随机梯度MCMC的大规模分布式贝叶斯矩阵分解,第21届ACM SIGGDD知识发现和数据挖掘国际会议论文集,9-18(2015)
[2] 安,S。;科拉提卡拉,A。;Welling,M.,“通过随机梯度Fisher评分进行贝叶斯后验抽样,1591-1598(2012年)
[3] 艾彻,C。;硕士,Y.-A。;新泽西州福蒂市。;Fox,E.B.,“状态空间模型的随机梯度MCMC”,暹罗数据科学数学杂志,1555-587(2019年)
[4] Aicher,C.,Putcha,S.,Nemeth,C.,Fearnhead,P.和Fox,E.B.(2019年),“非线性状态空间模型的随机梯度MCMC”,arXiv第1901.10568号。
[5] 安徒生,M。;温瑟,哦。;汉森,L.K。;波尔德拉克,R。;Koyejo,O.,动态大脑连接的贝叶斯结构学习,1436-1446(2018)
[6] 贝克,J。;海普,费恩海德。;福克斯,E.B。;Nemeth,C.,概率单纯形的大规模随机抽样,神经信息处理系统进展,6721-6731(2018)
[7] 贝克,J。;费恩黑德,P。;福克斯,E.B。;Nemeth,C.,《随机梯度MCMC的控制变量》,统计与计算,29599-615(2019年)·Zbl 1430.62265
[8] 贝克,J。;费恩黑德,P。;福克斯,E.B。;Nemeth,C.,《sgmcmc:随机梯度马尔可夫链的R包蒙特卡罗》,统计软件杂志,91,1-27(2019年)
[9] 巴兰,A.K。;拉托德,V。;墨菲,K.P。;Welling,M.,Bayesian Dark Knowledge,神经信息处理系统进展,3438-3446(2015)
[10] 巴登,R。;多塞特,A。;Holmes,C.,《逐步扩大马尔可夫链蒙特卡罗:自适应子抽样方法》,405-413(2014)
[11] 巴登,R。;多塞特,A。;Holmes,C.,“高数据的马尔可夫链蒙特卡罗方法”,机器学习研究杂志,181515-1557(2017)
[12] 贝克,A。;Teboulle,M.,“凸优化的镜像下降和非线性投影次梯度方法,运筹学快报,31167-175(2003)·Zbl 1046.90057
[13] Besag,J.,“U.Grenander和MI Miller关于‘复杂系统中知识表示’的评论”,《皇家统计学会期刊》,B辑,56591-592(1994)
[14] 比尔肯斯,J。;费恩黑德,P。;Roberts,G.O.,“大数据贝叶斯分析的之字形过程和高效抽样”,《统计年鉴》,471288-1320(2019年)·Zbl 1417.65008号
[15] 毕晓普,C.M.,模式识别与机器学习(2006),纽约:斯普林格,纽约·Zbl 1107.68072
[16] 布莱,D.M。;库库克尔比尔,A。;McAuliffe,J.D.,“变分推理:统计学家评论”,《美国统计协会期刊》,112859-877(2017)
[17] 布莱,D.M。;不合格,每年。;Jordan,M.I.,“潜在Dirichlet分配”,机器学习研究杂志,3993-1022(2003)·Zbl 1112.68379
[18] 博查德-科泰,A。;沃尔默,S.J。;Doucet,A.,“弹性粒子采样器:不可逆排斥的马尔可夫链蒙特卡罗方法”,美国统计协会杂志,113855-867(2018)·Zbl 1398.60084
[19] 布鲁克斯,S。;Gelman,A.,“监控迭代模拟收敛性的一般方法”,《计算与图形统计杂志》,7434-455(1998)
[20] 布鲁克斯,S。;盖尔曼,A。;琼斯,G。;Meng,X.-L.,马尔可夫链蒙特卡罗手册(2011年),佛罗里达州博卡拉顿:CRC出版社,博卡拉顿,佛罗里达州·Zbl 1218.65001
[21] 布劳斯,N。;达默斯,A。;Moulines公司。,随机梯度朗之万动力学的承诺和陷阱,神经信息处理系统的进展,8278-8288(2018)
[22] 布劳斯,N。;达默斯,A。;莫林斯,É。;Pereyra,M.,《使用近端Langevin Monte Carlo从具有紧密支撑的对数凹面分布中取样》,学习理论会议,319-342(2017年)
[23] 布贝克,S。;埃尔丹,R。;Leech,J.,“从对数凹面分布中取样,使用投影的朗之万蒙特卡罗法”,《离散与计算几何》,59757-783(2018年)·Zbl 1397.65010
[24] 卡彭特,B。;盖尔曼,A。;霍夫曼医学博士。;李博士。;古德里奇,B。;贝图姆。;布鲁贝克,M。;郭杰。;李,P。;Riddell,A.,“斯坦:概率编程语言”,《统计软件杂志》,76,1-32(2017)
[25] 查特吉,N。;玛丽安,弗拉蒙。;Ma,Y。;巴特利特,P。;Jordan,M.,《随机梯度蒙特卡罗方差缩减理论》,机器学习研究论文集(PMLR),80764-773(2018)
[26] 陈,T。;福克斯E。;Guestrin,C.,随机梯度哈密顿蒙特卡罗,1683-1691(2014)
[27] 程,X。;查特吉,新南威尔士州。;巴特利特,P.L。;约旦,麻省理工学院。;布贝克,S。;佩切特,V。;Rigollet,P.,第31届学习理论会议论文集,机器学习研究论文集(PMLR),欠阻尼Langevin MCMC:非渐近分析,300-323(2018)
[28] Dalalyan,A.S.,“平滑和对数凹面密度近似取样的理论保证”,《皇家统计学会期刊》,B辑,79651-676(2017年)·Zbl 1411.62030
[29] 达拉扬,A.S。;Karagulyan,A.,“Langevin Monte Carlo不精确梯度、随机过程及其应用的用户友好保证”,1295278-5311(2019年)·Zbl 1428.62316
[30] 德瓦尔平,P。;图雷克,D。;Paciorek,C.J。;安德森·伯格曼,C。;朗,D.T。;Bodik,R.,“模型编程:用Nimble编写一般模型结构的统计算法”,计算与图形统计杂志,26403-413(2017年)
[31] 丁,N。;方,Y。;巴布希,R。;陈,C。;斯凯尔,R.D。;Neven,H.,使用随机梯度恒温器的贝叶斯抽样,神经信息处理系统进展,3203-3211(2014)
[32] 杜比,K.A。;雷迪,S.J。;威廉森公司。;波佐斯,B。;斯莫拉,A.J。;Xing,E.P.,随机梯度Langevin动力学中的方差缩减,神经信息处理系统进展,1154-1162(2016)
[33] 邓森,D.B。;约翰德罗,J.,《五十岁的黑斯廷斯算法》,生物计量学,107,1-23(2020)·Zbl 1435.62042
[34] 达默斯,A。;Moulines,E.,“未调整Langevin算法的非同步收敛性分析”,《应用概率年鉴》,27,1551-1587(2017)·Zbl 1377.65007号
[35] Ermak,D.L.,“溶液中带电粒子的计算机模拟,I.技术和平衡性质,化学物理杂志,624189-4196(1975)
[36] 费恩黑德,P。;比尔肯斯,J。;波洛克,M。;Roberts,G.O.,“连续时间的分段确定性马尔可夫过程蒙特卡罗,统计科学,33386-412(2018)·Zbl 1403.62148
[37] 费恩黑德,P。;帕帕斯皮利奥普洛斯。;Roberts,G.O.,“部分观测扩散的粒子过滤器”,《皇家统计学会杂志》,B辑,70755-777(2008)·Zbl 05563368
[38] 甘,Z。;陈,C。;赫瑙,R。;卡尔森,D。;Carin,L.,主题建模的可扩展深层泊松因子分析,1823-1832(2015)
[39] 吉布斯,A.L。;苏福英,“关于选择和界定概率指标,国际统计评论,70419-435(2002)·Zbl 1217.62014
[40] 吉罗拉米,M。;Calderhead,B.,“Riemann流形-Langevin和Hamilton-Monte-Carlo方法”(与讨论),皇家统计学会杂志,B系列,73123-214(2011)·Zbl 1411.62071
[41] 戈勒姆,J。;邓肯,A.B。;沃尔默,S.J。;Mackey,L.,“用扩散测量样本质量,《应用概率年鉴》,292884-2928(2019年)·中银1439.60073
[42] 戈勒姆,J。;Mackey,L.,用Stein方法测量样本质量,神经信息处理系统进展,226-234(2015)
[43] 戈勒姆。;Mackey,L.,用核测量样本质量,第34届机器学习国际会议论文集,701292-1301(2017)
[44] 黑斯廷斯,W.K.,《使用马尔可夫链的蒙特卡罗抽样方法及其应用》,生物计量学,57,97-109(1970)·Zbl 0219.65008
[45] 霍夫曼医学博士。;《机器学习》,第1593期《机器学习》,Carlo-Gellonian,第1593期,《机器学习》,2014年·Zbl 1319.60150
[46] 谢永平。;卡维斯,A。;罗兰,P。;Cevher,V.,镜像的朗之万动力学,神经信息处理系统的进展,2883-2892(2018)
[47] 哈金斯,J。;邹,J.,量化近似扩散和马尔可夫链的准确性,人工智能与统计学,382-391(2017)
[48] 科拉提卡拉,A。;陈,Y。;韦林,M.,MCMC土地的紧缩:削减大都会黑斯廷斯预算,国际机器学习会议,181-189(2014)
[49] 库库克尔比尔,A。;兰加纳思,R。;盖尔曼,A。;Blei,D.,Stan中的自动变分推理,神经信息处理系统进展,568-576(2015)
[50] 莱昆,Y。;科尔特斯,C。;伯吉斯,C.(2010)
[51] 李,W。;安,S。;Welling,M.,混合成员随机块模型的可扩展MCMC,人工智能与统计,723-731(2016)
[52] 伦恩,D.J。;托马斯,A。;贝斯特,N。;Spiegelhalter,D.,WinBUGS—一个贝叶斯建模框架:概念、结构和可扩展性,统计与计算,10325-337(2000)
[53] 硕士,Y.-A。;陈,T。;Fox,E.,随机梯度MCMC的完整配方,神经信息处理系统进展,2917-2925(2015)
[54] Ma,Y.-A.,Foti,N.J.和Fox,E.B.(2017),“隐马尔可夫模型的随机梯度MCMC方法”,arXiv第1706.04632号。
[55] Majka,工商管理硕士。;米贾托维奇,A。;Szpruch,Ł。,“无对数凹度抽样算法的非同调界,《应用概率年鉴》,301534-1581(2020)
[56] 大都会,北。;罗森布鲁斯,A.W。;罗森布鲁斯,M.N。;出纳员,A.H。;Teller,E.,“快速计算机状态方程计算”,化学物理杂志,211087-1092(1953)·Zbl 1431.65006
[57] 梅恩,S.P。;Tweedie,R.L.,《马尔可夫链几何收敛速度的可计算界》,《应用概率年鉴》,4981-1011(1994)·Zbl 0812.60059
[58] Minka,T.P.,第17届人工智能不确定性会议论文集,近似贝叶斯推断的期望传播,362-369(2001),摩根考夫曼出版社
[59] 明斯克,S。;斯利瓦斯塔瓦。;林,L。;Dunson,D.B.,“通过子集后验测量的中位数实现稳健和可伸缩的贝叶斯”,机器学习研究杂志,184488-4527(2017年)
[60] Nagapetyan,T.,Duncan,A.B.,Hasenclever,L.,Vollmer,S.J.,Szpruch,L.和Zygalakis,K.(2017),“随机梯度朗之万动力学的真实成本”,arXiv第1706.02692号。
[61] 尼尔,R.M。;布鲁克斯,S。;盖尔曼,A。;琼斯,G.L。;Meng,X.-L.,马尔可夫链蒙特卡罗手册,使用哈密顿动力学的MCMC,”,113-162(2011),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州博卡拉顿
[62] Neal,R.M.,《神经网络的贝叶斯学习》,118(2012),纽约:斯普林格,纽约
[63] 内斯旺格,W。;王,C。;Xing,E.P.,渐近精确,令人尴尬的平行MCMC,623-632(2014)
[64] 内梅特,C。;Sherlock,C.,“通过高斯过程近似法合并MCMC子实体”,贝叶斯分析,13507-530(2018)·Zbl 1407.62081
〔65〕 相关函数与计算机模拟,核物理B,180378-384(1981)
[66] 帕特森S。;李永伟,概率单纯形上的随机梯度黎曼-朗之万动力学,神经信息处理系统进展,3102-3110(2013)
[67] 北卡罗来纳州皮莱市。;斯图尔特,A.M。;Thiéry,A.H.,“高维Langevin算法的最优缩放和扩散限制,《应用概率年鉴》,222320-2356(2012)·Zbl 1272.60053
[68] Plummer,M.,JAGS:使用Gibbs抽样分析贝叶斯图形模型的程序,第三届分布式统计计算国际研讨会论文集,12410(2003)
〔69〕 波洛克,M。;海普,费恩海德。;约翰森,上午。;Roberts,G.O.,“准平稳蒙特卡罗和标度算法”,《皇家统计学会杂志》,B辑(2020年)
[70] 基洛兹,M。;科恩,R。;尼维拉姆。;Tran,M.-N.,“通过有效数据子抽样加速MCMC”,美国统计协会期刊,114831-843(2019年)·Zbl 1420.62121
[71] 拉比诺维奇,M。;安吉利诺,E。;Jordan,M.I.,变分共识蒙特卡罗,神经信息处理系统进展,1207-1215(2015)
[72] 拉金斯基,M。;拉克林,A。;Telgarsky,M.,《基于随机梯度的非凸学习——Langevin动力学:一个非共感分析》,学习理论会议,1674-1703(2017)
[73] 拉吉,A。;斯蒂芬斯,M。;Pritchard,J.K.,“快速结构:大型SNP数据集中种群结构的变分推断”,遗传学,197573-589(2014)
[74] 《随机模拟》(1987),纽约:威利,纽约·Zbl 0613.65006
[75] 罗宾斯,H。;Monro,S.,“随机逼近方法”,《数理统计年鉴》,22400-407(1951)·Zbl 0054.05901
[76] 罗伯茨,G.O。;罗森塔尔,J.S.,“几何遍历性和混合马尔可夫链,概率电子通信,2,13-25(1997)·中银0890.60061
[77] 罗伯茨,G.O。;Rosenthal,J.S.,“Langevin扩散离散近似的最佳标度”,皇家统计学会期刊,B辑,60255-268(1998)·Zbl 0913.60060
[78] 罗伯茨,G.O。;Rosenthal,J.S.,“各种Metropolis-Hastings算法的最优标度,统计科学,16351-367(2001)·Zbl 1127.65305
[79] 罗伯茨,G.O。;罗森塔尔,J.S.,“一般状态空间马尔可夫链和MCMC算法,概率调查,12071(2004)·Zbl 1189.60131号
[80] 罗伯茨,G.O。;Tweedie,R.L.,“Langevin分布及其离散近似的指数收敛性”,Bernoulli,2341-363(1996)·Zbl 0870.60027
[81] 萨拉胡特迪诺夫,R。;Mnih,A.,使用马尔可夫链蒙特卡罗的贝叶斯概率矩阵分解,第25届机器学习国际会议论文集,880-887(2008)
[82] Salehi,F.,Celis,L.E.和Thiran,P.(2017年),“Bandit抽样随机优化”,arXiv第1708.02544号。
[83] 斯科特,S.L。;布洛克,A.W。;波拿西,F.V。;奇普曼,H.A。;乔治,E.I。;McCulloch,R.E.,“贝叶斯与大数据:共识蒙特卡罗算法”,国际管理科学与工程管理杂志,11,78-88(2016)
[84] 森,D。;萨克斯,M。;卢,J。;Dunson,D.B.,“高维非平衡Logistic回归的有效后验抽样,Biometrika(2020年)·Zbl 1457.62221
[85] 斯利瓦斯塔瓦。;李,C。;Dunson,D.B.,“Wasserstein Space中通过重心的可伸缩Bayes”,《机器学习研究杂志》,19312-346(2018)·Zbl 1444.62037
[86] 张永伟。;蒂瑞,A.H。;Vollmer,S.J.,“随机梯度朗之万动力学的一致性和波动”,机器学习研究杂志,17193-225(2016)
[87] Tran,D.,Kucukelbir,A.,Dieng,A.B.,Rudolph,M.,Liang,D.和Blei,D.M.(2016年),“爱德华:概率建模、推理和批评库”,arXiv第1610.09787号。
[88] 沃尔默,S.J。;肯塔基州Zygalakis。;Teh,Y.W.,《随机梯度Langevin动力学的(非)渐近偏差和方差的探索》,机器学习研究杂志,175504-5548(2016)
[89] 王,Y.-X。;费恩伯格,S。;Smola,A.,免费隐私:后验抽样和随机梯度蒙特卡罗,2493-2502(2015)
[90] 韦林,M。;Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,681-688(2011)
[91] Yogatama,D。;王,C。;劳特利奇,英国。;史密斯,北卡罗来纳州。;Xing,E.P.,《流式文本的动态语言模型》,计算语言学协会学报,2118-192(2014)
[92] 祖阿内蒂D。;穆勒。;朱,Y。;杨,S。;Ji,Y.,《大数据集的贝叶斯非参数聚类,统计与计算》,29203-215(2019)·Zbl 1430.62146
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。