×

可扩展贝叶斯非参数聚类和分类。 (英语) Zbl 07499271号

摘要:我们开发了一种可扩展的多步蒙特卡罗算法,用于在一大类非参数贝叶斯模型下进行推理,以进行聚类和分类。每个步骤都是“令人尴尬的并行”,可以使用相同的马尔可夫链蒙特卡罗采样器来实现。我们方法的简单性和通用性使我们能够推断出适用于大数据集的广泛贝叶斯非参数混合模型。具体来说,我们将该方法应用于带有协变量回归的产品划分模型下的推理。我们使用两个激励性数据集显示了推断结果:一个大的电子健康记录集和一个银行电话营销数据集。我们发现与其他广泛使用的竞争分类器相比,有趣的聚类和竞争性分类性能。本文的补充材料可在网上获得。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Argiento,R。;Cremaschi,A。;Guglielmi,A.,“使用物种抽样高斯混合模型进行聚类分析的基于密度的算法”,《计算与图形统计杂志》,23,1126-1142(2014)·doi:10.1080/10618600.2013.856796
[2] Argiento,R。;古列尔米,A。;Pievatolo,A.,“使用非参数分层混合的贝叶斯密度估计和模型选择”,计算统计学和数据分析,54816-832(2010)·Zbl 1464.62019年 ·doi:10.1016/j.csda.2009.11.002
[3] Bardenet,R。;Doucet,A。;Holmes,C.,《迈向扩大马尔可夫链蒙特卡罗:自适应子抽样方法》,405-413(2014)
[4] Bardenet,R。;Doucet,A。;Holmes,C.,“关于高数据的马尔可夫链蒙特卡罗方法”,arXiv编号1505.02827(2015)
[5] Barrios,E。;A·李高。;尼托·巴拉哈斯,L.E。;普伦斯特,I.,“用归一化随机测度混合模型建模”,《统计科学》,28,313-334(2013)·Zbl 1331.62120号 ·doi:10.1214/13-STS416
[6] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,《分类和回归树》(1984),加利福尼亚州贝尔蒙特市:加利福尼亚州贝尔蒙市沃兹沃斯·Zbl 0541.62042号
[7] 布罗德里克,T。;博伊德,N。;Wibisono,A。;A.C.威尔逊。;Jordan,M.I.,“流媒体变体贝叶斯,1727-1735(2013)
[8] Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,“BART:贝叶斯加性回归树”,《应用统计年鉴》,4266-298(2010)·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[9] Chipman,H.和McCulloch,R.(2016),“贝叶斯树:贝叶斯加性回归树”,R包版本0.3-1.4。
[10] Choi,E。;比斯瓦尔,S。;马林,B。;杜克·J。;Stewart,W.F。;Sun,J.,使用生成对抗网络生成多标签离散患者记录,286-305(2017)
[11] 科尔特斯,C。;Vapnik,V.,“支持向量网络”,《机器学习》,第20期,第273-297页(1995年)·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[12] Cruz-Mesia,R.D.L。;金塔纳,F.A。;Müller,P.,“具有纵向标记的半参数贝叶斯分类”,《皇家统计学会杂志》,C辑,56,119-137(2007)·Zbl 1490.62363号 ·文件编号:10.1111/j.1467-9876.2007.00569.x
[13] Dahl,D.B。;做,K.-A。;缪勒,P。;Vannucci,M.,基因表达和蛋白质组学的贝叶斯推断,通过Dirichlet过程混合模型对表达数据进行基于模型的聚类,201-218(2006),剑桥:剑桥大学出版社,剑桥·Zbl 1182.62050
[14] De Blasi,P。;Favaro,S。;A·李高。;梅纳,R.H。;普伦斯特,I。;Ruggiero,M.,“Gibbs型先验是Dirichlet过程最自然的推广吗?”,IEEE模式分析和机器智能汇刊,37,212-229(2015)·doi:10.1109/TPAMI.2013.217
[15] 迪安·J。;Ghemawat,S.,“MapReduce:大型集群上的简化数据处理,ACM通信,51107-113(2008)·数字对象标识代码:10.1145/1227452.1327492
[16] Dellaportas,P。;Papageorgiou,I.,“成分数量未知的多元正态混合”,《统计与计算》,第16期,第57-68页(2006年)·doi:10.1007/s11222-006-5338-6
[17] Direct Marketing Association Inc,《直接营销的力量:2011-2012年美国的投资回报率、销售额、支出和就业》(2012),华盛顿特区:直接营销协会,华盛顿特区
[18] Escobar,M.D.,“用Dirichlet过程先验估计正态均值”,《美国统计协会杂志》,89,268-277(1994)·Zbl 0791.62039号 ·doi:10.1080/01621459.1994.10476468
[19] 埃斯特,M。;Kriegel,H.-P。;桑德,J。;Xu,X.,“在有噪声的大型空间数据库中发现簇的基于密度的算法,226-231(1996)
[20] Fahad,A。;北阿尔沙特里。;塔里,Z。;Alamri,A。;哈利勒,I。;Zomaya,A.Y。;福福,S。;Bouras,A.,“大数据聚类算法概览:分类学和实证分析”,IEEE计算新兴主题汇刊,2267-279(2014)·doi:10.1109/TETC.2014.2330519
[21] Favaro,S。;Teh,Y.W.,“归一化随机测量混合模型的MCMC”,《统计科学》,28335-359(2013)·Zbl 1331.62138号 ·doi:10.1214/13-STS422
[22] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,“通过坐标下降广义线性模型的正则化路径”,《统计软件杂志》,33,1-22(2010)·doi:10.18637/jss.v033.i01
[23] Ge,H。;陈,Y。;Wan,M。;Ghahramani,Z.,狄利克雷过程混合模型的分布式推理,2276-2284(2015)
[24] 加赫拉马尼,Z。;Beal,M.J.,“变异贝叶斯学习的传播算法,507-513(2001)
[25] 古德费罗,I。;Pouget-Abadie,J。;米尔扎,M。;徐,B。;Warde-Farley,D。;Ozair,S。;科尔维尔,A。;Bengio,Y.,“生成对抗网,2672-2680(2014)
[26] Green,P.J。;英国阿图兹涅斯基。;佩雷拉,M。;Robert,C.P.,《贝叶斯计算:当前状态和前后采样的透视》,arXiv编号1502.01148(2015)·Zbl 1331.62017年
[27] 格雷顿,A。;博格沃德,K.M。;Rasch,M.J。;Schölkopf,B。;Smola,A.,“内核两样本测试”,《机器学习研究杂志》,13723-7773(2012)·Zbl 1283.62095号
[28] 古铁雷斯,L。;古铁雷斯-佩尼亚,E。;Mena,R.H.,“光谱数据的贝叶斯非参数分类”,计算统计与数据分析,78,56-68(2014)·Zbl 1506.62073号 ·doi:10.1016/j.csda.2014.04.010
[29] Hahsler,M.和Piekenbrock,M.(2018),“dbscan:基于密度的噪声应用程序聚类(dbscan)和相关算法”,R软件包版本1.1-3。
[30] Hartigan,J.A.,“分区模型”,《统计学中的通信》,192745-2756(1990)·doi:10.1080/03610929008830345
[31] Hartigan,J.A。;Wong,M.A.,“136算法:k均值聚类算法”,《皇家统计学会杂志》,C辑,28,100-108(1979)·Zbl 0447.62062号 ·doi:10.2307/2346830
[32] Hjort,N.L。;霍姆斯,C。;缪勒,P。;Walker,S.G.,《统计和概率数学剑桥系列》,“贝叶斯非参数”(2010),剑桥:剑桥大学出版社,剑桥·Zbl 1192.62080号
[33] Ho,T.K.,随机决策森林,278-282(1995)
[34] 医学博士霍夫曼。;布莱,D.M。;王,C。;佩斯利,J.,“随机变量推断”,《机器学习研究杂志》,第14期,1303-1347页(2013年)·Zbl 1317.68163号
[35] Huang,Z.和Gelman,A.(2005),“大数据集贝叶斯计算的抽样”,哥伦比亚大学统计系技术报告。
[36] Jaakkola,T.S。;Jordan,M.I.,“通过变分方法进行贝叶斯参数估计”,《统计与计算》,第10期,第25-37页(2000年)·doi:10.1023/A:1008932416310
[37] Jain,A.K.,“数据聚类:超越K-Means的50年”,模式识别字母,31651-66(2010)·doi:10.1016/j.patrec.2009.09.011
[38] Kingman,J.F.C.,“分区结构的表示”,《伦敦数学学会杂志》,2374-380(1978)·Zbl 0415.92009号 ·doi:10.1112/jlms/s2-18.2.374
[39] 凯鹏华盈,A。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,“海量数据的可扩展引导”,《皇家统计学会杂志》,B辑,76795-816(2014)·Zbl 07555464号 ·doi:10.1111/rssb.12050
[40] 科拉提卡拉,A。;陈,Y。;Welling,M.,《MCMC土地紧缩:削减大都会黑斯廷斯预算》,181-189(2014)
[41] 刘建伟。;Green,P.J.,“基于贝叶斯模型的聚类程序”,《计算与图形统计杂志》,16526-558(2007)·doi:10.1198/106186007X238855
[42] Lee,J。;F.A.金塔纳。;穆勒,P。;Trippa,L.,“定义物种抽样模型的预测概率函数”,《统计科学》,第28期,第209-222页(2013年)·Zbl 1331.62152号 ·doi:10.1214/12-STS407
[43] 李,C.-L。;Chang,W.C。;Cheng,Y。;Yang,Y。;Póczos,B.,“MMD GAN:深入理解力矩匹配网络,2200-2210(2017)
[44] Liaw,A。;Wiener,M.,“随机森林分类和回归”,R News,2,18-22(2002)
[45] A·李高。;梅纳,R.H。;普伦斯特,I.,“具有归一化逆高斯先验的分层混合建模”,《美国统计协会杂志》,1001278-1291(2005)·Zbl 1117.62386号 ·doi:10.1198/01621450050000132
[46] A·李高。;梅纳,R.H。;普伦斯特,I.,“控制贝叶斯非参数混合模型中的强化”,《皇家统计学会杂志》,B辑,69,715-740(2007)·Zbl 07555373号 ·文件编号:10.1111/j.1467-9868.2007.00609.x
[47] Lin,D.,“通过序列变分逼近在线学习非参数混合模型,395-403(2013)
[48] Lo,A.Y.,“关于一类贝叶斯非参数估计:I.密度估计”,《统计年鉴》,第12卷,第351-357页(1984年)·Zbl 0557.62036号 ·doi:10.1214/aos/1176346412
[49] MacEachern,S.N.,未出版手稿,统计部,“依赖Dirichlet过程”,1-40(2000),俄亥俄州立大学
[50] MacEachern,S.N。;Müller,P.,“Dirichlet过程模型的混合估计”,《计算与图形统计杂志》,7,223-238(1998)·doi:10.2307/1390815
[51] Malsiner-Walli,G。;Frühwirth-Schnatter,S。;Grün,B.,“使用贝叶斯估计识别混合物”,《计算与图形统计杂志》,26,285-295(2017)·doi:10.1080/1618600.2016.1200472
[52] Mansinghka,V.K。;罗伊,医学博士。;里夫金,R。;Tenenbaum,J.,《类:生成分类的在线算法》,315-322(2007)
[53] 梅勒,M.,“比较聚类——基于信息的距离”,《多元分析杂志》,98,873-895(2007)·Zbl 1298.91124号 ·doi:10.1016/j.jmva.2006.11.013
[54] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2018),“e1071:统计部的其他职能,概率论小组(前身:e1071),维也纳大学,”R包1.7-0版。
[55] 明斯克,S。;Srivastava,S。;林,L。;Dunson,D.,《通过中位数后验的可扩展和稳健贝叶斯推断》,1656-1664(2014)
[56] Moler,C.,“分布式内存多处理器上的矩阵计算”,超立方体多处理器,86,31(1986)
[57] 莫罗,S。;科尔特斯,P。;Rita,P.,“预测银行电话营销成功的数据驱动方法”,《决策支持系统》,第62、22-31页(2014年)·doi:10.1016/j.dss.2014.03.001
[58] 缪勒,P。;F.金塔纳。;Rosner,G.L.,“协变量回归的产品划分模型”,《计算与图形统计学杂志》,20260-278(2011)·doi:10.1198/jcgs.2011.09066
[59] Neal,R.M.,“Dirichlet过程混合模型的马尔可夫链抽样方法”,《计算与图形统计杂志》,9,249-265(2000)·doi:10.1080/10618600.2000.10474879
[60] 内斯旺格,W。;王,C。;Xing,E.,“渐近精确,令人尴尬的并行MCMC”,arXiv第1311.4780号(2013年)
[61] Ni,Y。;缪勒,P。;朱,Y。;Ji,Y.,“异质互惠图形模型”,生物统计学,74606-615(2018)·Zbl 1414.62466号 ·doi:10.1111/biom.12791
[62] 佩恩,R.D。;Mallick,B.K.,“高数据的两阶段大都市黑斯廷斯”,《分类杂志》,35,29-51(2018)·Zbl 1391.62120号 ·doi:10.1007/s00357-018-9248-z
[63] Pennell,M.L。;邓森,D.B.,“将半参数随机效应模型拟合到大数据集”,《生物统计学》,第8期,第821-834页(2007年)·Zbl 1267.62109号 ·doi:10.1093/biostatistics/kxm008
[64] 皮特曼,J。;Yor,M.,“从稳定子序数导出的双参数Poisson-Dirichlet分布”,《概率年鉴》,25855-900(1997)·Zbl 0880.60076号 ·doi:10.1214/aop/1024404422
[65] 基罗兹,M。;科恩,R。;维拉尼,M。;Tran,M.-N.,“通过有效数据子抽样加速MCMC”,《美国统计协会杂志》,114,1-35(2018)·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[66] Rastelli,R。;Friel,N.,“潜在变量聚类模型的最优贝叶斯估计”,《统计与计算》,第28期,第1169-1186页(2018年)·Zbl 1430.62140号 ·doi:10.1007/s11222-017-9786-y
[67] Rebentrost,P。;Mohseni,M。;Lloyd,S.,“大数据分类的量子支持向量机”,《物理评论快报》,113130503(2014)·doi:10.1103/PhysRevLett.113.130503
[68] 理查森,S。;Green,P.J.,“成分未知的混合物的贝叶斯分析”(含讨论),《皇家统计学会杂志》,B辑,59,731-792(1997)·兹比尔0891.62020 ·数字标识代码:10.1111/1467-9868.00095
[69] 罗德里格斯,A。;Lenkoski,A。;Dobra,A.,“异质样本中的稀疏协方差估计”,《统计学电子期刊》,5981(2011)·Zbl 1274.62207号 ·doi:10.1214/11-EJS634
[70] 斯科特·S·L。;拦截器,A.W。;F.V.博纳西。;Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,“贝叶斯与大数据:共识蒙特卡罗算法”,国际管理科学与工程管理杂志,11,78-88(2016)·doi:10.1080/1759653.2016.1142191
[71] 辛格,A。;Thakur,N。;Sharma,A.,“监督机器学习算法综述,1310-1315(2016)
[72] 储罐A。;Foti,N。;Fox,E.,贝叶斯非参数混合模型的流式变分推断,968-976(2015)
[73] 韦德,S。;Ghahramani,Z.,“贝叶斯聚类分析:点估计和可信球”(含讨论),贝叶斯分析,13559-626(2018)·Zbl 1407.62241号 ·doi:10.1214/17-BA1073
[74] Walker,S.G.,“用切片抽样Dirichlet混合模型”,《统计学通讯》,36,45-54(2007)·Zbl 1113.62058号 ·doi:10.1080/03610910601096262
[75] Wang,L。;Dunson,D.B.,“Dirichlet过程混合模型中的快速贝叶斯推断”,《计算与图形统计杂志》,20,196-216(2011)·doi:10.1198/jcgs.2010.07081
[76] 王,X。;Dunson,D.B.,“通过Weierstrass采样器并联MCMC”,arXiv编号1312.4605(2013)
[77] 韦林,M。;Teh,Y.W.,通过随机梯度Langevin动力学进行贝叶斯学习,681-688(2011)
[78] 白色,S。;Kypraios,T。;Preston,S.,“分段近似贝叶斯计算:使用因子化后验分布快速推断离散观测马尔可夫模型”,《统计与计算》,25,289(2015)·Zbl 1331.65024号 ·doi:10.1007/s11222-013-9432-2
[79] 威廉森,美国。;A.杜比。;Xing,E.P.,非参数混合模型的并行马尔可夫链蒙特卡罗,98-106(2013)
[80] Zhang,Y。;Wainwright,M.J。;Duchi,J.C.,“统计优化的通信高效算法,1502-1510(2012)
[81] 赵,W。;马,H。;He,Q.,IEEE云计算国际会议,基于MapReduce的并行k-Means聚类,674-679(2009),Springer
[82] Zuanetti,D.A。;缪勒,P。;朱,Y。;Yang,S。;Ji,Y.,“大型数据集的贝叶斯非参数聚类”,《统计与计算》,29,203-215(2018)·Zbl 1430.62146号 ·doi:10.1007/s11222-018-9803-9
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。