×

贝叶斯聚类分析:点估计和可信球(讨论)。 (英语) Zbl 1407.62241号

摘要:聚类在统计学和机器学习中得到了广泛的研究,在许多领域都有应用。与返回单个聚类解的聚合层次聚类或k-means等流行算法不同,贝叶斯非参数模型在整个分区空间上提供了一个后验值,允许评估统计特性,例如簇数的不确定性。然而,一个重要的问题是如何总结后面的内容;分区空间的巨大尺寸和可视化的困难增加了这个问题。在贝叶斯分析中,通常通过报告点估计值(如后验均值)以及95%可信区间来总结实际值感兴趣参数的后验值,以表征不确定性。在本文中,我们将这些思想扩展到开发适当的点估计和可信集,以基于决策和信息论技术总结聚类结构的后验性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
2015年1月62日 贝叶斯推断
62G07年 密度估算
62G15年 非参数容差和置信区域
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Binder,D.(1978年)。“贝叶斯聚类分析”,《生物特征》,65:31-38·Zbl 0376.62007号 ·doi:10.1093/biomet/65.1.31
[2] Broderick,T.、Kulis,B.和Jordan,M.(2013年)。“MAD-Bayes:基于MAP的Bayes渐近推导”,《第30届机器学习国际会议论文集》,226-234。
[3] Dahl,D.(2006)。“通过Dirichlet过程混合模型对表达数据进行基于模型的聚类”,Do,K.,Müller,P.和Vannucci,M.(编辑),基因表达和蛋白质组学的贝叶斯推断,201-218。剑桥大学出版社。
[4] Dahl,D.(2009)。“一类产品划分模型中的模态聚类”,贝叶斯分析,4:243–264·Zbl 1330.62248号 ·doi:10.1214/09-BA409
[5] Duan,J.、Guindani,M.和Gelfand,A.(2007年)。“广义空间Dirichlet过程”,《生物统计学》,94:809-825·Zbl 1156.62064号 ·doi:10.1093/biomet/asm071
[6] Dunson,D.(2010年)。“非参数贝叶斯在生物统计学中的应用”,收录于Hjort,N.、Holmes,C.、Müller,P.和Walker,S.(eds.),贝叶斯非参数。剑桥大学出版社。
[7] Favaro,S.和Teh,Y.(2013)。“规范化随机测量混合模型的MCMC”,《统计科学》,28:335-359·兹比尔1331.62138 ·doi:10.1214/13-STS422
[8] Favaro,S.和Walker,S.(2012年)。“切片取样\(σ\)-稳定泊松-金曼混合模型”,《计算与图形统计杂志》,22:830-847。
[9] Ferguson,T.(1973)。“一些非参数问题的贝叶斯分析”,《统计年鉴》,1:209-230·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[10] Fraley,C.和Raftery,A.(2002年)。“基于模型的聚类、判别分析和密度估计”,《美国统计协会杂志》,97:611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[11] Fritsch,A.(2012)。mcclust:处理MCMC聚类样本。统一资源定位地址http://cran.r-project.org/web/packages/mcclust/mcclust.pdf
[12] Fritsch,A.和Ickstadt,K.(2009年)。“基于后验相似矩阵的改进聚类标准”,贝叶斯分析,4:367-392·Zbl 1330.62249号 ·doi:10.1214/09-BA414
[13] Griffin,J.和Steel,M.(2006)。“基于顺序的依赖狄利克雷过程”,《美国统计协会期刊》,10:179-194·Zbl 1118.62360号 ·doi:10.1198/01621450000000727
[14] Griffiths,T.和Ghahramani,Z.(2011年)。“印度自助餐过程:介绍与回顾”,《机器学习研究杂志》,12:1185-1224·Zbl 1280.62038号
[15] Hartigan,J.和Wong,M.(1979年)。“算法AS136:A k-means聚类算法”,《皇家统计学会杂志》,C辑,28:100–108·Zbl 0447.62062号
[16] Heard,N.、Holmes,C.和Stephens,D.(2006年)。“按蚊免疫反应相关基因调控的定量研究:贝叶斯层次聚类曲线的应用”,《美国统计协会杂志》,101:18-29·Zbl 1118.62368号 ·doi:10.19198/0162114505000000187
[17] Heller,K.和Ghahramani,Z.(2005年)。《贝叶斯层次聚类》,第22届机器学习国际会议论文集,297-304。
[18] Hubert,L.和Arabie,P.(1985)。“比较分区”,《分类杂志》,2:193-218·Zbl 0587.62128号
[19] Ishwaran,H.和James,L.(2001)。《Gibbs campling methods for stick breaking priors》,《美国统计协会期刊》,96:161-173·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[20] Jiang,K.、Kulis,B.和Jordan,M.(2012年)。“指数族Dirichlet过程混合模型的小方差渐近性”,《神经信息处理系统进展》,3158–3166。
[21] Kalli,M.、Griffin,J.和Walker,S.(2011年)。切片取样混合模型〉,《统计与计算》,21:93–105·Zbl 1256.65006号 ·doi:10.1007/s11222-009-9150-y
[22] Kulis,B.和Jordan,M.(2012年)。“重温K-means:通过贝叶斯非参数的新算法”,《第29届机器学习国际会议论文集》,513-520。
[23] Lau,J.和Green,P.(2007年)。“基于贝叶斯模型的聚类程序”,《计算与图形统计杂志》,16:526-558。
[24] Likoi,A.和Prünster,I.(2011年)。“Dirichlet过程以外的模型”,收录于Hjort,N.、Holmes,C.、Müller,P.和Walker,S.(编辑),《贝叶斯非参数学》,80–136。英国剑桥:剑桥大学出版社。
[25] Lo,A.(1984)。“关于一类贝叶斯非参数估计:I.密度估计”,《统计学年鉴》,12:351-357·Zbl 0557.62036号 ·doi:10.1214/aos/1176346412
[26] Lomellí,M.、Favaro,S.和Teh,Y.(2015)。“泊松-金曼混合模型的混合取样器”,摘自Cortes,C.、Lawrence,N.、Lee,D.、Sugiyama,M.和Garnett,R.(编辑)《神经信息处理系统进展》28。
[27] Lomellí,M.、Favaro,S.和Teh,Y.(2016)。“(σ)稳定泊松-金曼混合模型的边缘采样器”,《计算与图形统计杂志》。出现。
[28] MacEachern,S.(2000年)。“依赖性Dirichlet过程”,俄亥俄州立大学统计系技术报告。
[29] Medvedovic,M.和Sivaganesan,S.(2002年)。“基于贝叶斯无限混合模型的基因表达谱聚类”,《生物信息学》,18:1194-1206。
[30] Medvedovic,M.、Yeung,K.和Bumgarner,R.(2004)。“基于贝叶斯混合模型的重复微阵列数据聚类”,《生物信息学》,20:1222-1232。
[31] 梅勒,M.(2007)。“比较聚类——基于信息的距离”,《多元分析杂志》,98:873-895·兹比尔1298.91124 ·doi:10.1016/j.jmva.2006.11.013
[32] Miller,J.和Harrison,M.(2013)。“Dirichlet过程混合物成分数量不一致的一个简单例子。”摘自Burges,C.、Bottou,L.、Welling,M.、Ghahramani,Z.和Weinberger,K.(编辑)《神经信息处理系统进展》26。Curran Associates公司。
[33] Miller,J.和Harrison,M.(2014)。“部件数量的Pitman–Yor工艺混合物不一致”,《机器学习研究杂志》,15:3333–3370·Zbl 1319.62100号
[34] Molitor,J.、Papathomas,M.、Jerrett,M.和Richardson,S.(2010年)。“贝叶斯轮廓回归在全国儿童健康调查中的应用”,《生物统计学》,11:484-498·Zbl 1437.62560号
[35] Müller,P.和Quintana,F.(2004)。“非参数贝叶斯数据分析”,《统计科学》,19:95–110·Zbl 1057.62032号
[36] Nation,J.(1991)。格理论注释。http://www.math.hawaii.edu/jb/books.html。
[37] Neal,R.(2000)。“Dirichlet过程混合模型的马尔可夫链抽样方法”,《计算与图形统计杂志》,9:249-265。
[38] Papaspiliopoulos,O.和Roberts,G.(2008)。“Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法”,《生物特征》,95(1):169-186·Zbl 1437.62576号 ·doi:10.1093/biomet/asm086
[39] Pitman,J.(2003)。“泊松-金曼分区”,《统计与科学:特里·斯皮德的节日》,1-34。比奇伍德:IMS课堂讲稿。
[40] Pitman,J.和Yor,M.(1997)。《概率年鉴》,25:855–900·Zbl 0880.60076号 ·doi:10.1214/aop/1024404422
[41] 金塔纳·F(2006)。“贝叶斯聚类的预测观点”,《统计规划与推断杂志》,136:2407-2429·Zbl 1090.62023号 ·doi:10.1016/j.jspi.2004.09.015
[42] Quintana,F.和Iglesias,P.(2003)。《贝叶斯聚类和产品划分模型》,《皇家统计学会期刊:B辑》,65:557-574·Zbl 1065.62115号 ·doi:10.111/1467-9868.00402
[43] Rand,W.(1971)。“聚类方法评估的客观标准”,《美国统计协会杂志》,66:846-850。
[44] Rasmussen,C.、De la Cruz,B.、Ghahramani,Z.和Wild,D.(2009年)。“使用Dirichlet过程混合物对基因表达簇中的不确定性进行建模和可视化”,《计算生物学和生物信息学》,IEEE/ACM汇刊,6:615-628。
[45] Raykov,Y.、Boukouvalas,A.和Little,M.(2014)。“Dirichlet过程的简单近似MAP推断”,可在https://arxiv.org/abs/1411.0939。 ·Zbl 1357.62227号 ·doi:10.1214/16-EJS1196
[46] Roeder,K.(1990年)。“以超星团和星系空洞为例的置信集密度估计”,《美国统计协会杂志》,85:617-624·Zbl 0704.62103号 ·doi:10.1080/01621459.1990.10474918
[47] Teh,Y.、Jordan,M.、Beal,M.和Blei,D.(2006年)。“等级迪里克莱过程”,《美国统计协会期刊》,101:1566-1581·Zbl 1171.62349号 ·doi:10.1198/016214500000302
[48] Vinh,N.、Epps,J.和Bailey,J.(2010年)。“聚类比较的信息论度量:变量、属性、归一化和机会修正”,《机器学习研究杂志》,11:2837–2854·Zbl 1242.62062号
[49] Wade,S.(2015)。mcclust.ext:贝叶斯聚类分析的点估计和可信球。统一资源定位地址https://www.researchgate.net/publication/279848500_mcclusterxt-manual。
[50] Wade,S.和Ghahramani,Z.(2017年)。贝叶斯聚类分析的补充材料:点估计和可信球。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。