×

从这里到无穷:基于模型聚类中稀疏有限与Dirichlet过程混合。 (英语) Zbl 1474.62225号

摘要:在基于模型的聚类中,混合模型用于将数据点分组为簇。通过引入高斯混合的有用概念G.马尔西纳·瓦利等【统计计算26,No.1–2,303–324(2016;Zbl 1342.62109号)]是稀疏有限混合,其中含有(K)组分的混合的权重分布的先验分布是以这样的方式选择的,即数据中的先验簇数是随机的,并且允许以较高的概率小于(K)。然后从数据中推断出聚类的数量。本文在稀疏有限混合建模的背景下做出了以下贡献。首先,说明了稀疏有限混合的概念是非常通用的,并且很容易扩展到聚类各种类型的非高斯数据,特别是来自非高斯聚类的离散数据和连续多元数据。其次,将稀疏有限混合与Dirichlet过程混合进行比较,以了解其识别簇数的能力。对于这两个模型类,考虑了确定权重分布的参数的随机超先验。通过对这些先验值进行适当匹配,可以看出,与考虑稀疏有限混合或Dirichlet过程混合相比,超先验值的选择对聚类解的影响要大得多。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
60年12月 一般二阶随机过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aitkin M(1996)广义线性模型中过度分散的一般最大似然分析。统计计算6:251-262·doi:10.1007/BF00140869
[2] Azzalini A(1985)包含正态分布的一类分布。扫描J统计12:171-178·Zbl 0581.62014号
[3] Azzalini A(1986)关于一类包含正态分布的分布的进一步结果。统计46:199-208·Zbl 2013年6月6日
[4] Azzalini A,Capitanio A(2003)对称扰动产生的分布,强调多元斜t分布。J R Stat Soc序列B 65:367-389·Zbl 1065.62094号 ·数字对象标识代码:10.1111/1467-9868.00391
[5] Azzalini A,Dalla Valle A(1996)多元斜态正态分布。生物特征83:715-726·Zbl 0885.62062号 ·doi:10.1093/biomet/83.4.715
[6] Banfield JD,Raftery AE(1993),基于模型的高斯和非高斯聚类。生物统计学49:803-821·Zbl 0794.62034号 ·doi:10.2307/2532201
[7] Bennett DA、Schneider JA、Buchman AS、de Leon CM、Bienias JL、Wilson RS(2005)《快速记忆和衰老项目:研究队列的研究设计和基线特征》。神经流行病学25:163-175·数字对象标识代码:10.1159/000087446
[8] Bensmail H,Celeux G,Raftery AE,Robert CP(1997),基于模型的聚类分析推断。统计计算7:1-10·doi:10.1023/A:1018510926151
[9] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22:719-725(IEEE传输模式分析机器智能)·doi:10.1109/34.865189
[10] Celeux G、Forbes F、Robert CP、Titterington DM(2006)缺失数据模型的偏差信息标准。贝叶斯分析1:651-674·Zbl 1331.62329号 ·doi:10.1214/06-BA122
[11] Celeux,G。;Frühwirth-Schnatter,S。;CP罗伯特;Frühwirth-Schnatter,S.(编辑);Celeux,G.(编辑);Robert,CP(编辑),混合模型的模型选择——视角和策略,121-160(2018),博卡拉顿
[12] Clogg CC,Goodman LA(1984)一组多维连续表的潜在结构分析。美国统计协会杂志79:762-771·Zbl 0547.62037号 ·doi:10.1080/01621459.1984.10477093
[13] Dellaportas P,Papageorgiou I(2006),成分数量未知的多元混合法线。统计计算16:57-68·doi:10.1007/s11222-006-5338-6
[14] Escobar MD,West M(1995),贝叶斯密度估计和混合推理。美国统计协会杂志90:577-588·Zbl 0826.62021号 ·doi:10.1080/01621459.1995.10476550
[15] 医学博士埃斯科瓦尔;韦斯特,M。;Dey,D.(编辑);Müller,P.(编辑);Sinha,D.(编辑),《计算非参数层次模型》,1-22(1998),柏林·Zbl 0918.62028号
[16] Fall MD,Baraté(2014)Pitman-Yor混合模型的Gibbs采样方法。工作文件https://hal.archives-ouvertes.fr/hal-00740770/file/Fall-Barat.pdf
[17] Ferguson TS(1973)一些非参数问题的贝叶斯分析。安统计1:209-230·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[18] Ferguson TS(1974)概率测度空间的先验分布。安统计2:615-629·Zbl 0286.62008号 ·doi:10.1214/aos/1176342752
[19] 弗格森,TS;Rizvi,MH(编辑);Rustagi,JS(编辑),混合正态分布的贝叶斯密度估计,287-302(1983),纽约·Zbl 0557.62030号 ·doi:10.1016/B978-0-12-589320-6.50018-6
[20] Frühwirth-Schnatter S(2004)使用桥式抽样技术估计混合和马尔可夫切换模型的边际可能性。经济杂志7:143-167·兹比尔1053.62087 ·doi:10.1111/j.1368-423X.2004.00125.x
[21] Frühwirth-Schnatter S(2006)有限混合和马尔可夫切换模型。纽约州施普林格·Zbl 1108.6202号
[22] Frühwirth-Schnatter,S。;Mengersen,K.(编辑);罗伯特,CP(编辑);Titterington,D.(编辑),《处理模型不确定性下的标签转换》,213-239(2011),奇切斯特·数字对象标识代码:10.1002/9781119995678.ch10
[23] Frühwirth-Schnatter,S。;Mengersen,K.(编辑);罗伯特,CP(编辑);Titterington,D.(编辑),模型不确定性下的标签转换,213-239(2011),霍博肯·数字对象标识代码:10.1002/9781119995678.ch10
[24] Frühwirth-Schnatter S,Pyne S(2010)关于单变量和多元斜正态分布和斜t分布有限混合的贝叶斯推断。生物统计学11:317-336·Zbl 1437.62465号 ·doi:10.1093/biostatistics/kxp062
[25] Frühwirth-Schnatter S,Wagner H(2008)使用辅助混合抽样的非高斯模型的边际可能性。计算统计数据分析52:4608-4624·Zbl 1452.62060号 ·doi:10.1016/j.csda.2008.03.028
[26] Frühwirth-Schnatter S,Frü)hwirth R,Held L,Rue H(2009)非高斯数据分层模型的改进辅助混合采样。统计计算19:479-492·数字对象标识代码:10.1007/s11222-008-9109-4
[27] Frühwirth-Schnatter S,Celeux G,Robert CP(eds)(2018)混合物分析手册。博卡拉顿CRC出版社
[28] Goodman LA(1974)使用可识别和不可识别模型进行探索性潜在结构分析。生物特征61:215-231·Zbl 0281.62057号 ·doi:10.1093/biomet/61.2.215
[29] Green PJ,Richardson S(2001)用和不用Dirichlet过程模拟异质性。扫描J统计28:355-375·Zbl 0973.62031号 ·doi:10.1111/1467-9469.00242
[30] Grün,B。;Frühwirth-Schnatter,S.(编辑);Celeux,G.(编辑);Robert,CP(编辑),基于模型的聚类,163-198(2018),博卡拉顿
[31] Hubert L,Arabie P(1985)比较分区。J类2(1):193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[32] Ishwaran H,James LF(2001),吉布斯(Gibbs)《破胶前期的取样方法》。美国统计学会杂志96:161-173·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[33] Kalli M,Griffin JE,Walker SG(2011)切片取样混合模型。统计计算21:93-105·Zbl 1256.65006号 ·doi:10.1007/s11222-009-9150-y
[34] Keribin C(2000)混合物模型阶数的一致估计。桑基拉A 62:49-66·兹比尔1081.62516
[35] Lau JW,Green P(2007)基于贝叶斯模型的聚类程序。J计算图表统计16:526-558·doi:10.1198/106186007X238855
[36] Lazarsfeld PF,Henry NW(1968),潜在结构分析。Houghton Mifflin,纽约·Zbl 0182.52201号
[37] Lee S,McLachlan GJ(2013)非正态混合分布的基于模型的聚类和分类。统计方法应用程序22:427-454·Zbl 1332.62209号 ·doi:10.1007/s10260-013-0237-4
[38] Linzer DA,Lewis JB(2011)polca:多体变量潜在类分析的R包。J Stat Softw统计软件42(10):1-29·doi:10.18637/jss.v042.i10
[39] Malsiner Walli G,Frühwirth-Schnatter S,Grün B(2016)基于稀疏有限高斯混合的基于模型的聚类。统计计算26:303-324·Zbl 1342.62109号 ·doi:10.1007/s11222-014-9500-2
[40] Malsiner Walli G,Frühwirth-Schnatter S,Grün B(2017)使用贝叶斯估计识别混合物混合物。J计算图表统计26:285-295·Zbl 1342.62109号 ·doi:10.1080/10618600.2016.1200472
[41] Malsiner-Walli G,Pauger D,Wagner H(2018)使用基于模型的聚类进行效果融合。统计模型18:175-196·Zbl 07289504号 ·doi:10.177/1471082X17739058
[42] McLachlan GJ,Peel D(2000)有限混合模型。概率统计中的威利级数。纽约威利·Zbl 0963.62061号 ·doi:10.1002/0471721182
[43] Medvedovic M,Yeung KY,Bumgarner RE(2004)基于贝叶斯混合模型的重复微阵列数据聚类。生物信息学20:1222-1232·doi:10.1093/bioinformatics/bth068
[44] Miller JW,Harrison MT(2013)Dirichlet工艺混合物成分数量不一致的简单示例。主题:神经信息处理系统的进展,第199-206页
[45] Miller JW、Harrison MT(2018)混合模型与成分数量先验。美国统计协会期刊113:340-356·Zbl 1398.62066号 ·doi:10.1080/01621459.2016.1255636
[46] Müller P,Mitra R(2013)贝叶斯非参数推断——为什么和如何。贝叶斯分析8:269-360·Zbl 1329.62171号 ·doi:10.1214/13-BA811
[47] Nobile A(2004)关于有限混合物中成分数量的后验分布。安统计32:2044-273·Zbl 1056.62037号 ·doi:10.1214/09053604000000788
[48] Papaspiliopoulos O,Roberts G(2008),Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法。生物特征95:169-186·兹比尔1437.62576 ·doi:10.1093/biomet/asm086
[49] Polson NG,Scott JG,Windle J(2013)使用Pólya Gamma潜变量的逻辑模型的贝叶斯推理。美国统计学会杂志108:1339-49·Zbl 1283.62055号 ·doi:10.1080/01621459.2013.829001
[50] Quintana FA,Iglesias PL(2003)贝叶斯聚类和产品划分模型。J R Stat Soc序列B 65:557-574·Zbl 1065.62115号 ·doi:10.1111/1467-9868.00402
[51] Richardson S,Green PJ(1997),关于成分数量未知的混合物的贝叶斯分析。J R Stat Soc系列B 59:731-792·Zbl 0891.62020号 ·数字标识代码:10.1111/1467-9868.00095
[52] Rousseau J,Mengersen K(2011)过量混合模型中后验分布的渐近行为。J R Stat Soc系列B 73:689-710·Zbl 1228.62034号 ·doi:10.1111/j.1467-9868.2011.00781.x
[53] Sethuraman J(1994)Dirichlet先验的建设性定义。统计Sin 4:639-650·Zbl 0823.62007号
[54] Stern H、Arcus D、Kagan J、Rubin DB、Snidman N(1994)《婴儿气质研究中的统计选择》。行为测量学21:1-17·doi:10.233/bhmk.21.1
[55] van Havre Z,White N,Rousseau J,Mengersen K(2015)成分数量未知的贝叶斯混合模型拟合过度。公共图书馆综合服务10(7):e0131739,1-27
[56] Viallefont V,Richardson S,Green PJ(2002),泊松混合物的贝叶斯分析。非参数统计杂志14:181-202·Zbl 1014.62035号 ·doi:10.1080/10485250211383
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。