×

通过多元(t)分布的混合进行基于模型的聚类、分类和判别分析。 (英语) Zbl 1252.62062号

摘要:过去十年中,使用混合模型进行聚类的工作激增。高斯混合模型的使用已成为常见的实践,有时会对成分协方差矩阵施加约束,以给出混合模型族。类似的方法也被应用于分类和判别分析,尽管繁殖力较低。我们首先介绍了基于模型的聚类并简要介绍了最新技术。然后,我们提出了一种新的混合模型族,其中每个组件都使用具有特征分解协方差结构的多元(t)分布建模。这个家族在很大程度上类似于众所周知的MCLUST家族,被称为EIGEN家族。用真实数据和模拟数据说明了该族在聚类、分类和判别分析方面的有效性。在三个实际数据集上,将该族的性能与高斯族的性能进行了比较。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H10型 统计的多元分布
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Andrews,J.L.,McNicholas,P.D.:多元t因子分析仪的扩展混合物。统计计算。21(3),361–373(2011年a)·Zbl 1255.62171号 ·doi:10.1007/s11222-010-9175-2
[2] Andrews,J.L.,McNicholas,P.D.:基于模型的聚类、分类和判别分析的改良t因子分析仪的混合物。J.统计计划。推断141(4),1479–1486(2011b)·Zbl 1204.62098号 ·doi:10.1016/j.jspi.2010.10.014
[3] Andrews,J.L.,McNicholas,P.D.,Subedi,S.:通过多元t-分布混合物进行基于模型的分类。计算。统计数据分析。55(1), 520–529 (2011) ·Zbl 1247.62151号 ·doi:10.1016/j.csda.2010.05.019
[4] Banfield,J.D.,Raftery,A.E.:基于模型的高斯和非高斯聚类。生物统计学49(3),803-821(1993)·兹比尔0794.62034 ·doi:10.2307/2532201
[5] Baum,L.E.,Petrie,T.,Soules,G.,Weiss,N.:马尔可夫链概率函数统计分析中出现的最大化技术。安。数学。Stat.41,164–171(1970)·Zbl 0188.49603号 ·doi:10.1214/aoms/1177697196
[6] Besag,J.、Green,P.、Higdon,D.、Mengersen,K.:贝叶斯计算和随机系统。统计科学。10(1), 3–41 (1995) ·Zbl 0955.6252号 ·doi:10.1214/s/s1177010123
[7] Bouveyron,C.,Girard,S.,Schmid,C.:高维数据聚类。计算。统计数据分析。52(1), 502–519 (2007) ·Zbl 1452.62433号 ·doi:10.1016/j.csda.2007.02.009
[8] Celeux,G.,Govaert,G.:高斯简约聚类模型。模式识别。28, 781–793 (1995) ·Zbl 05480211号 ·doi:10.1016/0031-3203(94)00125-6
[9] Dasgupta,A.,Raftery,A.E.:通过基于模型的聚类检测杂波空间点过程中的特征。《美国统计协会杂志》93,294–302(1998)·Zbl 0906.62105号 ·数字标识代码:10.1080/01621459.1998.10474110
[10] Day,N.E.:估计正态分布混合物的成分。生物特征56、463–474(1969)·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[11] Dean,N.,Murphy,T.B.,Downey,G.:使用未标记的数据更新分类规则,并将其应用于食品真实性研究。J.R.Stat.Soc.,塞尔维亚。C、 申请。Stat.55(1),1-14(2006)·Zbl 1490.62155号 ·文件编号:10.1111/j.1467-9876.200526.x
[12] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法获得不完整数据的最大似然。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。39(1), 1–38 (1977) ·Zbl 0364.62022号
[13] Edwards,A.W.F.,Cavalli-Sforza,L.L.:一种聚类分析方法。生物统计学21,362–375(1965)·doi:10.2307/2528096
[14] Forina,M.、Armanino,C.、Castino,M.和Ubigli,M.:多元数据分析作为葡萄酒原产地的判别方法。Vitis 25189-201(1986)
[15] 弗雷利,C.,拉弗瑞,A.E.:有几个集群?哪些聚类方法?通过基于模型的聚类分析回答。计算。J.41(8),578–588(1998)·兹伯利0920.68038 ·doi:10.1093/comjnl/41.8.578
[16] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97(458),611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[17] Fraley,C.,Raftery,A.E.:MCLUST:R的第3版:正态混合建模和基于模型的聚类。华盛顿大学统计系技术报告504(2006年9月)。2007年1月和2007年11月的小修订
[18] Gordon,A.D.:分类。查普曼和霍尔,伦敦(1981年)
[19] Greselin,F.,Ingrassia,S.:多元t分布混合的约束单调EM算法。统计计算。20(1),9-22(2010年a)·doi:10.1007/s11222-008-9112-9
[20] Greselin,F.,Ingrassia,S.:混合t分布的弱同方差约束。收录:Fink,A.、Lausen,B.、Seidel,W.、Ultsch,A.(编辑)《数据分析、数据处理和商业智能进展》。分类、数据分析和知识组织研究,第219-228页。施普林格,柏林/海德堡(2010b)
[21] Hastie,T.,Tibshirani,R.:高斯混合判别分析。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。58, 155–176 (1996) ·Zbl 0850.62476号
[22] Hubert,L.,Arabie,P.:比较分区。J.分类。2, 193–218 (1985) ·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[23] Hurley,C.:多元数据的聚类可视化。J.计算。图表。Stat.13(4),788–806(2004)·doi:10.1198/106186004X12425
[24] Kass,R.E.,Raftery,A.E.:贝叶斯因子。J.Am.Stat.Assoc.90,773–795(1995)·Zbl 0846.62028号 ·doi:10.1080/01621459.1995.10476572
[25] Kass,R.E.,Wasserman,L.:嵌套假设的参考贝叶斯检验及其与Schwarz准则的关系。《美国统计协会期刊》90(431),928-934(1995)·Zbl 0851.62020号 ·doi:10.1080/01621459.1995.10476592
[26] Keribin,C.:Sankhyá混合模型阶数的一致估计。印第安J.Stat.,Ser。A 62(1),49–66(2000)·Zbl 1081.62516号
[27] Leroux,B.G.:混合分布的一致估计。Ann.Stat.20,1350–1360(1992)·Zbl 0763.62015号 ·doi:10.1214/aos/1176348772
[28] Lindsay,B.G.:混合模型:理论、几何和应用。载:NSF-CBMS概率与统计区域会议系列,第5卷。海沃德数理统计研究所(1995)·兹比尔1163.62326
[29] Mangasarian,O.L.,Street,W.N.,Wolberg,W.H.:通过线性规划进行乳腺癌诊断和预后。运筹学43(4),570-577(1995)·Zbl 0857.90073号 ·doi:10.1287/操作43.4.570
[30] Maugis,C.,Celeux,G.,Martin-Magniette,M.-L.:高斯混合模型聚类的变量选择。生物统计学65(3),701-709(2009)·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[31] McLachlan,G.J.:聚类分析的分类和混合最大似然方法。《统计手册》,第2卷,第199-208页。荷兰北部,阿姆斯特丹(1982)·Zbl 0513.62064号
[32] McLachlan,G.J.:判别分析和统计模式识别。新泽西州威利(1992)·Zbl 1108.62317号
[33] McLachlan,G.J.,Basford,K.E.:混合模型:推理和聚类应用。Marcel Dekker,纽约(1988)·Zbl 0697.62050号
[34] McLachlan,G.J.,Peel,D.:通过多元t分布混合物进行稳健聚类分析。收录于:《计算机科学讲义》,第1451卷,第658-666页。柏林施普林格(1998)
[35] McLachlan,G.J.,Peel,D.:因子分析仪的混合物。摘自:第七届机器学习国际会议记录,第599-606页。Morgan Kaufmann,旧金山(2000)
[36] McLachlan,G.J.,Bean,R.W.,Jones,L.B.-T.:扩展混合因子分析模型以纳入多元T分布。计算。统计数据分析。51(11), 5327–5338 (2007) ·Zbl 1445.62053号 ·doi:10.1016/j.csda.2006.09.015
[37] McNicholas,P.D.:使用潜在高斯混合模型的基于模型的分类。J.统计计划。推论140(5),1175–1181(2010)·Zbl 1181.62095号 ·doi:10.1016/j.jspi.2009.11.006
[38] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。统计计算。18, 285–296 (2008) ·doi:10.1007/s11222-008-9056-0
[39] McNicholas,P.D.,Murphy,T.B.:基于模型的纵向数据聚类。可以。《美国联邦法律大全》第38卷(1),第153–168页(2010年a)·Zbl 1190.62120号
[40] McNicholas,P.D.,Murphy,T.B.:通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类。生物信息学26(21),2705–2712(2010b)·doi:10.1093/bioinformatics/btq498
[41] McNicholas,P.D.,Murphy,T.B.,McDaid,A.F.,Frost,D.:通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算。统计数据分析。54(3), 711–723 (2010) ·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[42] Meng,X.-L.,Rubin,D.B.:通过ECM算法的最大似然估计:一般框架。生物特征80,267–278(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2267
[43] Orchard,T.,Woodbury,M.A.:缺失信息原理:理论与应用。收录:Le Cam,L.M.、Neyman,J.、Scott,E.L.(编辑)《第六届伯克利数理统计与概率研讨会论文集》。统计学理论,第1卷,第697-715页。加州大学伯克利分校出版社(1972)·Zbl 0263.62023号
[44] R开发核心团队:统计计算的语言和环境。R统计计算基金会,维也纳(2010年)
[45] Raftery,A.E.,Dean,N.:基于模型聚类的变量选择,《美国统计协会期刊》101(473),168-178(2006)·Zbl 1118.62339号 ·doi:10.19198/0162114506000000113
[46] Rand,W.M.:评价聚类方法的客观标准。J.Am.Stat.Assoc.66,846–850(1971年)·doi:10.1080/01621459.1971.10482356
[47] Schwarz,G.:估算模型的维数。Ann.Stat.6(2),461-464(1978)·兹伯利0379.62005 ·doi:10.1214/aos/1176344136
[48] Scrucca,L.:基于模型聚类的降维。统计计算。20(4), 471–484 (2010) ·doi:10.1007/s11222-009-9138-7
[49] Sundberg,R.:指数族不完全数据的最大似然理论。扫描。《美国法律总汇》第1卷第49–58页(1974年)·Zbl 0284.62014号
[50] Titterington,D.M.,Smith,A.F.M.,Makov,U.E.:有限混合分布的统计分析。奇切斯特·威利(1985)·Zbl 0646.62013.中
[51] Venables,W.N.,Ripley,B.D.:现代应用统计学与S-PLUS。柏林施普林格(1999)·Zbl 0927.62002号
[52] Wolfe,J.H.:类型最大似然分析的计算机程序。USNPRA技术公告65-15,美国海军个人研究活动,圣地亚哥(1965)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。