×

多元因子分析仪的扩展混合。 (英语) Zbl 1255.62171号

概要:基于模型的聚类通常涉及一系列混合模型的开发以及这些模型对数据的强制实施。然后使用一些标准选择族中最好的成员,相关参数估计导致预测的组成员关系或聚类。本文描述了多元因子分析混合模型的扩展,以包括对自由度、因子载荷和误差方差矩阵的约束。结果是一系列六个混合模型,包括节约型模型。该模型族的参数估计是使用交替期望条件最大化算法导出的,收敛性是基于艾特肯加速度确定的。使用贝叶斯信息准则(BIC)和综合完全似然(ICL)进行模型选择。然后将这一新的混合模型族应用于模拟数据和实际数据,这些数据的聚类性能达到或超过了基于模型的聚类方法的聚类性能。模拟研究包括将BIC和ICL作为这一新型模型族的模型选择技术进行比较。还探索了在大维模拟数据中的应用。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banfield,J.D.,Raftery,A.E.:基于模型的高斯和非高斯聚类。生物统计学49(3),803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[2] Biernacki,C.,Celeux,G.,Govaert,G.:评估具有综合完全似然的聚类混合模型。IEEE传输。模式分析。机器。智力。22(7), 719–725 (2000) ·doi:10.1109/34.865189
[3] Binder,D.A.:贝叶斯聚类分析。《生物特征》65、31–38(1978)·Zbl 0376.62007号 ·doi:10.1093/biomet/65.1.31
[4] Böhning,D.,Dietz,E.,Schaub,R.,Schlattmann,P.,Lindsay,B.:单参数指数族密度混合物的似然比分布。Ann.Ins公司。统计数学。46, 373–388 (1994) ·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[5] Brent,R.:无导数最小化算法。新泽西州普伦蒂斯·霍尔(1973)·Zbl 0245.65032号
[6] Celeux,G.,Govaert,G.:高斯简约聚类模型。模式识别。28, 781–793 (1995) ·Zbl 05480211号 ·doi:10.1016/0031-3203(94)00125-6
[7] Dasgupta,A.,Raftery,A.E.:通过基于模型的聚类检测杂波空间点过程中的特征。《美国统计协会杂志》93,294–302(1998)·Zbl 0906.62105号 ·数字标识代码:10.1080/01621459.1998.10474110
[8] Day,N.E.:估计正态分布混合物的成分。生物特征56、463–474(1969)·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[9] Dean,N.,Raftery,A.E.:clustvarsel包:R包版本0.2-4(2006)
[10] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法获得不完整数据的最大似然。J.R.统计社会服务。B 39(1),1–38(1977)·Zbl 0364.62022号
[11] Forina,M.、Armanino,C.、Castino,M.和Ubigli,M.:多元数据分析作为葡萄酒原产地的判别方法。Vitis 25189-201(1986)
[12] 弗雷利,C.,拉弗瑞,A.E.:有几个集群?哪些聚类方法?通过基于模型的聚类分析回答。计算。J.41(8),578–588(1998)·兹伯利0920.68038 ·doi:10.1093/comjnl/41.8.578
[13] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97(458),611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[14] Fraley,C.、Raftery,A.E.:基于模型的聚类、密度估计和判别分析的增强软件:MCLUST。J.分类。20, 263–286 (2003) ·Zbl 1055.62071号 ·doi:10.1007/s00357-003-0015-3
[15] Fraley,C.,Raftery,A.E.:MCLUST:R的第3版:正态混合建模和基于模型的聚类。华盛顿大学统计系第504号技术报告,2007年1月和2007年11月的小修订(2006)
[16] Frühwirth Schnatter,S.:有限混合和马尔可夫切换模型。施普林格,纽约(2006)·Zbl 1108.6202号
[17] Ghahramani,Z.,Hinton,G.E.:因子分析仪的EM算法。技术代表CRG-TR-96-1。多伦多大学,多伦多(1997)
[18] Gormley,I.C.,Murphy,T.B.:排名数据的专家模型与选举研究应用的混合。附录申请。Stat.2(4),1452-1477(2008)·Zbl 1454.62498号 ·doi:10.1214/08-AOAS178
[19] Hubert,L.,Arabie,P.:比较分区。J.分类。2, 193–218 (1985) ·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[20] Hurley,C.:多元数据的聚类可视化。J.计算。图表。Stat.13(4),788–806(2004)·doi:10.1198/106186004X12425
[21] Kass,R.E.,Raftery,A.E.:贝叶斯因子。J.Am.Stat.Assoc.90,773–795(1995)·Zbl 0846.62028号 ·doi:10.1080/01621459.1995.10476572
[22] Keribin,C.:混合模型阶数的一致估计。SankhyáIndian J.Stat.Ser.公司。A 62(1),49–66(2000)·Zbl 1081.62516号
[23] Leroux,B.G.:混合分布的一致估计。Ann.Stat.20,1350–1360(1992)·Zbl 0763.62015号 ·doi:10.1214/aos/1176348772
[24] Lindsay,B.G.:混合模型:理论、几何和应用。载:NSF-CBMS概率与统计区域会议系列,第5卷。海沃德数理统计研究所(1995)·兹比尔1163.62326
[25] Lopes,H.F.,West,M.:因子分析中的贝叶斯模型评估。《Stat.Sinica》第14、41–67页(2004年)·Zbl 1035.62060号
[26] Lubischew,A.A.:关于分类学中判别函数的使用。生物统计学18(4),455–477(1962)·兹伯利0112.11602 ·doi:10.2307/2527894
[27] McLachlan,G.J.:聚类分析的分类和混合最大似然方法。收录于:《统计手册》,第2卷,第199-208页。荷兰北部,阿姆斯特丹(1982)·Zbl 0513.62064号
[28] McLachlan,G.J.,Basford,K.E.:《混合模型:推断和聚类应用》,纽约德克尔出版社(1988)·Zbl 0697.62050号
[29] McLachlan,G.J.,Krishnan,T.:EM算法和扩展,第2版。威利,纽约(2008)·Zbl 1165.62019号
[30] McLachlan,G.J.,Peel,D.:通过多元t分布混合物进行稳健聚类分析。收录于:《计算机科学讲义》,第1451卷,第658-666页。柏林施普林格(1998)
[31] McLachlan,G.J.,Peel,D.:有限混合模型。威利,纽约(2000a)·Zbl 0963.62061号
[32] McLachlan,G.J.,Peel,D.:因子分析仪的混合物。摘自:第七届机器学习国际会议记录,第599-606页。Morgan Kaufmann,旧金山(2000b)
[33] McLachlan,G.J.,Bean,R.W.,Jones,L.B.T.:扩展因子分析混合模型以纳入多元T分布。计算。统计数据分析。51(11), 5327–5338 (2007) ·Zbl 1445.62053号 ·doi:10.1016/j.csda.2006.09.015
[34] McNicholas,P.D.:使用潜在高斯混合模型的基于模型的分类。J.统计计划。推论140(5),1175–1181(2010)·Zbl 1181.62095号 ·doi:10.1016/j.jspi.2009.11.006
[35] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。都柏林三一学院统计系技术代表05/11(2005)
[36] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。统计计算。18, 285–296 (2008) ·doi:10.1007/s11222-008-9056-0
[37] McNicholas,P.D.,Murphy,T.B.:基于模型的纵向数据聚类。可以。《美国联邦法律大全》第38卷(1),第153-168页(2010年)·Zbl 1190.62120号
[38] McNicholas,P.D.,Murphy,T.B.,McDaid,A.F.,Frost,D.:通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算。统计数据分析。54(3), 711–723 (2010) ·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[39] Meng,X.L.,van Dyk:EM算法——一首旧民歌,以快速的新曲调演唱(有讨论)。J.R.统计社会服务。B 59,511-567(1997)·兹比尔1090.62518 ·数字对象标识代码:10.1111/1467-9868.00082
[40] Meng,X.L.,Rubin,D.B.:通过ECM算法的最大似然估计:一般框架。生物特征80,267–278(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[41] R开发核心团队(2009)R:统计计算的语言和环境:R统计计算基金会,奥地利维也纳。网址:http://www.R-project.org
[42] Raftery,A.E.,Dean,N.:基于模型聚类的变量选择,《美国统计协会期刊》101(473),168-178(2006)·Zbl 1118.62339号 ·doi:10.19198/0162114506000000113
[43] Rand,W.M.:评价聚类方法的客观标准。J.Am.Stat.Assoc.66,846–850(1971年)·doi:10.1080/01621459.1971.10482356
[44] Schwarz,G.:估算模型的维数。Ann.Stat.6,31-38(1978年)·兹伯利0379.62005
[45] Scrucca,L.:基于模型聚类的降维。统计计算。(2009年出版)。doi:10.1007/s11222-009-9138-7
[46] Shoham,S.:通过多元t-分布混合物的确定性聚集em实现稳健聚类。模式识别。35(5), 1127–1142 (2002) ·Zbl 1005.68051号 ·doi:10.1016/S0031-3203(01)00080-2
[47] Swayne,D.、Cook,D.、Buja,A.、Lang,D.、Wickham,H.、Lawrence,M.:(2006)GGobi手册。来源:www.ggobi.org/docs/manual.pdf
[48] Tipping,T.E.,Bishop,C.M.:概率主成分分析仪的混合物。神经计算。11(2),443–482(1999年a)·doi:10.1162/0899766999300016728
[49] Tipping,T.E.,Bishop,C.M.:概率主成分分析仪。J.R.统计社会服务。B 61611-622(1999b)·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[50] Wolfe,J.H.:社会领域的对象聚类分析。加州大学伯克利分校硕士论文(1963年)
[51] Wolfe,J.H.:多元混合分析的模式聚类。Multiv.公司。行为。第5329–350号决议(1970年)·doi:10.1207/s15327906mbr0503_6
[52] Woodbury,M.A.:反演修正矩阵。统计研究组备忘录。新泽西州普林斯顿市普林斯顿大学第42号众议员(1950年)
[53] Zhao,J.,Jiang,Q.:t分布的概率PCA。神经计算69(16-18),2217-2226(2006)·Zbl 05184764号 ·doi:10.1016/j.neucom.2005.07.011
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。