P.D.麦克尼古拉斯。;T·B·墨菲。;麦克戴德,A.F。;弗罗斯特,D。 通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。 (英语) Zbl 1464.62131号 计算。统计数据分析。 54,第3期,711-723(2010). 摘要:描述了使用高斯混合模型族的基于模型的聚类,该模型具有类似协方差结构的简约因子分析,并提出了一种有效的实现算法。该算法使用期望最大化(EM)算法的交替期望条件最大化(AECM)变体。围绕这一系列模型的实现,讨论了两个核心问题,即模型选择和收敛准则。这些核心问题还对其他基于模型的集群技术以及EM算法等技术的实现具有普遍意义。贝叶斯信息准则(BIC)用于模型选择,艾特肯加速度(Aitken’s acceleration)用于确定收敛性,该加速性能优于缺乏进度准则。然后简要介绍了并行计算,然后在主从范式中促进了该算法的并行实现。然后进行了仿真研究,以验证这种并行化的有效性。将生成的软件应用于两个数据集,以证明其与现有软件相比的有效性。 引用于55文件 MSC公司: 62-08 统计问题的计算方法 62H30型 分类和区分;聚类分析(统计方面) 2005年5月 并行数值计算 软件:R(右);磁粉探伤;S-PLUS系统;PGMM公司;质量(R);clustvarsel公司;麦克卢斯特;自动分类 PDF格式BibTeX公司 XML格式引用 \textit{P.D.McNicholas}等人,计算机。统计数据分析。54,第3号,711--723(2010;Zbl 1464.62131) 全文: 内政部 链接 参考文献: [1] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号 [2] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,单参数指数族密度混合物的似然比分布,统计数学研究所年鉴,46,373-388(1994)·兹比尔0802.62017 [3] 北卡罗来纳州坎贝尔。;Mahon,R.J.,《细粒棘属两种岩蟹变异的多元研究》,《澳大利亚动物学杂志》,22417-425(1974) [4] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793(1995) [5] Cheeseman,P。;Stutz,J.,《贝叶斯分类(AutoClass):理论与结果》(1996),美国人工智能协会:美国人工智能学会,加利福尼亚州门罗公园,美国,第153-180页 [7] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,英国皇家统计学会杂志。系列B,39,1,1-38(1977)·Zbl 0364.62022号 [8] 福里纳,M。;阿玛尼诺,C。;M.卡斯蒂诺。;Ubigli,M.,多元数据分析作为葡萄酒原产地的判别方法,Vitis,25189-201(1986) [9] 弗雷利,C。;Raftery,A.E.,多少簇?哪些聚类方法?基于模型的聚类分析的答案,《计算机杂志》,41,8,578-588(1998)·Zbl 0920.68038号 [10] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 1073.62545号 [11] 弗雷利,C。;Raftery,A.E.,用于基于模型的聚类、密度估计和判别分析的增强软件:MCLUST,分类杂志,20,263-286(2003)·Zbl 1055.62071号 [12] 加图,C。;Yanev,P。;Kontoghiorghes,E.,生成所有可能回归子模型的图形方法,计算统计与数据分析,52,2799-815(2007)·兹比尔1452.62061 [14] 格罗普,W。;Lusk,E。;Skjellum,A.,《使用MPI:具有消息传递接口的可移植并行编程》(1999),麻省理工学院出版社:麻省理工大剑桥 [15] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985) [16] Kass,R.E。;Raftery,A.E.,贝叶斯因子,《美国统计协会杂志》,90,773-795(1995)·Zbl 0846.62028号 [17] Keribin,C.,混合模型阶数的一致估计,Sankhyá,印度统计杂志。系列A,62,1,49-66(2000)·Zbl 1081.62516号 [18] Kontoghiorghes,E.J.,《线性模型的并行算法:数值方法和估计问题》,(《计算经济学进展》,第15卷(2000年),克鲁沃学术出版社:克鲁沃学术出版商,马萨诸塞州波士顿) [19] Leroux,B.G.,混合分布的一致估计,《统计年鉴》,第20期,1350-1360页(1992年)·Zbl 0763.62015号 [20] Lindsay,B.G.,《混合模型:理论、几何和应用》,(NSF-CBMS概率统计区域会议系列,第5卷(1995),数理统计研究所:加利福尼亚州海沃德数理统计所)·Zbl 1163.62326号 [21] Lindstrom,M.J。;Bates,D.M.,重复测量数据线性混合效应模型的Newton-Raphson和EM算法,美国统计协会杂志,83,404,1014-1022(1988)·兹伯利0671.65119 [22] Lopes,H.F。;West,M.,因子分析中的贝叶斯模型评估,《中国统计》,第14期,第41-67页(2004年)·Zbl 1035.62060号 [23] McLachlan,G.J。;Krishnan,T.,《EM算法和扩展》(2008),威利出版社:威利纽约·Zbl 1165.62019号 [24] McLachlan,G.J。;Peel,D.,通过多元分布混合物进行稳健聚类分析,(计算机科学讲义,第1451卷(1998年),Springer-Verlag:Springer-Verlag Berlin),658-666 [25] McLachlan,G.J。;Peel,D.,有限混合模型(2000),John Wiley&Sons:John Willey&Sons纽约·Zbl 0963.62061号 [26] McLachlan,G.J。;Peel,D.,《因子分析仪的混合物》(Langley,P.,第七届国际机器学习会议(2000),Morgan Kaufmann:Morgan Koufmann San Francisco),599-606 [27] McLachlan,G.J。;皮,D。;Bean,R.W.,《利用因子分析仪混合建模高维数据》,计算统计与数据分析,41,3-4,379-388(2003)·兹比尔1256.62036 [29] McNicholas,医学博士。;Murphy,T.B.,简约高斯混合模型,统计与计算,18,3,285-296(2008) [30] 孟晓乐。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,267-278(1993)·Zbl 0778.62022号 [31] 孟晓乐。;范戴克(van Dyk),《EM算法——以快节奏演唱的一首古老民歌》(带讨论),《皇家统计学会杂志》(Journal of Royal Statistical Society)。B系列,59,511-567(1997)·Zbl 1090.62518号 [32] Milidiú,R.L。;Rentera,R.P.,Dpls和ppls:大数据集的两种pls算法,计算统计和数据分析,48,1,125-138(2005)·Zbl 1429.62028号 [33] Pizzuti,C。;Talia,D.,P-autoclass:挖掘大型数据集的可扩展并行集群,IEEE知识与数据工程汇刊,15,3,629-641(2003) [34] 出版社,W.H。;Teukolsky,S.A。;韦特林,W.T。;Flannery,B.P.,《C中的数字配方——科学计算的艺术》(1992),剑桥大学出版社·Zbl 0845.65001号 [35] R开发核心团队,R:统计计算的语言和环境(2008),R统计计算基金会:R统计计算基础,奥地利维也纳 [36] Racine,J.,并行分布式核估计,计算统计与数据分析,40,2,293-302(2002)·Zbl 0993.62033号 [37] Raftery,A.E。;Dean,N.,基于模型聚类的变量选择,《美国统计协会杂志》,101,473,168-178(2006)·Zbl 1118.62339号 [38] Rand,W.M.,《聚类方法评估的客观标准》,《美国统计协会杂志》,66,846-850(1971) [39] Ripley,B.D.,模式识别和神经网络(1996),剑桥大学出版社:剑桥大学出版社,英国剑桥·Zbl 0853.62046号 [40] Schwartz,G.,《估计模型的维度》,《统计年鉴》,6,31-38(1978) [41] 斯皮尔曼,C.,《两件事之间联系的证明和测量》,《美国心理学杂志》,第15期,第72-101页(1904年) [42] 倾翻,T.E。;Bishop,C.M.,概率主成分分析仪的混合,神经计算,11,2,443-482(1999) [43] Titterington,D.M。;A.F.M.史密斯。;Makov,U.E.,有限混合分布的统计分析(1985),John Wiley&Sons:John Willey&Sons Chichester·Zbl 0646.62013.中 [44] 韦纳布尔斯,W.N。;Ripley,B.D.,《现代应用统计学与S-PLUS》(2002),Springer:Springer New York·Zbl 1006.62003号 [45] Yanev,P。;Kontoghiorghes,E.J.,估计一般线性模型的高效算法,并行计算,32,2,195-204(2006) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。