×

通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。 (英语) Zbl 1464.62131号

摘要:描述了使用高斯混合模型族的基于模型的聚类,该模型具有类似协方差结构的简约因子分析,并提出了一种有效的实现算法。该算法使用期望最大化(EM)算法的交替期望条件最大化(AECM)变体。围绕这一系列模型的实现,讨论了两个核心问题,即模型选择和收敛准则。这些核心问题还对其他基于模型的集群技术以及EM算法等技术的实现具有普遍意义。贝叶斯信息准则(BIC)用于模型选择,艾特肯加速度(Aitken’s acceleration)用于确定收敛性,该加速性能优于缺乏进度准则。然后简要介绍了并行计算,然后在主从范式中促进了该算法的并行实现。然后进行了仿真研究,以验证这种并行化的有效性。将生成的软件应用于两个数据集,以证明其与现有软件相比的有效性。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
2005年5月 并行数值计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号
[2] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,单参数指数族密度混合物的似然比分布,统计数学研究所年鉴,46,373-388(1994)·兹比尔0802.62017
[3] 北卡罗来纳州坎贝尔。;Mahon,R.J.,《细粒棘属两种岩蟹变异的多元研究》,《澳大利亚动物学杂志》,22417-425(1974)
[4] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793(1995)
[5] Cheeseman,P。;Stutz,J.,《贝叶斯分类(AutoClass):理论与结果》(1996),美国人工智能协会:美国人工智能学会,加利福尼亚州门罗公园,美国,第153-180页
[7] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,英国皇家统计学会杂志。系列B,39,1,1-38(1977)·Zbl 0364.62022号
[8] 福里纳,M。;阿玛尼诺,C。;M.卡斯蒂诺。;Ubigli,M.,多元数据分析作为葡萄酒原产地的判别方法,Vitis,25189-201(1986)
[9] 弗雷利,C。;Raftery,A.E.,多少簇?哪些聚类方法?基于模型的聚类分析的答案,《计算机杂志》,41,8,578-588(1998)·Zbl 0920.68038号
[10] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 1073.62545号
[11] 弗雷利,C。;Raftery,A.E.,用于基于模型的聚类、密度估计和判别分析的增强软件:MCLUST,分类杂志,20,263-286(2003)·Zbl 1055.62071号
[12] 加图,C。;Yanev,P。;Kontoghiorghes,E.,生成所有可能回归子模型的图形方法,计算统计与数据分析,52,2799-815(2007)·兹比尔1452.62061
[14] 格罗普,W。;Lusk,E。;Skjellum,A.,《使用MPI:具有消息传递接口的可移植并行编程》(1999),麻省理工学院出版社:麻省理工大剑桥
[15] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)
[16] Kass,R.E。;Raftery,A.E.,贝叶斯因子,《美国统计协会杂志》,90,773-795(1995)·Zbl 0846.62028号
[17] Keribin,C.,混合模型阶数的一致估计,Sankhyá,印度统计杂志。系列A,62,1,49-66(2000)·Zbl 1081.62516号
[18] Kontoghiorghes,E.J.,《线性模型的并行算法:数值方法和估计问题》,(《计算经济学进展》,第15卷(2000年),克鲁沃学术出版社:克鲁沃学术出版商,马萨诸塞州波士顿)
[19] Leroux,B.G.,混合分布的一致估计,《统计年鉴》,第20期,1350-1360页(1992年)·Zbl 0763.62015号
[20] Lindsay,B.G.,《混合模型:理论、几何和应用》,(NSF-CBMS概率统计区域会议系列,第5卷(1995),数理统计研究所:加利福尼亚州海沃德数理统计所)·Zbl 1163.62326号
[21] Lindstrom,M.J。;Bates,D.M.,重复测量数据线性混合效应模型的Newton-Raphson和EM算法,美国统计协会杂志,83,404,1014-1022(1988)·兹伯利0671.65119
[22] Lopes,H.F。;West,M.,因子分析中的贝叶斯模型评估,《中国统计》,第14期,第41-67页(2004年)·Zbl 1035.62060号
[23] McLachlan,G.J。;Krishnan,T.,《EM算法和扩展》(2008),威利出版社:威利纽约·Zbl 1165.62019号
[24] McLachlan,G.J。;Peel,D.,通过多元分布混合物进行稳健聚类分析,(计算机科学讲义,第1451卷(1998年),Springer-Verlag:Springer-Verlag Berlin),658-666
[25] McLachlan,G.J。;Peel,D.,有限混合模型(2000),John Wiley&Sons:John Willey&Sons纽约·Zbl 0963.62061号
[26] McLachlan,G.J。;Peel,D.,《因子分析仪的混合物》(Langley,P.,第七届国际机器学习会议(2000),Morgan Kaufmann:Morgan Koufmann San Francisco),599-606
[27] McLachlan,G.J。;皮,D。;Bean,R.W.,《利用因子分析仪混合建模高维数据》,计算统计与数据分析,41,3-4,379-388(2003)·兹比尔1256.62036
[29] McNicholas,医学博士。;Murphy,T.B.,简约高斯混合模型,统计与计算,18,3,285-296(2008)
[30] 孟晓乐。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,267-278(1993)·Zbl 0778.62022号
[31] 孟晓乐。;范戴克(van Dyk),《EM算法——以快节奏演唱的一首古老民歌》(带讨论),《皇家统计学会杂志》(Journal of Royal Statistical Society)。B系列,59,511-567(1997)·Zbl 1090.62518号
[32] Milidiú,R.L。;Rentera,R.P.,Dpls和ppls:大数据集的两种pls算法,计算统计和数据分析,48,1,125-138(2005)·Zbl 1429.62028号
[33] Pizzuti,C。;Talia,D.,P-autoclass:挖掘大型数据集的可扩展并行集群,IEEE知识与数据工程汇刊,15,3,629-641(2003)
[34] 出版社,W.H。;Teukolsky,S.A。;韦特林,W.T。;Flannery,B.P.,《C中的数字配方——科学计算的艺术》(1992),剑桥大学出版社·Zbl 0845.65001号
[35] R开发核心团队,R:统计计算的语言和环境(2008),R统计计算基金会:R统计计算基础,奥地利维也纳
[36] Racine,J.,并行分布式核估计,计算统计与数据分析,40,2,293-302(2002)·Zbl 0993.62033号
[37] Raftery,A.E。;Dean,N.,基于模型聚类的变量选择,《美国统计协会杂志》,101,473,168-178(2006)·Zbl 1118.62339号
[38] Rand,W.M.,《聚类方法评估的客观标准》,《美国统计协会杂志》,66,846-850(1971)
[39] Ripley,B.D.,模式识别和神经网络(1996),剑桥大学出版社:剑桥大学出版社,英国剑桥·Zbl 0853.62046号
[40] Schwartz,G.,《估计模型的维度》,《统计年鉴》,6,31-38(1978)
[41] 斯皮尔曼,C.,《两件事之间联系的证明和测量》,《美国心理学杂志》,第15期,第72-101页(1904年)
[42] 倾翻,T.E。;Bishop,C.M.,概率主成分分析仪的混合,神经计算,11,2,443-482(1999)
[43] Titterington,D.M。;A.F.M.史密斯。;Makov,U.E.,有限混合分布的统计分析(1985),John Wiley&Sons:John Willey&Sons Chichester·Zbl 0646.62013.中
[44] 韦纳布尔斯,W.N。;Ripley,B.D.,《现代应用统计学与S-PLUS》(2002),Springer:Springer New York·Zbl 1006.62003号
[45] Yanev,P。;Kontoghiorghes,E.J.,估计一般线性模型的高效算法,并行计算,32,2,195-204(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。