×

一种健壮的EM聚类方法:ROBEM。 (英语) Zbl 07532158号

摘要:聚类分析被定义为一组用于对相同或相似单位进行分类的多元统计方法。与所有其他经典统计方法一样,当多元数据集中存在离群值时,经典聚类分析会给出误导性的结果。为了解决这个问题,人们提出了许多方法。本研究致力于开发一种新的方法,旨在使期望最大化(EM)聚类算法能够抵抗离群值。为了达到这个目的,我们提出了一种新的鲁棒混合聚类算法,称为鲁棒EM(ROBEM)。该算法将EM聚类算法与鲁棒主成分分析(ROBPCA)算法相结合。在文献中,空间EM算法被认为是一种稳健的EM算法,但我们的仿真结果和样本数据应用表明,ROBEM算法在异常检测率和错误分类率方面比空间EM方法更成功。此外,所提出的算法ROBEM提供了与其他著名的鲁棒聚类算法类似的结果,如TCLUST和Trimmed k-Means。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿加瓦尔,C.C。;Reddy,C.K.,《数据聚类算法和应用》,607-12(2013),博卡拉顿:泰勒和弗朗西斯集团,博卡拉通
[2] Aloba,A。;Yu,K。;Dang,X。;陈,Y。;Bart,H.Jr.(2015)
[3] 巴希尔,S。;Carter,E.M.,高分解混合判别分析,多元分析杂志,93,1,102-11(2005)·Zbl 1087.62076号 ·doi:10.1016/j.jmva.2003.12003
[4] Bulut,H。;Öner,Y.,《使用经典和稳健主成分分析对土耳其开发机构地区社会经济发展的评估》,《应用统计学杂志》,44,162936-48(2017)·Zbl 1516.62169号 ·doi:10.1080/02664763.2016.1267115
[5] Bulut,H.,《在多元数据集中使用稳健聚类分析进行降维和分类》(2017),土耳其萨姆桑Ondokuz May’s大学统计系:Ondokuz-My’s University统计系
[6] 坎贝尔,N.A.,《混合模型和非典型值》,国际数学地质学协会杂志,16,5,465-77(1984)·doi:10.1007/BF01886327
[7] 弗雷利,C。;Raftery,A.E。;墨菲,T.B。;Scrucca,L.,mclust Version 4 for R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系第59号技术报告(2012):西雅图华盛顿大学统计部
[8] 弗里茨,H。;洛杉矶加西亚-埃斯库德罗。;Mayo-Iscar,A.,Tclust:A R package for A triming approach to A cluster analysis,Journal of Statistical Software,47,12,1-26(2012年)·doi:10.18637/jss.v047.i12
[9] 弗里茨,H。;加西亚·埃斯库德罗,洛杉矶。;Mayo-Iscar,A.,鲁棒约束聚类的快速算法,计算统计与数据分析,61124-36(2013)·Zbl 1349.62264号 ·doi:10.1016/j.csda.2012.11.018
[10] 藤泽,H。;Eguchi,S.,正态混合模型中的稳健估计,《统计规划与推断杂志》,136,11,3989-4011(2006)·Zbl 1104.62017年 ·doi:10.1016/j.jspi.2005.03.008
[11] Gallegos,M.T.,《分类、聚类和数据分析:最新进展和应用》,247-55(2002),德国:斯普林格-Verlag,德国·Zbl 1032.62059号
[12] 加列戈斯,麻省理工学院。;Ritter,G.,《稳健的聚类分析方法》,《统计年鉴》,33,1,347-80(2005)·Zbl 1064.62074号 ·doi:10.1214/009053604000000940
[13] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A.,k均值和修剪k均值的稳健性,美国统计协会杂志,94956-69(1999)·Zbl 1072.62547号 ·数字对象标识代码:10.2307/2670010
[14] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,《统计年鉴》,36,3,1324-45(2008)·兹比尔1360.62328 ·doi:10.1214/07-AOS515
[15] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo Iscar,A.,稳健聚类方法综述,数据分析和分类进展,4,2-3,89-109(2010)·Zbl 1284.62375号 ·doi:10.1007/s11634-010-0064-5
[16] 哈丁,J。;Roke,D.M.,使用最小协方差行列式估计器在多簇环境中进行离群点检测,计算统计与数据分析,44,4,625-38(2004)·Zbl 1430.62133号 ·doi:10.1016/S0167-9473(02)00280-3
[17] 休伯特,M。;Rousseeuw,P.J。;Branden,K.V.,《ROBPCA:稳健主成分分析的新方法》,《技术计量学》,47,1,64-79(2005)·doi:10.19198/004017004000000563
[18] Markaton,M.,《混合模型、稳健性和加权似然法》,生物计量学,56493-86(2000)·Zbl 1060.62511号
[19] Neykov,N。;Filzmoser,P。;迪莫娃,R。;Neytchev,P.,使用修剪似然估计对混合物进行稳健拟合,计算统计与数据分析,52,1,299-308(2007)·Zbl 1328.62033号 ·doi:10.1016/j.csda.2006.12.024
[20] R核心团队,R:统计计算的语言和环境(2015),R统计计算基金会:R统计计算基础,奥地利维也纳
[21] Rousseeuw,P.J.,数理统计与应用,283-97(1985),荷兰:Reidel,荷兰
[22] 托多罗夫,V。;Filzmoser,P.,稳健多元分析的面向对象框架,《统计软件杂志》,32,3,1-47(2009)·doi:10.18637/jss.v032.i03
[23] 杨,M.S。;赖,C.Y。;Lin,C.Y.,高斯混合模型的稳健EM聚类算法,模式识别,45,11,3950-61(2012)·Zbl 1242.68260号 ·doi:10.1016/j.patcog.2012.04.031
[24] Yu,K。;Dang,X。;巴特,H。;Chen,Y.,通过空间-em算法实现基于模型的鲁棒学习,IEEE知识与数据工程汇刊,27,6,1670-82(2015)·doi:10.1109/TKDE.2014.2373355
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。