×

基于模型的聚类和缺失数据的离群点检测。 (英语) Zbl 07538942号

摘要:在基于模型的聚类中,建议使用多元污染正态分布(MCN)对具有轻微异常值的数据进行聚类,该模型可以自动检测异常值,并在每个聚类中产生稳健的参数估计。然而,这种方法的局限性之一是它需要完整的数据,即MCN不能直接用于缺少值的数据。在本文中,我们开发了一个框架,用于将混合MCN分布拟合到不完整数据集,即随机丢失某些值的数据集。参数估计是使用期望条件最大化算法获得的,期望条件最大化算法是期望最大化算法的变体,其中传统的最大化步骤被更简单的条件最大化步骤取代。我们进行了一项模拟研究,将我们的模型结果与不完全数据的多元正态分布和Student(t)分布的混合进行了比较。仿真还包括对丢失数据百分比对三种算法性能的影响的研究。然后将该模型应用于汽车数据集(UCI机器学习库)。结果表明,虽然Student’s(t)分布具有相似的分类性能,但MCN在检测离群值方面表现更好,且离群值检测的假阳性率更低。随着缺失值百分比的增加,所有技术的性能线性下降。

MSC公司:

62H30型 分类和歧视;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾特肯,A.,代数方程和超越方程根的系列公式,Proc R Soc Edib,45,1,14-22(1926)·doi:10.1017/S0370164600024871
[2] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值以获得多元高斯混合模型中的最大似然,计算统计数据分析,41,3-4,561-575(2003)·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[3] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,BG,单参数指数族密度混合物的似然比分布,Ann Inst Stat Math,46,2,373-388(1994)·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[4] Buck,S.,适用于电子计算机的多元数据中缺失值的估计方法,J R Stat Soc B,22,302-306(1960)·Zbl 0101.12701号
[5] 科雷托,P。;Hennig,C.,鲁棒不适当最大似然:鲁棒高斯聚类的调整、计算以及与其他方法的比较,美国统计协会,1115161648-1659(2016)·doi:10.1080/01621459.2015.1100996
[6] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,通过EM算法从不完整数据中获得最大似然,J R Stat Soc Ser B(Methodol),39,1,1-22(1977)·Zbl 0364.62022号
[7] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,Ann Stat,36,3,1324-1345(2008)·Zbl 1360.62328号 ·doi:10.1214/07-AOS515
[8] Genz A、Bretz F、Miwa T、Mi X、Leisch F、Scheip F、Hothorn T(2019)mvtnorm:多元正态分布和T分布。R包版本1.0-10
[9] Ghahramani Z,Jordan MI(1994),从不完整数据中学习。技术报告,美国
[10] 休伯特,L。;Arabie,P.,比较分区,J Classif,2,1,193-218(1985)·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[11] Karlis,D。;Xekalaki,E.,为有限混合物的EM算法选择初始值,计算统计数据分析,41,3-4,577-590(2003)·Zbl 1429.62082号 ·doi:10.1016/S0167-9473(02)00177-9
[12] Kaufman L,Rousseeuw P(1987)通过medoids聚类。In:Dodge Y(ed)基于L1-形式和相关方法的统计数据分析,第405-416页
[13] Lin,TI,通过特征值分解通过参数化t混合模型从不完整数据中学习,《计算统计数据分析》,71,183-195(2014)·Zbl 1471.62120号 ·doi:10.1016/j.csda.2013.02.020
[14] 刘,C。;Rubin,DB,《ECME算法:EM和ECM的简单扩展,具有更快的单调收敛性》,Biometrika,81,4,633-648(1994)·Zbl 0812.62028号 ·doi:10.1093/biomet/81.4.633
[15] Maechler M、Rousseeuw P、Struyf A、Hubert M、Hornik K、Studer M和Roudier P(2016)聚类:聚类分析扩展了Rousseuw等人的R包版本2.0.4
[16] McNicholas,PD,基于混合模型的分类(2016),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1454.62005年 ·数字标识代码:10.1201/9781315373577
[17] 麦克尼古拉斯,PD;墨菲,TB;空军麦克戴德;Frost,D.,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,《计算统计数据分析》,54,3,711-723(2010)·兹比尔1464.62131 ·doi:10.1016/j.csda.2009.02.011
[18] 孟,XL;Rubin,DB,《通过ECM算法进行最大似然估计:一般框架》,Biometrika,80,2,267-278(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[19] Novi Inverardi,PL;Taufer,E.,通过含有不适当成分的混合物进行异常值检测,Electron J Appl Stat Anal,13,1146-163(2020)
[20] 皮,D。;McLachlan,GJ,使用t分布的稳健混合建模,统计计算,10,4,339-348(2000)·doi:10.1023/A:1008981510081
[21] Punzo,A。;McNicholas,PD,多元污染正态分布的解析混合物,Biom J,58,61506-1537(2016)·Zbl 1353.62124号 ·doi:10.1002/bimj.201500144
[22] Punzo A,Tortora C(2021)多尺度污染正态分布及其在聚类中的应用。统计模型21(4):332-358·Zbl 07381254号
[23] Punzo A,Mazza A,McNicholas PD(2016)污染混合:用于拟合多元污染正态分布的简约混合的R包。arXiv预打印arXiv:1606.03766
[24] 邱伟,乔H(2020)聚类生成:随机聚类生成(具有指定的分离度)。https://CRAN.R-project.org/package=clusterGeneration。R包版本1.3.7
[25] R核心团队(2016)R:统计计算的语言和环境。R统计计算基金会,维也纳
[26] Rand,WM,聚类方法评估的客观标准,美国统计协会,66846-850(1971)·doi:10.1080/01621459.1971.10482356
[27] Ritter,G.,《稳健聚类分析和变量选择》(2014),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1341.62037号 ·doi:10.1201/b17353
[28] 罗宾,DB,《推断和缺失数据》,《生物特征》,63,3,581-592(1976)·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[29] Rubin,DB,《调查中无应答的多重插补》(2004年),霍博肯:威利·2007年6月10日
[30] Salgado CM、Azevedo C、Proença H、Vieira SM(2016)《噪音与异常值》,第163-183页。数字对象标识代码:10.1007/978-3-319-43742-2_14
[31] Serafini A,Murphy TB,Scrucca L(2020)《基于模型聚类中缺失数据的处理》,arXiv预印本arXiv:2006.02954
[32] Titterington,DM;史密斯,AFM;Makov,UE,有限混合分布的统计分析(1985),奇切斯特:威利·兹伯利0646.62013
[33] Tortora C、ElSherbiny A、Browne RP、Franczak BC、McNicholas PD、Amos DD(2020)MixGHD:使用广义双曲分布的混合物进行基于模型的聚类、分类和判别分析。https://CRAN.R-project.org/package=MixGHD。R包版本2.3.4
[34] van Buuren,S。;Groothuis-Oudshoorn,K.,《小鼠:通过R中的链式方程进行多元插补》,J Stat Softw,45,3,1-67(2011)·doi:10.18637/jss.v045.i03
[35] Wang,WL;Lin,TI,《通过带有缺失信息的偏态t分布混合物实现基于稳健模型的聚类》,《高级数据分析分类》,9,4,423-445(2015)·Zbl 1414.62191号 ·doi:10.1007/s11634-015-0221-y
[36] 王,H。;张,Q。;Luo,B。;Wei,S.,使用具有缺失信息的多元分布的稳健混合建模,Pattern Recognict Lett,25,6701-710(2004)
[37] 魏毅。;唐,Y。;McNicholas,PD,基于模型的不完全数据聚类的广义双曲分布和偏态t分布的混合,计算统计数据分析,130,18-41(2019)·Zbl 1469.62162号 ·doi:10.1016/j.csda.2018.08.016
[38] Wilks,SS,从零碎样本中估计种群参数的矩和分布,Ann Math Stat,3,3163-195(1932)·Zbl 0005.07301号 ·doi:10.1214/aoms/1177732885
[39] Yu,C。;Chen,K。;Yao,W.,使用非凸惩罚似然的离群检测和稳健混合建模,J Stat Plan Inference,164,27-38(2015)·Zbl 1322.62180号 ·doi:10.1016/j.jspi.2015.03.003
[40] Yu,C。;姚,W。;Chen,K.,稳健混合回归的新方法,Can J Stat,45,1,77-94(2017)·Zbl 1462.62198号 ·doi:10.1002/cjs.11310
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。