×

加权似然混合建模和基于模型的聚类。 (英语) Zbl 1436.62255号

总结:本文提出了一种用于多元高斯分量混合稳健拟合的加权似然方法。提出了两种方法,分别由标准EM和CEM算法的适当修改驱动。在这两种技术中,M步长都是通过计算针对降低异常值权重的权重来增强的。权重基于稳健马氏距离产生的皮尔逊残差。基于拟合的混合模型,还可以定义用于鲁棒聚类和异常值检测的形式化规则。通过数值研究和实际数据示例,从拟合和分类精度以及离群点检测两方面研究了所提方法的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62层35 鲁棒性和自适应程序(参数推断)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agostinelli,C.,《通过加权似然法进行回归稳健模型选择》,Stat.Probab。莱特。,56, 3, 289-300 (2002) ·Zbl 0998.62034号 ·doi:10.1016/S0167-7152(01)00193-6
[2] Agostinelli,C.,关于皮尔逊残差和加权似然估计方程的注释,Stat.Probab。莱特。,76, 17, 1930-1934 (2006) ·Zbl 1099.62022号 ·doi:10.1016/j.spl.2006.04.048
[3] Agostinelli,C。;Greco,L.,贝叶斯推理中处理似然不确定性的加权策略,计算。统计,28,1,319-339(2013)·Zbl 1305.65018号 ·doi:10.1007/s00180-011-0301-1
[4] Agostinelli,C。;Greco,L.,《关于“监测的力量:如何充分利用受污染样品”的讨论》,《统计方法应用》。(2017) ·Zbl 1428.62215号 ·doi:10.1007/s10260-017-0416-9
[5] 阿戈斯蒂内利,C。;Greco,L.,多元位置和散布的加权似然估计,Test(2018)·Zbl 1420.62128号 ·doi:10.1007/s11749-018-0596-0
[6] 阿特金森,A。;Riani,M。;Cerioli,A.,《用正向搜索探索多元数据》(2013),柏林:施普林格出版社,柏林
[7] 巴苏,A。;Lindsay,B.,《连续模型的最小视差估计:效率、分布和稳健性》,Ann.Inst.Stat.Math。,46, 4, 683-705 (1994) ·Zbl 0821.62018号 ·doi:10.1007/BF00773476
[8] Bouveyron,C。;Brunet-Saumard,C.,《基于模型的高维数据聚类:综述》,《计算》。统计数据分析。,71, 52-78 (2014) ·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[9] Bryant,P.,基于优化的聚类方法的大样本结果,J.Classif。,8, 1, 31-44 (1991) ·Zbl 0747.62057号 ·doi:10.1007/BF02616246
[10] 坎贝尔,N.,混合模型和非典型值,数学。地质。,16, 5, 465-477 (1984) ·doi:10.1007/BF01886327
[11] Celeux,G。;Govaert,G.,《聚类分析中混合和分类最大似然的比较》,J.Stat.Compute。模拟。,47, 3-4, 127-146 (1993) ·doi:10.1080/00949659308811525
[12] Cerioli,A.,《利用高分解估计器进行多元异常值检测》,美国统计协会,105,489,147-156(2010)·Zbl 1397.62167号 ·doi:10.1198/jasa.2009.tm09147
[13] Cerioli,A。;Farcomeni,A.,多元异常值检测的错误率,计算。统计数据分析。,55,1544-553(2011年)·Zbl 1247.62192号 ·doi:10.1016/j.csda.2010.05.021
[14] Cerioli,A。;Riani,M。;阿特金森,A。;Corbellini,A.,《监测的力量:如何充分利用受污染样品》,《统计方法应用》。(2017) ·Zbl 1427.62047号 ·doi:10.1007/s10260-017-0409-8
[15] 科隆纳,Jg;贾马,J。;Nakamura,E.,使用层次分类法识别无尾类的科、属和种。198-212年(2016)计算机科学讲稿,柏林:施普林格,柏林
[16] 科雷托,P。;Hennig,C.,《稳健不当最大似然:调整、计算以及与稳健高斯聚类其他方法的比较》,美国统计协会,111,516,1648-1659(2016)·doi:10.1080/01621459.2015.1100996
[17] 科雷托,P。;Hennig,C.,《一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法》,J.Mach。学习。决议,18,1,5199-5237(2017)·Zbl 1442.62138号
[18] Day,N.,估计正态分布混合的成分,生物特征,56,3,463-474(1969)·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[19] Dempster,A。;莱尔德,Nm;Rubin,Db,通过EM算法从不完整数据中获得最大似然,J.R.Stat.Soc.Ser。B方法。,39, 1-38 (1977) ·Zbl 0364.62022号
[20] 多托,F。;Farcomeni,A.,基于简约模型聚类的稳健推理,J.Stat.Compute。模拟。,89, 3, 414-442 (2019) ·Zbl 07193731号 ·doi:10.1080/0949655.2018.1554659
[21] 多托,F。;法科梅尼,A。;路易斯安那州加西亚-埃斯库德罗;Mayo-Iscar,A.,稳健聚类的重加权方法,统计计算。,28, 2, 477-493 (2016) ·Zbl 1384.62193号 ·doi:10.1007/s11222-017-9742-x
[22] Elashoff,M。;Ryan,L.,估计方程的em算法,J.Compute。图表。统计,13,1,48-65(2004)·doi:10.1198/1061860043092
[23] 法科梅尼,A。;Greco,L.,《稳健的数据缩减方法》(2015),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1311.62006年
[24] 法科梅尼,A。;Greco,L.,隐马尔可夫模型的S-估计,计算机。统计,30,1,57-80(2015)·Zbl 1342.65032号 ·doi:10.1007/s00180-014-0521-2
[25] 弗雷利,C。;Raftery,A.,有几个集群?哪种聚类方法?答案通过基于模型的聚类分析,计算。J.,41,8,578-588(1998)·兹伯利0920.68038 ·doi:10.1093/comjnl/41.8.578
[26] 弗雷利,C。;Raftery,A.,《基于模型的聚类、判别分析和密度估计》,美国统计协会,97,458,611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[27] Fraley,C.、Raftery,A.、Murphy,T.、Scrucca,L.:mclust版本4,用于基于模型的聚类、分类和密度估计的正态混合建模。西雅图华盛顿大学技术报告597(2012)·Zbl 1520.62002号
[28] 弗里茨,H。;Garcia-Escudero,L。;Mayo-Iscar,A.,鲁棒约束聚类的快速算法,计算。统计数据分析。,61, 124-136 (2013) ·Zbl 1349.62264号 ·doi:10.1016/j.csda.2012.11.018
[29] Garcia-Escudero,L。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,《Ann.Stat.》,36,1324-1345(2008)·Zbl 1360.62328号 ·doi:10.1214/07-AOS515
[30] 路易斯安那州加西亚·埃斯库德罗;Gordaliza,A。;马特兰,C。;Mayo Iscar,A.,探索基于鲁棒模型的聚类中的组的数量,Stat.Comput。,21, 4, 585-599 (2011) ·Zbl 1221.62093号 ·doi:10.1007/s11222-010-9194-z
[31] Garcia-Escudero,L。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《在混合建模中避免伪局部最大化》,《统计计算》。,25, 3, 619-633 (2015) ·兹比尔1331.62100 ·数字对象标识代码:10.1007/s11222-014-9455-3
[32] Greco,L.,基于加权似然的推理(p(x<y)),Commun。统计模拟。计算。,46, 10, 7777-7789 (2017) ·Zbl 1383.62227号 ·doi:10.1080/03610918.2016.1252396
[33] Helliwell,J.,Layard,R.,Sachs,J.:《2018年世界幸福报告》(2018)
[34] 库奇博特拉,A。;Basu,A.,最小视差估计的一般设置,Stat.Probab。莱特。,96, 68-74 (2015) ·Zbl 1314.62089号 ·doi:10.1016/j.spl.2014.08.020
[35] Kuchibhotla,A.,Basu,A.:最小距离加权似然估计法。印度加尔各答印度统计研究所跨学科统计研究室(ISRU)技术报告(2018年)。https://factory.wharton.upenn.edu/wp-content/uploads/2018/02/attemptv4p1.pdf。2018年1月17日访问
[36] Lee,S。;Mclachlan,G.,多元斜t分布的有限混合:一些最新结果,统计计算。,24, 2, 181-202 (2014) ·Zbl 1325.62107号 ·doi:10.1007/s11222-012-9362-4
[37] Lin,T.,使用多变量偏斜T分布的鲁棒混合建模,Stat.Comput。,20, 3, 343-356 (2010) ·doi:10.1007/s11222-009-9128-9
[38] Markatou,M.,《混合模型、稳健性和加权似然法》,生物统计学,56,2,483-486(2000)·Zbl 1060.62511号 ·doi:10.1111/j.0006-341X.2000.00483.x
[39] 马尔卡图,M。;巴苏,A。;Lindsay,Bg,带自举根搜索的加权似然方程,美国统计协会,93,442,740-750(1998)·Zbl 0918.62046号 ·doi:10.1080/01621459.1998.10473726
[40] Maronna,R。;Jacovkis,P.,《具有可变指标的多元聚类程序》,生物统计学,30,3,499-505(1974)·Zbl 0285.62036号 ·doi:10.2307/2529203
[41] 麦克拉克伦,G。;Peel,D.,《有限混合模型》(2004),纽约:威利,纽约
[42] Gj麦克拉克伦;皮,D。;Bean,R.,用混合因子分析仪模拟高维数据,计算。统计数据分析。,41, 3-4, 379-388 (2003) ·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[43] Neykov,N。;Filzmoser,P。;迪莫娃,R。;Neytchev,P.,使用修剪似然估计对混合物进行稳健拟合,计算。统计数据分析。,52, 1, 299-308 (2007) ·Zbl 1328.62033号 ·doi:10.1016/j.csda.2006.12.024
[44] R核心团队:R:统计计算的语言和环境。奥地利维也纳R统计计算基金会(2019年)。https://www.R-project.org/
[45] 卢梭,P。;Van Zomeren,B.,《揭示多元异常值和杠杆点》,美国统计协会,85,411,633-639(1990)·网址:10.1080/01621459.1990.10474920
[46] Symon,M.,聚类标准和多变量正态混合,生物统计学,77,35-43(1977)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。