×

具有确定性和形状约束的基于模型的聚类。 (英语) Zbl 1452.62443号

摘要:基于模型的聚类分析和混合建模方法通常涉及最大化分类和混合可能性。如果对分量的散布矩阵没有适当的约束,这些最大化将导致不适定问题。此外,在没有约束的情况下,传统上用于最大化似然准则的EM和CEM算法通常会检测到无兴趣或“虚假”聚类。考虑散布矩阵行列式之间最大比值的上界似乎是通过仿射等变约束克服这些问题的明智方法。不幸的是,在没有控制“形状”矩阵的元素的情况下仍然会出现问题。提出了一种新的方法,既可以控制离散矩阵行列式,也可以控制形状矩阵元素。给出了一些理论依据。针对这种双重约束最大化问题,提出了一种快速算法。该方法还扩展到了鲁棒的基于模型的聚类问题。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G35型 非参数稳健性
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 安德鲁斯,J。;威金斯,J。;波尔,北。;McNicholas,P.,teigen:通过多元分布进行基于模型的聚类和分类的R包,J.Stat.Softw。,83, 1-32 (2018)
[2] 巴格纳托,L。;Punzo,A。;Zoia,MG,《多元轻量级正态分布及其在基于模型聚类中的应用》,加拿大。J.Stat.,45,95-119(2017)·Zbl 1462.62308号
[3] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,803-821(1993)·Zbl 0794.62034号
[4] 鲍德利,JP;Celeux,G.,EM for mixtures-初始化需要特别注意,Stat.Compute。,25, 713-726 (2015) ·Zbl 1331.62301号
[5] 比尔纳基,C。;Chretien,S.,单变量最大似然估计中的退化,Stat.Probab。莱特。,61, 373-382 (2003) ·Zbl 1038.62023号
[6] 比尔纳基,C。;Lourme,A.,稳定和可视化高斯简约聚类模型,统计计算。,24, 953-969 (2014) ·Zbl 1332.62199号
[7] Browne,R.,Subedi,S.,McNicholas,P.:高斯简约聚类模型子集的约束优化(2013)。预印本可从arXiv获取:1306.5824
[8] Celeux,G。;Govaert,A.,一种用于聚类的分类EM算法和两种随机版本,计算。统计数据。,14, 315-332 (1992) ·Zbl 0937.62605号
[9] Cerioli,A。;加西亚·埃斯库德罗,L。;Mayo-Iscar,A。;Riani,M.,《通过约束可能性在基于模型的聚类中发现正常组的数量》,J.Compute。Graph Stat.,27404-416(2018)·Zbl 07498957号
[10] 科雷托,P。;Hennig,C.,《稳健不当最大似然:调整、计算以及与稳健高斯聚类其他方法的比较》,美国统计协会,111,1648-1659(2016)
[11] Dang,U。;R.Browne。;McNicholas,PD,多元幂指数分布的混合,生物统计学,71,1081-1089(2015)·Zbl 1419.62330号
[12] Day,N.,估计正态分布混合的成分,生物特征,56,463-474(1969)·Zbl 0183.48106号
[13] 多托,F。;Farcomeni,A。;加西亚·埃斯库德罗,L。;Mayo-Iscar,A.,稳健聚类的重加权方法,统计计算。,28, 477-493 (2018) ·Zbl 1384.62193号
[14] Flury,B.流感。;Riedwyl,H.,《多元统计,实用方法》(1988),剑桥:剑桥大学出版社,剑桥
[15] 弗里德曼,H。;Rubin,J.,《关于分组数据的一些不变标准》,J.Am.Stat.Assoc.,63,1159-1178(1967)
[16] 弗里茨,H。;加西亚·埃斯库德罗,L。;Mayo-Iscar,A.,鲁棒约束聚类的快速算法,计算。统计数据分析。,61, 124-136 (2013) ·Zbl 1349.62264号
[17] 加列戈斯,M。;Ritter,G.,《稳健的聚类分析方法》,《Ann.Stat.》,33347-380(2005)·Zbl 1064.62074号
[18] 加列戈斯,M。;Ritter,G.,《聚类受污染分组数据的修剪算法及其稳健性》,《高级数据分析》。分类。,10, 135-167 (2009) ·Zbl 1284.62372号
[19] 马里兰州加列戈斯;贾朱加,K。;Sokolowski,A。;Bock,H.,带离群值的最大似然聚类,分类,聚类和数据分析:最新进展和应用,247-255(2002),柏林:施普林格出版社,柏林·Zbl 1032.62059号
[20] 加西亚·埃斯库德罗,L。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,《Ann.Stat.》,36,1324-1345(2008)·Zbl 1360.62328号
[21] 加西亚·埃斯库德罗,L。;Gordaliza,A。;马特兰,C。;Mayo Iscar,A.,探索基于鲁棒模型的聚类中的组的数量,Stat.Comput。,21, 585-599 (2011) ·Zbl 1221.62093号
[22] 加西亚·埃斯库德罗,L。;Gordaliza,A。;Mayo-Iscar,A.,《稳健聚类方法综述》,《高级数据分析》。分类。,8, 27-43 (2014) ·Zbl 1459.62110号
[23] 加西亚·埃斯库德罗,L。;Gordaliza,A。;Mayo-Iscar,A.,《避免虚假解决方案的混合建模约束稳健建议》,《高级数据分析》。分类。,8, 27-43 (2014) ·Zbl 1459.62110号
[24] 加西亚·埃斯库德罗,L。;Gordaliza,A。;马特兰,C。;Mayo Iscar,A.,《避免混合建模中的虚假局部最大化》,Stat.Comput。,25619-633(2015)·Zbl 1331.62100号
[25] 加西亚·埃斯库德罗,L。;Gordaliza,A。;格雷塞林,F。;Ingrassia,S.公司。;Mayo-Iscar,A.,《混合建模中的特征值和约束:几何和计算问题》,《高级数据分析》。分类。,12, 203-233 (2018) ·Zbl 1414.62071号
[26] Hathaway,R.,《正态混合分布最大似然估计的约束公式》,《Ann.Stat.》,第13期,第795-800页(1985年)·Zbl 0576.62039号
[27] Hennig,C。;Liao,TF,《如何为混合型变量找到合适的聚类并应用于社会经济分层》,J.R.Stat.Soc.Ser。C、 62309-369(2013)
[28] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 193-218 (1985)
[29] Ingrassia,S.公司。;Rocci,R.,多元高斯有限混合的约束单调EM算法,计算。统计数据分析。,51, 5339-5351 (2007) ·Zbl 1445.62116号
[30] 基弗,J。;Wolfowitz,J.,无限多附带参数存在下最大似然估计的一致性,《数学年鉴》。Stat.,27,887-906(1956年)·Zbl 0073.14701号
[31] Maitra,R。;Melnykov,V.,《模拟数据以研究有限混合建模和聚类算法的性能》,J.Compute。图表统计,19,354-376(2010)
[32] Maronna,R。;Jacovkis,P.,《具有可变指标的多元聚类程序》,生物统计学,30499-505(1974)·Zbl 0285.62036号
[33] 麦克拉克伦,G。;Peel,D.,有限混合模型。Wiley Series in Probability and Statistics(2000),纽约:Wiley,New York·Zbl 0963.62061号
[34] Neykov,N。;Filzmoser,P。;迪莫娃,R。;Neytchev,P.,使用修剪似然估计对混合物进行稳健拟合,计算。统计数据分析。,52, 299-308 (2007) ·Zbl 1328.62033号
[35] 皮,D。;McLachlan,GJ,使用(t)分布的稳健混合建模,统计计算。,10, 339-348 (2000)
[36] Punzo,A。;McNicholas,PD,多元污染正态分布的节俭混合,生物统计学。J.,58,1506-1537(2016)·Zbl 1353.62124号
[37] Punzo,A。;Mazza,A。;McNicholas,PD,《污染混合:拟合多元污染正态分布简约混合的R包》,J.Stat.Softw。,85, 1-25 (2018)
[38] Riani,M。;佩罗塔,D。;Torti,F.,FSDA:稳健分析和交互式数据探索的Matlab工具箱,Chemom。智力。实验室系统。,116, 17-32 (2012)
[39] 里亚尼,M。;Cerioli,A。;佩罗塔,D。;Torti,F.,在FSDA库中模拟具有固定聚类重叠的多变量数据的混合,高级数据分析。分类。,9, 461-481 (2015) ·Zbl 1414.62267号
[40] Riani,M。;阿特金森,A。;Cerioli,A。;Corbellini,A.,《通过监测聚类和多元数据分析的高效稳健方法》,模式识别。,88, 246-260 (2019)
[41] Ritter,G.,《聚类分析和变量选择》(2014),博卡拉顿:CRC出版社,博卡拉顿
[42] Rocci,R。;Gattone,S。;Di Mari,R.,《约束高斯混合建模的数据驱动等变方法》,《高级数据分析》。分类。,12, 235-260 (2018) ·Zbl 1414.62269号
[43] 卢梭,P。;Van Driessen,K.,最小协方差行列式估计的快速算法,技术计量学,41,212-223(1999)
[44] Seo,B。;Kim,D.,正态混合模型中的根选择,计算。统计数据分析。,56, 2454-2470 (2012) ·Zbl 1252.62013年
[45] 张杰。;Liang,F.,使用指数幂混合的稳健聚类,生物计量,661078-1086(2010)·Zbl 1233.62192号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。