×

基于简约模型聚类的稳健推理。 (英语) Zbl 07193731号

摘要:我们介绍了一种用于基于简约模型聚类的鲁棒聚类过程。经典的mclust框架通过公平裁剪和特征值比率约束(tclust框架,它是鲁棒的,但不是仿射不变量)进行鲁棒化。我们得到的mtclust方法的一个优点是,某些模型公式不需要特征值比率约束,从而导致仿射不变稳健简约聚类。我们通过仿真和基准实际数据示例说明了该方法。建议方法的R代码可在https://github.com/afarcome/mtclust

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Garcia-Escudero LA、Gordaliza A、Matrán C.探索性数据分析中的修剪工具。计算机图形统计杂志2003;12(2):434-449. doi:10.1198/1061860031806[Taylor&Francis Online],[Web of Science®],[Google学者]
[2] Farcomeni A,Ventura L.医学研究中稳健方法概述。统计方法医学研究2012;21:111-133. doi:10.177/0962280210385865[Crosref],[PubMed],[Web of Science®],[谷歌学者]
[3] Farcomeni A,Greco L.数据简化的稳健方法。博卡拉顿:查普曼和霍尔/CRC出版社;2015.【Crossref】,【谷歌学者】·Zbl 1311.62006年
[4] Dotto F.稳健聚类方法及其应用进展[博士论文]。统计科学博士学院。罗马“La Sapienza”大学;2017.【谷歌学者】
[5] García-Escudero LA、Gordaliza a、Matrán C等。在混合建模中避免虚假的局部最大化。统计计算。2015;25:619-633。doi:10.1007/s1122-014-9455-3[Crossref],[Web of Science®],[Google学者]·Zbl 1331.62100号
[6] Ingrassia S,Rocci R.多元高斯混合和动态约束MLE的EM算法的退化性。计算统计数据分析。2011;55:1715-1725. doi:10.1016/j.csda.2010.10.026[Crossref],[Web of Science®],[Google学者]·Zbl 1328.65030号
[7] Coretto P,Hennig C.《稳健不当最大似然:调整、计算以及与稳健高斯聚类其他方法的比较》,美国统计学会杂志,2016年;111:1648-1659. doi:10.1080/01621459.2015.1100996[Taylor&Francis Online],[Web of Science®],[Google学者]
[8] Cerioli A,Farcomeni A,Riani M.稳健估计和聚类分析的野生自适应修剪。Scand J统计。2018.doi:10.1111/sjos.12349[Crossref],[Google学者]·Zbl 1417.62169号
[9] McLachlan G,Peel D.有限混合模型。纽约:John Wiley&Sons;2004.【Crossref】,【谷歌学者】·Zbl 0963.62061号
[10] Zhang J,Liang F.使用指数幂混合的稳健聚类。生物计量学。2010;66:1078-1086. doi:10.1111/j.1541-0420.2010.01389.x[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 1233.62192号
[11] Bagnato L,Punzo A,Zoia MG.多元轻量级正态分布及其在基于模型聚类中的应用.Can J Stat.2017;45:95-119. doi:10.1002/cjs.11308[Crossref],[Web of Science®],[Google学者]·Zbl 1462.62308号
[12] Banfield JD,Raftery AE.基于模型的高斯和非高斯聚类。生物统计学。1993;49:803-821. doi:10.2307/25322201[Crosref],[Web of Science®],[谷歌学者]·Zbl 0794.62034号
[13] Celeux G,Govaert G.高斯简约聚类模型。模式识别。1995;28分:781-793秒。doi:10.1016/0031-3203(94)00125-6[交叉引用],[科学网®],[谷歌学者]
[14] Fraley C,Raftery AE.基于模型的聚类、判别分析和密度估计。美国统计协会杂志,2002年;97:611-631. doi:10.1198/016214502760047131[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1073.62545号
[15] Fraley C,Raftery AE.基于模型的分类方法:在化学计量学中使用mclust软件。J统计软件。2007;6:1-13. [谷歌学者]
[16] Punzo A,McNicholas PD。多元污染正态分布的节俭混合。生物识别杂志2016;58:1506-1537. doi:10.1002/bimj.201500144[Crosref],[PubMed],[Web of Science®],[Google Scholar]·Zbl 1353.62124号
[17] Gallegos MT,Ritter G.Trimmed ML污染混合物的估算。桑赫亚。2009年a;71:164-220. [谷歌学者]·Zbl 1193.62021号
[18] Gallegos MT,Ritter G.Trimming聚类污染分组数据的算法及其鲁棒性。高级数据分析分类。2009年b月;3:135-167. doi:10.1007/s11634-009-0044-9[Crossref],[Web of Science®],[Google学者]·Zbl 1284.62372号
[19] Gallegos MT,Ritter G.在具有基数约束的基于模型的修剪聚类中使用组合优化。计算统计数据分析。2010;54:637-654. doi:10.1016/j.csda.2009.08.023[Crossref],[Web of Science®],[Google学者]·Zbl 1464.62075号
[20] 一元正态混合的约束EM算法。J统计计算模拟。1986;23:211-230. doi:10.1080/00949658608810872[Taylor&Francis Online],[Web of Science®],[Google学者]
[21] García-Escudero LA、Gordaliza a、Matrán C等。稳健聚类分析的一般修正方法。Ann Stat.2008;36:1324-1345. doi:10.1214/07-AOS515[Crossref],[Web of Science®],[Google学者]·Zbl 1360.62328号
[22] Symons M.聚类标准和多元正态混合物。生物计量学。1981年;37:35-43. doi:10.2307/2530520[Crossref],[Web of Science®],[Google学者]·Zbl 0473.62048号
[23] Bryant P.Large——基于优化的聚类方法的样本结果。J分类。1991;8点31分至44分。doi:10.1007/BF02616246[Crossref],[Web of Science®],[Google学者]·Zbl 0747.62057号
[24] Dykstra RL。限制最小二乘回归算法。《美国统计学会杂志》,1983年;78:837-849. doi:10.1080/01621459.1983.10477029[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0535.62063号
[25] Fritz H,García-Escudero LA,Mayo-Iscar a.tclust:聚类分析的修剪方法的R包。J统计软件。2012;47.可从以下地点购买:http://www.jstatsoft.org/v47/i12doi:10.18637/jss.v047.i12[Crossref],[Web of Science®],[Google学者]
[26] Ruwet C、Garcia-Escudero LA、Gordaliza A等。TCLUST聚类过程的分解行为。测试。2013;22:466-487. doi:10.1007/s11749-012-0312-4[Crossref],[Web of Science®],[Google学者]·Zbl 1273.62146号
[27] Farcomeni A.存在入门级离群值的稳健约束聚类。技术计量学。2014年a;56:102-111. doi:10.1080/00401706.2013.826148[Taylor&Francis Online],[Web of Science®],[Google学者]
[28] Farcomeni A.Snipping,用于组件式污染下的稳健k均值聚类。统计计算。2014年b;24:909-917. doi:10.1007/s1122-013-9410-8[Crossref],[Web of Science®],[Google学者]·Zbl 1332.62203号
[29] Ritter G.稳健聚类分析和变量选择。纽约:CRC出版社;2014.【Crossref】,【谷歌学者】·Zbl 1341.62037号
[30] García-Escudero LA、Gordaliza a、Matrán C等。探索基于稳健模型的聚类中的组数。统计计算。2011;21(4):585-599. doi:10.1007/s1122-010-9194-z[Crossref],[Web of Science®],[Google学者]·Zbl 1221.62093号
[31] Cerioli A,GarcíA-Escudero LA,Mayo-Iscar A,et al.通过约束可能性在基于模型的聚类中发现正常群的数量。计算机图形统计杂志2018a;在线提供。[Taylor&Francis在线]、[Web of Science®]、[谷歌学者]·Zbl 07498957号
[32] Fraley C、Raftery AE、Murphy B等。用于基于模型的聚类、分类和密度估计的r:正态混合建模的mclust版本4。华盛顿特区:华盛顿大学统计系;2012年(技术代表)。[谷歌学者]
[33] Punzo A,Mazza A,McNicholas P.污染混合:用于拟合多元污染正态分布的简约混合的R包。J统计软件。2018;85:1-25. doi:10.18637/jss.v085.i10[Crossref],[PubMed],[Web of Science®],[Google学者]
[34] Andrews JL、Wickins JR、Boers NM等。teigen:通过多元T分布进行基于模型的聚类和分类的R包。J统计软件。2018; 在线提供。[Crossref]、[Web of Science®]、[Google学者]
[35] Dotto F,Farcomeni A,GarcíA-Escudero LA等。稳健聚类的重新加权方法。统计计算。2018;28:477-493. doi:10.1007/s1122-017-9742-x[Crossref],[Web of Science®],[Google学者]·Zbl 1384.62193号
[36] Cerioli A、Riani M、Atkinson AC等。监测的力量:如何充分利用受污染的多元样本。统计方法应用。2018年b月;在线提供。[Crossref],[谷歌学者]·Zbl 1427.62047号
[37] Farcomeni A,Dotto F.稳健聚类中(扩展)监测的力量。统计方法附录。2018; 在线提供。[Crossref],[谷歌学者]·Zbl 1428.62223号
[38] Hardin J,Roke DM。使用最小协方差行列式估计的多聚类环境中的异常检测。计算统计数据分析。2004;44:625-638. doi:10.1016/S0167-9473(02)00280-3[Crossref],[Web of Science®],[Google学者]·Zbl 1430.62133号
[39] Rousseeuw PJ,Leroy AM。稳健回归和异常值检测。纽约:John Wiley&Sons;2005; 第589卷。[谷歌学者]·Zbl 0711.62030号
[40] Cerioli A,Farcomeni A。多元异常值检测的错误率。计算统计数据分析。2011;55:544-553. doi:10.1016/j.csda.2010.05.021[Crossref],[Web of Science®],[Google学者]·Zbl 1247.62192号
[41] García-Escudero LA、Gordaliza a、Matrán C等。稳健聚类方法综述。高级数据分析分类。2010;4:89-109. doi:10.1007/s11634-010-0064-5[Crossref],[Web of Science®],[Google学者]·Zbl 1284.62375号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。