×

一种确定OTRIMLE稳健高斯混合聚类簇数的充分性方法。 (英语) Zbl 1521.62100号

摘要:我们引入了一种新的方法来确定集群的数量。该方法适用于[P.科雷托C.海宁,“稳健不适当最大似然:调整、计算,以及与稳健高斯聚类的其他方法的比较”,《美国统计协会期刊》第111期,第516期,1648–1659页(2016;doi:10.1080/01621459.2015.1100996)]高斯混合模型允许将观测值分类为“噪声”,但它也可以应用于其他聚类方法。聚类的质量是通过统计\(Q\)来评估的,该统计\(Q\)测量聚类内分布与平均值中唯一模式的椭圆单峰分布的接近程度。这种非参数测量允许非高斯簇,只要它们具有良好的质量(Q)。模型的简单性通过一种度量(S)来评估,该度量倾向于较少数量的簇,除非额外的簇可以显著降低估计的噪声比例。然后选择适合数据的最简单模型,即其观测值(Q)不明显大于拟合模型真正生成的数据的预期值,这可以通过参数引导进行评估。在仿真研究和两个实际数据集上,将该方法与使用贝叶斯信息准则(BIC)和集成完全似然(ICL)的基于模型的聚类进行了比较。

理学硕士:

62H30型 分类和区分;聚类分析(统计方面)
62F40型 引导、折刀和其他重采样方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akhanli,S.E.和Hennig,C.(2020)。通过聚集经校准的聚类有效性指标来比较聚类和聚类数量。统计与计算30,1523-1544·Zbl 1452.62430号
[2] Amigo,E.、Gonzalo,J.、Artiles,J.和Verdejo,F.(2009年)。基于形式约束的外部聚类评估指标的比较。信息检索12,461-486。
[3] Andrews,J.L.、Wickins,J.R.、Boers,N.M.和McNicholas,P.D.(2018年)。teigen:一个R包,用于通过多元t分布进行基于模型的聚类和分类。统计软件杂志83,1-32。
[4] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物统计学49,803-821·Zbl 0794.62034号
[5] Baudry,J.P.、Raftery,A.、Celeux,G.、Lo,K.和Gottardo,R.(2010年)。组合混合成分进行聚类。计算与图形统计杂志19,332-353。
[6] Biernacki,C.、Celeux,G.和Govaert,G.(2000)。用综合完全似然法评估用于聚类的混合模型。IEEE模式分析和机器智能汇刊22,719-725。
[7] Byers,S.&Raftery,A.E.(1998年)。用于估计空间点过程中特征的最近邻杂波消除。《美国统计协会杂志》93,577-584·Zbl 0926.62089号
[8] Cerioli,A.、GarcíA‐Escudero,L.A.、Mayo‐Iscar,A.和Riani,M.(2018)。通过约束可能性在基于模型的聚类中查找正常组的数量。计算与图形统计杂志27,404-416·Zbl 07498957号
[9] Chen,J.和Khalili,A.(2008)。具有非光滑罚分的有限混合模型中的阶数选择。《美国统计协会杂志》103,1674-1683·Zbl 1286.62057号
[10] Chen,J.,Li,P.&Fu,Y.(2012)。正常混合物顺序的推断。《美国统计协会杂志》107,1096-1105·Zbl 1443.62055号
[11] Coretto,P.&Hennig,C.(2011年)。高斯分布和均匀分布非均匀混合物的最大似然估计。《统计规划与推断杂志》141,462-473·Zbl 1203.62017年
[12] Coretto,P.和Hennig,C.(2016)。稳健的不适当最大似然:调整、计算以及与其他稳健高斯聚类方法的比较。美国统计协会杂志1111648-1659。
[13] Coretto,P.&Hennig,C.(2017年)。一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法。机器学习研究杂志18,1-39·Zbl 1442.62138号
[14] Coretto,P.&Hennig,C.(2019年)。otrimle:健壮的基于模型的集群。R包1.3版。可从URL:获取。
[15] Davies,P.L.(1995)。数据功能。Neerlandica统计局49,185-245·Zbl 0831.62001号
[16] Davies,P.L.和Kovac,A.(2001)。局部极值、运行、字符串和多分辨率。统计年鉴29,1-65·Zbl 1029.62038号
[17] Feng,Z.D.和McCulloch,C.E.(1996)。在有限混合模型中使用bootstrap似然比。英国皇家统计学会杂志:B辑(方法学)58,609-617·Zbl 0906.62021号
[18] Forina,M.、Armanino,C.、Lanteri,S.和Tiblispia,E.(1983年)。根据脂肪酸组成对橄榄油进行分类。《食品研究和数据分析》,H.Martens(编辑)和H.Russwurm(编辑),第189-214页。吠叫:应用科学出版社。
[19] Fritz,H.、García‐Escudero,L.a.和Mayo‐Iscar,a.(2012)。tclust:一个R包,用于聚类分析的修剪方法。统计软件杂志,47,1-26。
[20] Frühwirth‐Schnatter,S.、Celeux,G.和Robert,C.P.(编辑)(2020年)。混合物分析手册。佛罗里达州博卡拉顿:CRC/Chapman&Hall。
[21] García‐Escudero,L.a.,Gordaliza,a.,Greselin,F.,Ingrassia,S.&Mayo‐Iscar,a.(2018)。混合建模中的特征值和约束:几何和计算问题。数据分析和分类进展12,203-233·Zbl 1414.62071号
[22] Gelman,A.和Hennig,C.(2017年)。超越统计学中的客观和主观(通过讨论)。英国皇家统计学会杂志:A辑(社会统计)180,967-1033。
[23] Gelman,A.、Meng,X.L.和Stern,H.(1996)。通过实现差异对模型适合性进行后验预测评估。中国统计局,733-807·Zbl 0859.62028号
[24] 霍尔,P.(1992)。关于非参数回归中的bootstrap置信区间。统计年鉴20,695-711·Zbl 0765.62049号
[25] Hartigan,J.A.和Hartigan.P.M.(1985年)。单峰倾角测试。《统计年鉴》13,70-84·Zbl 0575.62045号
[26] Hennig,C.(2004)。位置-尺度混合的最大似然估计的分解点。《统计年鉴》32,1313-1340·Zbl 1047.62063号
[27] Hennig,C.(2007)。集群稳定性的集群评估。计算统计与数据分析52,258-271·Zbl 1452.62447号
[28] Hennig,C.(2010年)。合并高斯混合成分的方法。数据分析和分类进展4,3-34·Zbl 1306.62141号
[29] Hennig,C.和Lin,C.J.(2015)。针对集群测试同质性和评估集群数量的灵活参数引导。统计与计算25,821-833·Zbl 1331.62308号
[30] Hubert,L.和Arabie,P.(1985)。比较分区。分类杂志2193-218。
[31] Hui,F.K.C.,Warton,D.I.&Foster,S.D.(2015)。有限混合模型中的次序选择:完全的还是观察到的似然信息准则?生物特征102,724-730·Zbl 1452.62814号
[32] Keribin,C.(2000年)。混合模型阶数的一致估计。Sankhyá:印度统计杂志,A62系列,49-66·Zbl 1081.62516号
[33] Lee,S.X.和McLachlan,G.J.(2013)。关于斜正态分布和斜t分布的混合。数据分析和分类进展7,241-266·Zbl 1273.62115号
[34] Malsiner‐Walli,G.,Frühwirth‐Schnatter,S.&Grün,B.(2017)。使用贝叶斯估计识别混合物。计算与图形统计杂志26285-295。
[35] Maronna,R.A.和Zamar,R.H.(2002年)。高维数据集位置和离散度的稳健估计。技术计量学44,307-317。
[36] McLachlan,G.J.(1987)。自举时,正常混合物中成分数量的似然比检验统计量。英国皇家统计学会杂志:C辑(应用统计学)36,318-324。
[37] McLachlan,G.J.和Peel,D.(2000年)。有限混合模型。纽约:Wiley·Zbl 0963.62061号
[38] Meila,M.(2007)。比较聚类–基于信息的距离。多元分析杂志98873-895·Zbl 1298.91124号
[39] Meng,X.L.(1994)。后验预测值。《统计年鉴》22,1142-1160·兹比尔0820.62027
[40] Nguyen,T.T.,Nguyen-H.D.,Chamroukhi,F.&McLachlan,G.J.(2020年)。无穷远处消失的连续密度函数的有限混合近似。Cogent数学与统计71750861·Zbl 1486.62048号
[41] Peel,D.和McLachlan,G.J.(2000)。使用t分布的稳健混合建模。统计与计算10,339-348。
[42] Pons,O.(2013)。非参数假设的统计检验:渐近理论。新加坡:世界科学。
[43] Ritter,G.(2014)。稳健聚类分析和变量选择。统计学和应用概率专著。佛罗里达州博卡拉顿:查普曼和霍尔/CRC。
[44] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R杂志8289-317。
[45] Siffer,A.、Fouque,P.A.、Termier,A.和Largouöt,C.(2018年)。是否收集了您的数据?单峰的折叠试验。第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。伦敦:ACM。第2210-2218页。
[46] Silverman,B.W.(1981)。使用核密度估计来研究多模态。英国皇家统计学会杂志:B辑(方法学)43,97-99。
[47] Sommer,E.O.和Weihs,C.(2005年)。“多特蒙德的社交环境”比赛简介。分类——无处不在的挑战。编辑C.Weihs和W.Gaul,第667-673页。柏林:斯普林格。
[48] Wagenmakers,E.J.、Ratcliff,R.、Gomez,P.和Iverson,G.J.(2004)。使用参数引导评估模型模仿。《数学心理学杂志》48,28-50·Zbl 1076.91537号
[49] Wang,K.,Ng,S.K.和McLachlan,G.J.(2009)。多元斜t混合模型:荧光激活细胞分类数据的应用。2009年,《数字图像计算:技术与应用》,H.Shi,Y.C。Zhang,M.Bottema,B.Lovell和A.Maeder,第526-531页。纽约:IEEE。
[50] Xie,F.&Xu,Y.(2020年)。贝叶斯排斥高斯混合模型。《美国统计协会杂志》115,187-203·Zbl 1437.62242号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。