×

选择集群数量、集群模型和算法。基于二次判别分数的统一方法。 (英语) Zbl 1520.62085号

摘要:聚类分析需要确定聚类的数量,通常需要确定许多超参数。在实践中,一个人会产生几个分区,最后一个分区是根据验证或选择标准选择的。有很多验证方法,无论是隐式还是显式,都假设了某种聚类概念。在本文中,我们关注的是可以通过二次或线性边界很好地分离的组。参考簇的概念是通过二次判别函数和描述簇大小、中心和散布的参数来定义的。我们制定了两个与一类椭圆对称分布生成的群一致的聚类质量标准。使用所提标准的自举重采样,我们提出了一个选择规则,允许在多个聚类解决方案中进行选择,最终从不同的方法中获得。广泛的实验分析表明,与文献中确定的备选方案相比,该方法获得了更好的整体性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.,信息理论和最大似然原理的扩展,(第二届信息理论国际研讨会(Tsahkatsor,1971)(1973),Akadémiai Kiadó:Akadémiai Kiadó布达佩斯),267-281·Zbl 0283.62006号
[2] Akhanli,S.E。;Hennig,C.,通过聚集校准的聚类有效性指数比较聚类和聚类数,统计计算。,30, 5, 1523-1544 (2020) ·Zbl 1452.62430号
[3] Anderson,E.,《密苏里州安那州爱丽丝的物种问题》(The species problem in Iris,Ann.Missouri Bot.Gard.)。,23, 3, 471-483 (1936), https://www.jstor.org/stable/pdf/2394164.pdf?seq=1#页面
[4] 贝茨,S。;哈斯蒂,T。;Tibshirani,R.,交叉验证:它估计了什么?它做得有多好?(2021),可从ArXiv:2104.00673获得。(2021年5月31日访问)
[5] Baudry,J.-P.,《基于模型的条件分类似然聚类的估计和模型选择》,Electron。J.Stat.,9,1,1041-1077(2015)·Zbl 1325.62120号
[6] Ben-David,S。;von Luxburg,美国。;Pál,D.,《冷静看待集群稳定性》(Lugosi,G.;Simon,H.U.,《学习理论》(2006),斯普林格-柏林-海德堡:斯普林格–柏林-海德堡-柏林,海德堡),5-19·Zbl 1143.68520号
[7] Y.本吉奥。;Grandvalet,Y.,《K倍交叉验证方差的无偏估计》,J.Mach。学习。《决议》(JMLR),第5卷,第1089-1105页(2003年)·Zbl 1222.68145号
[8] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。整数。,22, 7, 719-725 (2000)
[9] Bouveyron,C。;Celeux,G。;墨菲,T.B。;Raftery,A.E.,数据科学的基于模型的聚类和分类,(剑桥统计与概率数学系列(2019),剑桥大学出版社:剑桥大学出版社),xvii+427,3967046·Zbl 1436.62006年
[10] Caliánski,T。;Harabasz,J.,《聚类分析的枝晶方法》,Comm.Statist。理论方法,3,1,1-27(1974)·Zbl 0273.62010
[11] 科雷托,P。;Hennig,C.,《一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法》,J.Mach。学习。决议,18,142,1-39(2017),http://jmlr.org/papers/v18/16-382.html ·Zbl 1442.62138号
[12] 科雷托,P。;Hennig,C.,OTRIMLE:健壮的基于模型的集群(2021),R包版本2.0
[13] 方,Y。;Wang,J.,通过bootstrap方法选择簇数,计算。统计人员。数据分析。,56, 3, 468-477 (2012) ·Zbl 1239.62076号
[14] Fisher,R.A.,《分类问题中多重测量的使用》,Ann.Eugen。(1936), http://rcs.chemometrics.ru/Tutorials/classification/Fisher.pdf
[15] Flury,B。;Riedwyl,H.,多元统计。《实用方法》(1988),查普曼和霍尔:查普曼与霍尔伦敦
[16] 福里纳,M。;阿玛尼诺,C。;Lanteri,S。;Tibrivia,E.,根据脂肪酸组成对橄榄油的分类,食品研究数据分析。,189-214 (1983)
[17] 福里纳,M。;里尔迪,R。;C、 答:。;Lanteri,S.,PARVUS:数据探索的可扩展程序包(1988),Elsevier:Elsevier阿姆斯特丹
[18] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?通过基于模型的聚类分析,Comput。J.,41,8,578-588(1998)·Zbl 0920.68038号
[19] 混合物分析手册,(Frühwirth-Schnatter,S.;Celeux,G.;Robert,C.P.,Chapman&Hall/CRC现代统计方法手册(2019),CRC出版社:佛罗里达州博卡拉顿CRC出版社),xxiii+497·Zbl 1419.62001号
[20] 傅伟(Fu,W.)。;Perry,P.O.,《使用交叉验证估算集群数量》,J.Compute。图表。统计人员。,29, 1, 162-173 (2020) ·兹比尔07499280
[21] 哈尔基迪,M。;Vazirgiannis,M。;Hennig,C.,《用于聚类验证和估计聚类数的方法依赖指数》(Henning,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),CRC出版社:佛罗里达州博卡拉顿CRC出版社),595-618·Zbl 1396.62136号
[22] 哈斯蒂,T。;Tibshirani,R.J。;Friedman,J.,《统计学习的要素》(2009),纽约斯普林格出版社·Zbl 1273.62005年
[23] 哈斯蒂·T·J。;Zhu,M.,《判别分析中的降维和可视化讨论》,Cook和yin,Aust。N.Z.J.Stat.,43,2,147-199(2001)·Zbl 0992.62056号
[24] Hennig,C.,集群稳定性的集群评估,计算。统计人员。数据分析。,52, 1, 258-271 (2007), https://www.sciencedirect.com/science/article/pii/S0167947306004622 ·Zbl 1452.62447号
[25] Hennig,C.,《聚类策略和方法选择》(Henning,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),CRC出版社:佛罗里达州博卡拉顿CRC出版社),703-730·Zbl 1396.62138号
[26] 休伯特,L。;Arabie,P.,《分区比较》,分类杂志,2193-218(1985)
[27] 考夫曼,L。;Rousseeuw,P.J.R.,《在数据中发现群体》(Wiley Series in Probability and Mathematical Statistics:Applied Probability and Statistics(1990),John Wiley&Sons,Inc.:John Willey&Sons公司,纽约)·Zbl 1345.62009号
[28] 考夫曼,L。;Rousseeuw,P.J.R.,围绕medoids的分区(程序PAM),(概率和数学统计中的Wiley系列:应用概率和统计(1990),John Wiley&Sons公司:John Willey&Sons,公司,纽约),68-125
[29] Keribin,C.,混合物模型阶数的一致估计,Compte。Rendus de L学院。设计科学。序列号。I数学。,326, 2, 243-248 (1998) ·Zbl 0954.62023号
[30] von Luxburg,美国。;威廉姆森共和国。;Guyon,I.,集群:科学还是艺术?,(Guyon,I.;Dror,G.;Lemaire,V.;Taylor,G;Silver,D.,《ICML无监督和迁移学习研讨会论文集》,《ICNL无监督与迁移学习研讨会文献集》,机器学习研究论文集,第27卷(2012),PMLR:PMLR Bellevue,美国华盛顿),65-79,https://proceedings.mlr.press/v27/luxburg12a.html
[31] 麦克拉克伦,G。;Peel,D.,有限混合模型,(概率与统计中的Wiley级数:应用概率与统计(2000),John Wiley&Sons公司:John Willey&Sons,Inc.纽约),xxii+419·Zbl 0963.62061号
[32] Mechelen,I.V。;布列斯特,A.-L。;丹格尔,R。;N.院长。;盖恩,I。;Hennig,C。;Leisch,F。;Steinley,D.,《集群分析中的基准:白皮书》(2018),可从arXiv:1809.10496获得
[33] 梅勒,M.,《比较聚类与基于信息的距离》,《多元分析杂志》。,98, 5, 873-895 (2007) ·兹比尔1298.91124
[34] Nguyen,T.T。;Nguyen,H.博士。;Chamroukhi,F。;麦克拉克伦,G.J。;Liu,L.,无穷远处消失的连续密度函数的有限混合逼近,Cogent Math。Stat.,7,1,第1750861条pp.(2020)·Zbl 1486.62048号
[35] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464 (1978) ·Zbl 0379.62005年
[36] Scrucca,L。;Fop先生。;墨菲,T.B。;Raftery,A.E.,mclust 5:使用高斯有限混合模型的聚类、分类和密度估计,《R J.》,8,1,205-233(2016),https://journal.r-project.org/archive/2016-1/scrucca-fop-murphy-etal.pdf
[37] Smyth,P.,《使用交叉验证似然的概率聚类模型选择》,《统计计算》。,10, 1, 63-72 (2000)
[38] 乌尔曼,T。;Hennig,C。;Boulesteix,A.-L.,《验证数据的聚类分析结果验证:系统框架》,WIREs data Min.Knowl。发现。,第12、3条,第1444页(2022年)
[39] 韦利亚,S。;Hernández,A.,《关于线性和二次判别分析的一致性》,《多元分析杂志》。,96, 2, 219-236 (2005) ·Zbl 1096.62068号
[40] 王凯。;Ng,A。;McLachlan,G.J.,EMMIXSew:EM算法和斜交混合分布(2018),https://CRAN.R-project.org/package=EMMIXSew
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。