卢卡·科拉吉奥;彼得罗·科雷托 选择集群数量、集群模型和算法。基于二次判别分数的统一方法。 (英语) Zbl 1520.62085号 《多元分析杂志》。 196,文章ID 105181,20 p.(2023). 摘要:聚类分析需要确定聚类的数量,通常需要确定许多超参数。在实践中,一个人会产生几个分区,最后一个分区是根据验证或选择标准选择的。有很多验证方法,无论是隐式还是显式,都假设了某种聚类概念。在本文中,我们关注的是可以通过二次或线性边界很好地分离的组。参考簇的概念是通过二次判别函数和描述簇大小、中心和散布的参数来定义的。我们制定了两个与一类椭圆对称分布生成的群一致的聚类质量标准。使用所提标准的自举重采样,我们提出了一个选择规则,允许在多个聚类解决方案中进行选择,最终从不同的方法中获得。广泛的实验分析表明,与文献中确定的备选方案相比,该方法获得了更好的整体性能。 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 62-08 统计问题的计算方法 关键词:群集验证;混合物模型;基于模型的聚类;重采样方法 软件:麦克卢斯特;帕尔沃斯;MBC手册;奥特里姆 PDF格式BibTeX公司 XML格式引用 \textit{L.Coraggio}和\textit{P.Coretto},《多元分析杂志》。196,文章ID 105181,20 p.(2023;Zbl 1520.62085) 全文: DOI程序 arXiv公司 OA许可证 参考文献: [1] Akaike,H.,信息理论和最大似然原理的扩展,(第二届信息理论国际研讨会(Tsahkatsor,1971)(1973),Akadémiai Kiadó:Akadémiai Kiadó布达佩斯),267-281·Zbl 0283.62006号 [2] Akhanli,S.E。;Hennig,C.,通过聚集校准的聚类有效性指数比较聚类和聚类数,统计计算。,30, 5, 1523-1544 (2020) ·Zbl 1452.62430号 [3] Anderson,E.,《密苏里州安那州爱丽丝的物种问题》(The species problem in Iris,Ann.Missouri Bot.Gard.)。,23, 3, 471-483 (1936), https://www.jstor.org/stable/pdf/2394164.pdf?seq=1#页面 [4] 贝茨,S。;哈斯蒂,T。;Tibshirani,R.,交叉验证:它估计了什么?它做得有多好?(2021),可从ArXiv:2104.00673获得。(2021年5月31日访问) [5] Baudry,J.-P.,《基于模型的条件分类似然聚类的估计和模型选择》,Electron。J.Stat.,9,1,1041-1077(2015)·Zbl 1325.62120号 [6] Ben-David,S。;von Luxburg,美国。;Pál,D.,《冷静看待集群稳定性》(Lugosi,G.;Simon,H.U.,《学习理论》(2006),斯普林格-柏林-海德堡:斯普林格–柏林-海德堡-柏林,海德堡),5-19·Zbl 1143.68520号 [7] Y.本吉奥。;Grandvalet,Y.,《K倍交叉验证方差的无偏估计》,J.Mach。学习。《决议》(JMLR),第5卷,第1089-1105页(2003年)·Zbl 1222.68145号 [8] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。整数。,22, 7, 719-725 (2000) [9] Bouveyron,C。;Celeux,G。;墨菲,T.B。;Raftery,A.E.,数据科学的基于模型的聚类和分类,(剑桥统计与概率数学系列(2019),剑桥大学出版社:剑桥大学出版社),xvii+427,3967046·Zbl 1436.62006年 [10] Caliánski,T。;Harabasz,J.,《聚类分析的枝晶方法》,Comm.Statist。理论方法,3,1,1-27(1974)·Zbl 0273.62010 [11] 科雷托,P。;Hennig,C.,《一致性、故障鲁棒性和鲁棒不适当最大似然聚类算法》,J.Mach。学习。决议,18,142,1-39(2017),http://jmlr.org/papers/v18/16-382.html ·Zbl 1442.62138号 [12] 科雷托,P。;Hennig,C.,OTRIMLE:健壮的基于模型的集群(2021),R包版本2.0 [13] 方,Y。;Wang,J.,通过bootstrap方法选择簇数,计算。统计人员。数据分析。,56, 3, 468-477 (2012) ·Zbl 1239.62076号 [14] Fisher,R.A.,《分类问题中多重测量的使用》,Ann.Eugen。(1936), http://rcs.chemometrics.ru/Tutorials/classification/Fisher.pdf [15] Flury,B。;Riedwyl,H.,多元统计。《实用方法》(1988),查普曼和霍尔:查普曼与霍尔伦敦 [16] 福里纳,M。;阿玛尼诺,C。;Lanteri,S。;Tibrivia,E.,根据脂肪酸组成对橄榄油的分类,食品研究数据分析。,189-214 (1983) [17] 福里纳,M。;里尔迪,R。;C、 答:。;Lanteri,S.,PARVUS:数据探索的可扩展程序包(1988),Elsevier:Elsevier阿姆斯特丹 [18] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?通过基于模型的聚类分析,Comput。J.,41,8,578-588(1998)·Zbl 0920.68038号 [19] 混合物分析手册,(Frühwirth-Schnatter,S.;Celeux,G.;Robert,C.P.,Chapman&Hall/CRC现代统计方法手册(2019),CRC出版社:佛罗里达州博卡拉顿CRC出版社),xxiii+497·Zbl 1419.62001号 [20] 傅伟(Fu,W.)。;Perry,P.O.,《使用交叉验证估算集群数量》,J.Compute。图表。统计人员。,29, 1, 162-173 (2020) ·兹比尔07499280 [21] 哈尔基迪,M。;Vazirgiannis,M。;Hennig,C.,《用于聚类验证和估计聚类数的方法依赖指数》(Henning,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),CRC出版社:佛罗里达州博卡拉顿CRC出版社),595-618·Zbl 1396.62136号 [22] 哈斯蒂,T。;Tibshirani,R.J。;Friedman,J.,《统计学习的要素》(2009),纽约斯普林格出版社·Zbl 1273.62005年 [23] 哈斯蒂·T·J。;Zhu,M.,《判别分析中的降维和可视化讨论》,Cook和yin,Aust。N.Z.J.Stat.,43,2,147-199(2001)·Zbl 0992.62056号 [24] Hennig,C.,集群稳定性的集群评估,计算。统计人员。数据分析。,52, 1, 258-271 (2007), https://www.sciencedirect.com/science/article/pii/S0167947306004622 ·Zbl 1452.62447号 [25] Hennig,C.,《聚类策略和方法选择》(Henning,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),CRC出版社:佛罗里达州博卡拉顿CRC出版社),703-730·Zbl 1396.62138号 [26] 休伯特,L。;Arabie,P.,《分区比较》,分类杂志,2193-218(1985) [27] 考夫曼,L。;Rousseeuw,P.J.R.,《在数据中发现群体》(Wiley Series in Probability and Mathematical Statistics:Applied Probability and Statistics(1990),John Wiley&Sons,Inc.:John Willey&Sons公司,纽约)·Zbl 1345.62009号 [28] 考夫曼,L。;Rousseeuw,P.J.R.,围绕medoids的分区(程序PAM),(概率和数学统计中的Wiley系列:应用概率和统计(1990),John Wiley&Sons公司:John Willey&Sons,公司,纽约),68-125 [29] Keribin,C.,混合物模型阶数的一致估计,Compte。Rendus de L学院。设计科学。序列号。I数学。,326, 2, 243-248 (1998) ·Zbl 0954.62023号 [30] von Luxburg,美国。;威廉姆森共和国。;Guyon,I.,集群:科学还是艺术?,(Guyon,I.;Dror,G.;Lemaire,V.;Taylor,G;Silver,D.,《ICML无监督和迁移学习研讨会论文集》,《ICNL无监督与迁移学习研讨会文献集》,机器学习研究论文集,第27卷(2012),PMLR:PMLR Bellevue,美国华盛顿),65-79,https://proceedings.mlr.press/v27/luxburg12a.html [31] 麦克拉克伦,G。;Peel,D.,有限混合模型,(概率与统计中的Wiley级数:应用概率与统计(2000),John Wiley&Sons公司:John Willey&Sons,Inc.纽约),xxii+419·Zbl 0963.62061号 [32] Mechelen,I.V。;布列斯特,A.-L。;丹格尔,R。;N.院长。;盖恩,I。;Hennig,C。;Leisch,F。;Steinley,D.,《集群分析中的基准:白皮书》(2018),可从arXiv:1809.10496获得 [33] 梅勒,M.,《比较聚类与基于信息的距离》,《多元分析杂志》。,98, 5, 873-895 (2007) ·兹比尔1298.91124 [34] Nguyen,T.T。;Nguyen,H.博士。;Chamroukhi,F。;麦克拉克伦,G.J。;Liu,L.,无穷远处消失的连续密度函数的有限混合逼近,Cogent Math。Stat.,7,1,第1750861条pp.(2020)·Zbl 1486.62048号 [35] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464 (1978) ·Zbl 0379.62005年 [36] Scrucca,L。;Fop先生。;墨菲,T.B。;Raftery,A.E.,mclust 5:使用高斯有限混合模型的聚类、分类和密度估计,《R J.》,8,1,205-233(2016),https://journal.r-project.org/archive/2016-1/scrucca-fop-murphy-etal.pdf [37] Smyth,P.,《使用交叉验证似然的概率聚类模型选择》,《统计计算》。,10, 1, 63-72 (2000) [38] 乌尔曼,T。;Hennig,C。;Boulesteix,A.-L.,《验证数据的聚类分析结果验证:系统框架》,WIREs data Min.Knowl。发现。,第12、3条,第1444页(2022年) [39] 韦利亚,S。;Hernández,A.,《关于线性和二次判别分析的一致性》,《多元分析杂志》。,96, 2, 219-236 (2005) ·Zbl 1096.62068号 [40] 王凯。;Ng,A。;McLachlan,G.J.,EMMIXSew:EM算法和斜交混合分布(2018),https://CRAN.R-project.org/package=EMMIXSew 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。