×

通过聚集经校准的聚类有效性指标来比较聚类和聚类数量。 (英语) Zbl 1452.62430号

摘要:聚类分析中的一个关键问题是选择合适的聚类方法和确定最佳聚类数。根据不同的标准,不同的聚类在同一数据集上是最优的,而这些标准的选择取决于聚类的背景和目的。因此,研究人员需要考虑他们所针对的聚类应该具有什么数据分析特征,以及聚类同质性内的其他特征,团簇之间的分离,以及稳定性。在这里,提出了一套内部聚类有效性指标来衡量聚类质量的不同方面,包括一些来自文献的指标。用户可以选择当前应用程序中相关的索引。为了衡量聚类的整体质量(用于比较不同方法和/或不同数量的聚类),对指数值进行了聚合校准。校准是相对于同一数据上的一组随机聚类。提出了两个具体的聚合索引,并与现有的模拟和实际数据索引进行了比较。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
第60页 统计学在工程和工业中的应用;控制图
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿伯莱茨,O。;古鲁特哈加,I。;穆盖尔扎,J。;JM佩雷斯;Perona,I.,《集群有效性指数的广泛比较研究》,模式识别。,46, 243-256 (2012) ·doi:10.1016/j.patcog.2012.07.021
[2] Caliánski,T。;Harabasz,J.,用于聚类分析的树枝晶方法,Commun。统计理论方法,3,1,1-27(1974)·Zbl 0273.62010 ·doi:10.1080/03610927408827101
[3] Charytanowicz,M。;Niewczas,J。;Kulczycki,P。;宾夕法尼亚州科瓦尔斯基;Ł乌克兰,S。;Żak,S。;Pitka,E。;Kawa,J.,《x射线图像特征分析的完全梯度聚类算法》,《生物医学信息技术》,15-24(2010),柏林:施普林格出版社,柏林
[4] 特拉特,M。;Hansen,P.,双标准聚类分析,IEEE Trans。模式分析。机器。智力。,4, 277-291 (1980) ·Zbl 0458.62049号 ·doi:10.1109/TPAMI.1980.4767027
[5] Dheeru,D.,Karra Taniskidou,E.:UCI机器学习库(2017)。http://archive.ics.uci.edu/ml
[6] Dias,D.B.,Madeo,R.C.,Rocha,T.,Bíscaro,H.H.,佩雷斯,S.M.:。巴西手语的手势识别:一项使用基于距离的神经网络的研究。摘自:2009年国际神经网络联合会议。IJCNN 2009,第697-704页。IEEE(2009)。10.1109/IJCNN.2009.5178917
[7] Dunn,JC,Well-sparated clusters and optimal fuzzy partitions,J.Cybern。,4, 1, 95-104 (1974) ·Zbl 0304.68093号 ·网址:10.1080/01969727408546059
[8] 方,Y。;Wang,J.,通过bootstrap方法选择簇数,计算。统计数据分析。,56, 3, 468-477 (2012) ·Zbl 1239.62076号 ·doi:10.1016/j.csda.2011.09.003
[9] 福里纳,M。;里尔迪,R。;阿玛尼诺,C。;Lanteri,S。;康蒂,P。;Princi,P.,Parvus:数据探索、分类和关联的可扩展程序包,J.Chemom。,4, 2, 191-193 (1990) ·doi:10.1002/cem.1180040210
[10] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会,97,4,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[11] Gelman,A。;Hennig,C.,《统计学中超越主观和客观》,J.R.Stat.Soc.:Ser。A(Stat.Soc.),180,4,967-1033(2017)·doi:10.1111/rssa.12276
[12] 哈尔基迪,M。;Vazirgiannis,M。;Hennig,C。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《用于聚类验证和估计聚类数的方法依赖指数》,《聚类分析手册》,595-618(2015),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1396.62136号
[13] Handl,J。;Knowles,J。;Hennig,C。;梅拉,M。;默塔格,F。;Rocci,R.,《自然启发聚类》,《聚类分析手册》,419-439(2015),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1396.62137号
[14] Hennig,C.,集群稳定性的集群评估,计算。统计数据分析。,52, 258-271 (2007) ·兹比尔1452.62447 ·doi:10.1016/j.csda.2006.11.025
[15] Hennig,C.,什么是真正的集群?,模式识别。莱特。,64, 53-62 (2015) ·doi:10.1016/j.patrec.2015.04.009
[16] 亨尼格,C。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《聚类策略和方法选择》,《聚类分析手册》,703-730(2015),博卡拉顿:CRC出版社,博卡拉通·Zbl 1396.62138号
[17] Hennig,C。;瑞士斯基达斯;Bozeman,JR,通过测量与用户相关的聚类特征进行聚类验证,数据分析和应用1:聚类和回归。建模——估算、预测和数据挖掘,1-24(2019),伦敦:ISTE有限公司,伦敦·Zbl 1416.62029号
[18] Hennig,C。;Liao,TF,《如何为混合型变量找到合适的聚类并应用于社会经济分层》,J.Roy。统计社会:序号。C(应用统计),62,3,309-369(2013)·文件编号:10.1111/j.1467-9876.2012.01066.x
[19] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 193-218 (1985) ·doi:10.1007/BF01908075
[20] 休伯特,L。;Schultz,J.,作为一般数据分析策略的二次分配,Br.J.Math。统计心理学。,29, 2, 190-241 (1976) ·Zbl 0356.92027号 ·doi:10.1111/j.2044-8317.1976.tb00714.x
[21] 阿拉斯加州贾恩;Dubes,RC,聚类数据算法(1988),恩格伍德悬崖:普伦蒂斯·霍尔,恩格尔伍德悬崖·Zbl 0665.62061号
[22] 考夫曼,L。;Rousseeuw,PJ,《在数据中发现群体:聚类分析导论》(1990),纽约:威利出版社,纽约·兹比尔1345.62009
[23] Leisch,F.,《k-质心聚类分析工具箱》,计算。统计数据分析。,51, 2, 526-544 (2006) ·Zbl 1157.62439号 ·doi:10.1016/j.csda.2005.10.006
[24] 刘,Y。;李,Z。;熊,H。;高,X。;吴杰。;Wu,S.,理解和增强内部聚类验证措施,IEEE Trans。赛博。,43, 3, 982-994 (2013) ·doi:10.1109/TSMCB.2012.2220543
[25] Lloyd,S.,《pcm中的最小二乘量化》,IEEE Trans。信息理论。,28, 2, 129-137 (1982) ·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[26] 米利根,G。;Cooper,M.,《确定数据集中簇数的程序检查》,《心理测量学》,50,3,159-179(1985)·doi:10.1007/BF02294245
[27] Seber,GAF,多元观察(1983),纽约:威利,纽约
[28] 香农,CE,通信数学理论,贝尔系统。《技术期刊》,27,3,379-423(1948)·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[29] Tibshirani,R。;Walther,G.,《预测强度的聚类验证》,J.Compute。图表。统计,14,3,511-528(2005)·doi:10.1198/106186005X59243
[30] Walesiak,M.,Dudek,A.:clusterSim包(2011年)。https://cran.r-project.org/web/packages/clusterSim/
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。