×

九种常用聚类方法的实证比较和特征描述。 (英语) Zbl 07538949号

总结:九种常用的聚类方法应用于42个实际数据集。目的是通过多个聚类验证指数对方法进行详细描述,这些验证指数用于测量结果聚类的各个方面,如聚类内距离小、聚类分离、接近高斯分布等,如C.海宁[“通过测量与用户相关的聚类特征进行聚类验证”,载于:C.H.Skiadas(编辑)和J.R.Bozeman(编辑),数据分析和应用1:聚类和回归、建模估计、预测和数据挖掘。伦敦:Wiley ISTE.1-24(2019;网址:10.1002/9781119597568.ch1)]. 30个数据集具有“真”聚类。在这些数据集上,探索了从九种方法到“真”分类的聚类相似性。此外,混合效应回归将集群的可观察个别方面与“真实”集群的相似性联系起来,而真实的集群问题是不可观察的。这项研究不仅对这些方法发现“真实”聚类的能力提供了新的见解,还对这些方法可以预期的聚类属性提供了新见解,这对于在没有给定“真实”集群的实际情况下选择方法至关重要。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ackerman,M。;Ben-David,S.,《聚类质量的度量:聚类公理的工作集》,Adv Neural Inf Process Syst NIPS,22,121-128(2008)
[2] Ackerman M、Ben-David S、Branzei S、Loker D(2012)加权聚类。摘自:第26届AAAI人工智能会议论文集,第858-863页
[3] Ackerman M、Ben-David S、Loker D(2010)《朝向基于属性的聚类范式分类》。主题:神经信息处理系统(NIPS)进展,第10-18页
[4] 阿道夫森。;Ackerman,M。;Brownstein,NC,To cluster,or not To cluster:可聚类性方法分析,模式识别,88,13-26(2019)
[5] 阿克汉利,东南部;Hennig,C.,《通过聚集校准的聚类有效性指数比较聚类和聚类数》,《统计计算》,30,5,1523-1544(2020)·兹比尔1452.62430
[6] Amigo,E。;Gonzalo,J。;Artiles,J。;Verdejo,F.,《基于形式约束的外部聚类评估指标比较》,Inf Retr,12,461-486(2009)
[7] 安德鲁奇,L。;Hennig,C.,分类数据的聚类:基于模型和基于距离的方法的比较,公共统计理论方法,43,704-721(2014)·Zbl 1287.62010年
[8] 安德鲁斯,JL;McNicholas,PD,基于模型的聚类、分类和多元t分布混合判别分析,统计计算,22,5,1021-1029(2012)·Zbl 1252.62062号
[9] 安德鲁斯,JL;威金斯,JR;新墨西哥州波尔斯;McNicholas,PD,teigen:通过多元分布进行基于模型的聚类和分类的R包,J Stat Softw,83,7,1-32(2018)
[10] 阿伯莱茨,O。;古鲁特哈加,I。;穆盖尔扎,J。;佩雷斯,JM;Perona,I.,《集群有效性指数的广泛比较研究》,《模式识别》,46,1,243-256(2013)
[11] Bagga A,Baldwin B(1998)使用向量空间模型进行基于实体的跨文档参考。收录:计算语言学协会第36届年会和第17届国际计算语言学会议记录(COLING-ACL 98)。ACL,Stroudsburg PE,第79-85页
[12] Boulesteix AL,Hatz M(2017)基于实际数据的聚类方法基准:统计视图。摘自:《数据科学:数据分析和聚类的创新发展》,柏林斯普林格出版社,第73-82页
[13] Boulesteix,AL,减少方法论计算研究中过度乐观报告的十条简单规则,PLoS Comput Biol,11(2015)
[14] 阿拉巴马州布列斯特克斯;劳尔,S。;Eugster,MJA,计算科学中性比较研究的诉求,《公共科学图书馆·综合》,8,e61562(2013)
[15] 布鲁斯科,MJ;Steinley,D.,最小组内平方和划分的启发式程序比较,《心理测量学》,72583-600(2007)·Zbl 1291.62196号
[16] 科雷托,P。;Hennig,C.,《稳健不恰当最大似然:调整、计算以及与稳健高斯聚类的其他方法的比较》,美国统计协会杂志,1111648-1659(2016)
[17] Correa-Morris,J.,《不同聚类方法的统一表示》,《模式识别》,46,2548-2561(2013)·Zbl 1323.68431号
[18] MC德苏托;科斯塔,IG;de Araujo,DS;卢德米尔,结核病;Schliep,A.,《聚类癌症基因表达数据:比较研究》,BMC Bioninform,9497(2008)
[19] Dimitriadou,E。;Barth,M。;Windischberger,C。;霍尼克,K。;Moser,E.,功能MRI聚类分析的定量比较,Artif Intell Med,3157-71(2004)
[20] Dua D,Graff C(2017)UCI机器学习库。http://archive.ics.uci.edu/ml
[21] Ester M,Kriegel HP,Sander J,Xu X(1996)一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。摘自:Simoudis E,Han J,Fayyad UM(eds)KDD 96:第二届知识发现和数据挖掘国际会议记录。AAAI出版社,门罗公园,第226-231页
[22] Everitt,理学学士;朗道,S。;Leese,M。;Stahl,D.,聚类分析(2011),纽约:威利,纽约·Zbl 1274.62003年
[23] 费希尔,L。;Van Ness,J.,《可接受的聚类程序》,《生物统计学》,58,91-104(1971)·Zbl 0224.62030号
[24] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 1073.62545号
[25] 哈尔基迪,M。;Vazirgiannis,M。;Hennig,C。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《用于聚类验证和估计聚类数的方法依赖指数》,《聚类分析手册》,595-618(2015),博卡拉顿:CRC出版社,博卡拉顿·兹比尔1396.62136
[26] 哈蒂根,JA;Wong,MA,Algorithm as 136:a k-means聚类算法,Appl Stat,28,100-108(1979)·Zbl 0447.62062号
[27] Hennig C(2020)FPC:灵活的聚类程序。R包版本2.2-8
[28] Hennig,C。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《聚类策略和方法选择》,《聚类分析手册》,703-730(2015),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1396.62138号
[29] Hennig,C.,什么是真正的集群?,《图案识别快报》,64,53-62(2015)·Zbl 1026.62067号
[30] Hennig,C.,《关于比较聚类方法的模拟研究的一些想法》,Arch Data Sci Ser A,5,1,1-21(2018)
[31] Hennig,C。;瑞士斯基达斯;Bozeman,JR,通过测量与用户相关的聚类特征进行聚类验证,数据分析和应用1:聚类和回归,建模估计,预测和数据挖掘,1-24(2019),伦敦:ISTE有限公司,伦敦·Zbl 1416.62029号
[32] Hennig,C。;梅拉,M。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《聚类分析:概述》,《聚类研究手册》,1-19(2015),博卡拉顿:CRC出版社,博卡拉通·Zbl 1396.62139号
[33] 休伯特,L。;Arabie,P.,比较分区,J Classif,2,2,193-218(1985)·Zbl 0587.62128号
[34] 休伯特,LJ;Schultz,J.,作为一般数据分析策略的二次分配,英国数学统计心理学杂志,29190-241(1976)·兹比尔0356.92027
[35] Jain AK、Topchy A、Law MHC、Buhmann JM(2004)《聚类算法的前景》。摘自:第17届模式识别国际会议(ICPR04)会议记录。IEEE Computer Society Washington,第1卷,第260-263页
[36] 北加尔丁。;Sibson,R.,《数学分类学》(1971),伦敦:威利出版社,伦敦·Zbl 0322.62065号
[37] Javed,A。;Lee,理学学士;Rizzo,DM,时间序列聚类基准研究,《马赫学习应用》,110001(2020)
[38] 卡拉佐格鲁,A。;Smola,A。;霍尼克,K。;Zeileis,A.,kernlab——R中内核方法的S4包,J Stat Softw,11,9,1-20(2004)
[39] 考夫曼,L。;Rousseeuw,PJ,《在数据中发现群体:聚类分析简介》(1990年),纽约:威利出版社,纽约·兹比尔1345.62009
[40] Kleinberg,J.,《聚类的不可能性定理》,Adv Neural Inf Process Syst NIPS,15463-470(2002)
[41] 寇,G。;彭,Y。;Wang,G.,《使用MCDM方法评估金融风险分析的聚类算法》,《信息科学》,275,1-12(2014)
[42] 李,SX;McLachlan,GJ,关于斜正态分布和斜t分布的混合,高级数据分析分类,7,241-266(2013)·Zbl 1273.62115号
[43] 刘,X。;Song,W。;黄,BY;张,T。;于斯。;Lin,GN;Di,X.,《大规模细胞术数据聚类方法的比较框架和指南》,《基因组生物学》,20,297(2019)
[44] Maechler M、Rousseeuw P、Struyf A、Hubert M、Hornik K(2019)《集群:集群分析基础与扩展》。R包版本2.1.0
[45] Maulik,美国。;Bandyopadhyay,S.,一些聚类算法和有效性指标的性能评估,IEEE Trans-Pattern Ana Mach Intell,24,12,1650-1654(2002)
[46] 麦克拉克伦,GJ;Peel,D.,有限混合模型(2000),纽约:威利,纽约·Zbl 0963.62061号
[47] Meila,M.,《比较聚类与基于信息的距离》,《多变量分析杂志》,98,5,873-895(2007)·兹比尔1298.91124
[48] 梅拉,M。;Hennig,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《聚类比较标准》,《聚类分析手册》,619-635(2015),博卡拉顿:CRC出版社,博卡拉通·Zbl 1396.62150号
[49] 梅拉,M。;Heckerman,D.,《基于模型的聚类方法的实验比较》,Mach Learn,42,9-29(2001)·Zbl 0970.68075号
[50] Milligan,GW,《六种误差扰动对十五种聚类算法的影响的检验》,《心理测量学》,45,325-342(1980)
[51] Milligan,GW,对聚类分析的三十个内部标准测量的蒙特卡罗研究,Psycholometrika,46187-199(1981)·Zbl 0472.62070号
[52] 米利根,GW;Arabie,P。;休伯特,LJ;Soete,GD,聚类验证:应用分析的结果和影响,聚类和分类,341-375(1996),新加坡:世界科学出版社,新加坡·Zbl 0895.62069号
[53] Ng AY、Jordan MI、Weiss Y(2001)《关于光谱聚类:分析和算法》。发表于:Dietterich T、Becker S、Ghahramani Z(eds)《神经信息处理系统的进展》14(NIPS 2001)。NIPS,第1-8页
[54] 皮涅罗,JC;贝茨,DM,S和S-PLUS中的混合效应模型(2000),纽约:施普林格,纽约·Zbl 0953.62065号
[55] 罗德里格斯,MZ;科明,中国;卡萨诺娃,D。;OM布鲁诺;Amancio博士;科斯塔,L。;Rodrigues,FA,《聚类算法:比较方法》,PLoS ONE,14,e0210236(2019)
[56] 萨拉克利,S。;多根,N。;Dogan,I.,通过同系词相关性比较层次聚类分析方法,《不平等应用杂志》,203,89(2013)·Zbl 1279.62128号
[57] Scrucca,L。;Fop,M。;墨菲,TB;Raftery,AE,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R J,8,1,289-317(2016)
[58] 香农,CE,通信数学理论,贝尔系统技术杂志,27,3,379-423(1948)·Zbl 1154.94303号
[59] 斯坦利,D。;Brusco,MJ,评估基于模型的聚类的性能:建议和注意事项,心理学方法,16,63-79(2011)
[60] Van Mechelen I、Boulesteix AL、Dangl R、Dean N、Guyon I、Hennig C、Leisch F、Steinley D(2018)《集群分析中的基准:白皮书》。arXiv:1809.10496[统计]
[61] von Luxburg,美国。;威廉姆森,R。;Guyon,I.,集群:科学还是艺术?,JMLR研讨会会议程序,27,65-79(2012)
[62] Wang K,Ng A,McLachlan G(2018)EMMIXSew:EM算法和斜交混合分布。R包版本1.0.3
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。