×

一种新的基于非参数点间距的聚类评估方法。 (英语) Zbl 07498025号

摘要:提出了一种新的基于点间距的度量方法,用于识别数据集中存在的最佳簇数。它采用非参数方法设计,与给定数据的分布无关。数据成员之间的点间距使我们的聚类有效性指数适用于在任意尺度上测量的单变量和多变量数据,或在研究变量数量甚至可能大于样本量的任何维空间中进行观察。我们提出的标准与任何聚类算法都兼容,可以用于确定未知的聚类数或评估数据集的聚类质量。通过合成数据和实际数据进行的演示证明了其相对于文献中众所周知的聚类准确性度量的优势。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿拉斯加州贾恩;明尼苏达州默蒂;弗林,PJ。,数据聚类:综述,ACM Compute Surv,31264-323(1999)
[2] 麦克拉克伦,G。;Peel,D.,有限混合模型(2000),纽约(NY):John Wiley&Sons,纽约(纽约)·Zbl 0963.62061号
[3] 考夫曼,L。;罗素,PJ。,《在数据中发现群体:聚类分析导论》(2005),新泽西州:John Wiley&Sons出版社,新泽西
[4] Cheng,D。;朱,Q。;Huang,J.,具有局部代表性的自然邻域聚类算法,基于知识的系统,123,238-253(2017)
[5] Cheng,D。;朱,Q。;Huang,J.,一种用于复杂结构数据集的基于局部核的层次聚类算法,神经计算应用,318051-8068(2018)
[6] Cheng,D。;朱,Q。;Huang,J.,基于局部密度峰值的最小生成树聚类,IEEE Trans Knowl Data Eng,33374-387(2021)
[7] 马蒂奥利,LC;桑托斯,SR;Kleina,M.,基于核密度估计的聚类新算法,《应用统计杂志》,45347-366(2018)·Zbl 1516.62466号
[8] 莫达克,S。;查托帕迪亚伊,阿拉斯加州;Chattopadhyay,T.,通过核主成分分析对γ射线爆发进行聚类,《公共统计-模拟计算》,47,1088-1102(2018)·Zbl 07549510号
[9] 莫达克,S。;Chattopadhyay,T。;查托帕迪亚伊,阿拉斯加州。,通过k-medoids聚类对食双星光曲线进行无监督分类,《应用统计杂志》,47,376-392(2020)·Zbl 1521.62410号
[10] Modak,S,Chattopadhyay,AK,Chattotaphyay,T.通过函数主成分分析对食双星光曲线进行聚类。提交期刊出版;2021
[11] Tarnopolski,M.,使用偏态分布分析γ射线暴的持续时间-优势比平面,天体物理学J,870,105(2019)
[12] 托特,BG;拉茨,II;Horváth,I.,基于高斯混合模型的BATSE目录γ射线爆发聚类分析,Mon Not R Astron Soc,486,4823-4828(2019)
[13] Schwarz,G.,估算模型的维数,Ann Stat,6461-464(1978)·Zbl 0379.62005年
[14] 卡斯,RE;Raftery,AE.,Bayes factors,J Am Stat Assoc,90,773-795(1995)·Zbl 0846.62028号
[15] 弗雷利,C。;Raftery,AE.,多少簇?哪种聚类方法?通过基于模型的聚类分析得出的答案,Comput J,41578-588(1998)·Zbl 0920.68038号
[16] 糖,加州;James,GM,《发现数据集中的簇数》,美国统计协会期刊,98,750-763(2003)·Zbl 1046.62064号
[17] Tibshirani,R。;Walther,G。;Hastie,T.,通过间隙统计估计数据集中的簇数,J R Stat Soc Ser B,63,411-423(2001)·Zbl 0979.62046号
[18] JC.邓恩。,Well-sparated clusters and optimal fuzzy partitions,J Cybern,495-104(1974)·Zbl 0304.68093号
[19] Handl,J。;Knowles,K。;Kell,D.,后基因组数据分析中的计算聚类验证,生物信息学,2123201-3212(2005)
[20] Caliánski,T。;Harabasz,J.,《用于聚类分析的树枝晶方法》,《公共统计理论方法》,31-27(1974)·Zbl 0273.62010
[21] 雷普利,BD.,模式识别和神经网络(1996),剑桥:剑桥大学出版社,剑桥·Zbl 0853.62046号
[22] 罗素,PJ。,轮廓:用于解释和验证聚类分析的图形辅助工具,《计算机应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号
[23] Cheng,D。;朱,Q。;Huang,J.,基于局部核的新型聚类有效性指数,IEEE Trans Neural Netw Learn Syst,30985-999(2019)
[24] 内尔森,苏格兰皇家银行。,《连接词简介》(2006),纽约(NY):Springer Science+Business,纽约(纽约)·Zbl 1152.62030
[25] 莫达克,S。;Bandyopadhyay,U.,《双样本多元位置问题的新非参数检验及其在天文学中的应用》,《统计理论应用杂志》,第18期,第136-146页(2019年)
[26] Vanisma,F。;De Greve,JP.,传质前后的闭合双星系统,天体物理空间科学,87,377-401(1972)
[27] Bandyopadhyay,美国。;Modak,S.,《利用正态伽马核进行双变量密度估计及其在天文学中的应用》,《应用概率统计杂志》,第13期,第23-39页(2018年)
[28] Modak,S.,通过模糊聚类区分BATSE目录中的伽马射线暴组,Astron-Comput,34(2021)
[29] 哈蒂根,JA;Wong,MA,A K-means聚类算法,Appl Stat,28,100-108(1979)·Zbl 0447.62062号
[30] Ester,M,Kriegel,H-P,Sander,J,et al.一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。第二届知识发现和数据挖掘国际会议论文集(KDD-96),俄勒冈州波特兰。AAAI出版社;1996年,第226-231页。
[31] Campello,RJBB,Moulavi,D,Sander,J.基于层次密度估计的基于密度的聚类。第17届亚太数据库知识发现会议记录(PAKDD 2013);2013年,第160-172页。(计算机科学讲稿;7819)。柏林,海德堡:施普林格。
[32] 诺里斯,JP;克莱恩,TL;Desai,UD,《快速窄γ射线爆发的频率》,《自然》,308,434-435(1984)
[33] 库韦利奥图,C。;加利福尼亚州米根;Fishman,GJ,两类γ射线爆发的识别,天体物理学J,413,L101(1993)
[34] 穆克吉,S。;Feigelson,ED;Babu,GJ,三种类型的γ射线爆发,天体物理学J,508,314-327(1998)
[35] Tarnopolski,M.,《关于短GRB和长GRB之间的极限》,《天体物理空间科学》,359,20(2015)
[36] Schölkopf,B。;Smola,A.,《使用内核学习:支持向量机、正则化、优化和超越》(2002),剑桥:麻省理工学院出版社,剑桥
[37] 莫达克,S。;Chattopadhyay,T。;阿拉斯加州查托帕迪耶。,大质量椭圆星系的两相形成:包括空间效应在内的相互关联研究,《天体物理学空间科学》,362206-215(2017)
[38] Balastegui,A。;Ruiz-Lapuente,P。;Canal,R.,γ射线爆发的重新分类,Mon Not R Astron Soc,328283-290(2001)
[39] Chattopadhyay,T。;Misra,R。;查托帕迪亚伊,阿拉斯加州,三类γ射线爆发的统计证据,天体物理学J,6671017-1023(2007)
[40] 金,A。;奥尔森,E。;马萨诸塞州戴维斯。,一种新型长γ射线爆发,Mon-Not R Astron Soc,374,L34-L36(2007)
[41] Veres,P。;Bagoly,Z。;Horváth,I.,第三类γ射线爆发的独特峰值通量分布:X射线闪光的可能特征?,天体物理学杂志,7251955-1964(2010)
[42] Horváth,I。;托特,BG;Hakkila,J.,在费米持续时间硬度平面中对GRB 170817A/GW170817进行分类,Astrophys Space Sci,363,53(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。