×

极端聚类——一种通过密度极值点进行聚类的方法。 (英语) Zbl 1475.62197号

摘要:峰值聚类是一种基于密度的聚类方法,在数据聚类分析中表现出了显著的性能。实际上,峰值聚类有两个主要缺点:(i)当聚类样本密度差异显著时,峰值聚类很难在低密度聚类中找到聚类中心。(ii)在某些情况下,它会错误地将许多正常点检测为噪声。在本文中,我们提出了一种新的极值聚类方法来克服峰值聚类的缺点。极值聚类的主题是识别密度极值点来寻找聚类中心。此外,还引入了噪声检测模块,从聚类结果中识别噪声数据点。因此,极端聚类对具有不同密度分布的数据集是鲁棒的。在40多个数据集上的实验和验证表明,极限聚类不仅可以继承峰值聚类的聚类有效性,而且可以克服其不足,显著提高性能。对真实世界霾度分析的案例研究也证明了极值聚类方法在寻找中国城市主要霾源方面的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.,《数据分类:算法和应用》(2014),CRC出版社·Zbl 1297.68009号
[2] 阿基穆什金,C。;Amancio,D.R。;Oliveira,O.N.,《使用词汇共现网络动态识别文本作者》,《公共科学图书馆·综合》,第12期,文章e0170527页,(2017)
[3] 安科斯特,M。;布鲁尼格,M.M。;Kriegel,H.P。;Sander,J.,《光学:识别聚类结构的排序点》,ACM Sigmod Record,28,49-60(1999)
[4] D.Arthur,S.Vassilvitskii,k-means++:细心播种的优势。技术报告。斯坦福大学,2006年·Zbl 1302.68273号
[5] C.I.Chang,N.P.Lin,带自底向上树的交叉成像聚类算法,载于:2008年第五届模糊系统和知识发现国际会议,IEEE,2008年,第327-331页。
[6] Chang,H。;Yeung,D.Y.,稳健的基于路径的光谱聚类,模式识别。,41, 191-203 (2008) ·Zbl 1122.68525号
[7] 陈,H。;陈,X。;Liu,H.,作为词汇网络,语言是如何变化的?基于书面汉语词汇共现网络的调查,《公共科学图书馆·综合》,13,Article e0192545 pp.(2018)
[8] Dong,G。;Xie,M.,基于神经网络的图像分割颜色聚类和学习,IEEE Trans。神经网络,16925-936(2005)
[9] M.Ester、H.P.Kriegel、J.Sander、X.Xu等人,一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。,载于:KDD,ACM,1996年,第226-231页。
[10] V.Estivill-Castro,为什么有这么多聚类算法:一份立场文件。ACM SIGKDD探索通讯4,2002,65-75。
[11] Fránti,P。;Virmajoki,O.,聚类问题的迭代收缩方法,模式识别。,39761-775(2006年)·Zbl 1161.68764号
[12] Fu,L。;Medico,E.,Flame,一种用于分析dna微阵列数据的新型模糊聚类方法,BMC Bioinf。,8, 3 (2007)
[13] Gionis,A。;Mannila,H。;Tsaparas,P.,聚类聚合,ACM Trans。知识。发现数据(TKDD),1(2007),4-es
[14] Guha,S。;Rastogi,R。;Shim,K.,Rock:分类属性的稳健聚类算法,信息系统。,25345-366(2000年)
[15] Gupta,M.R。;Chen,Y.,em算法的理论和应用,Found。趋势信号处理。,4, 223-296 (2011) ·Zbl 1294.62137号
[16] 哈文斯,T.C。;Bezdek,J.C。;Palaniswami,M.,《大数据的可扩展单链接层次聚类》(2013年IEEE第八届智能传感器、传感器网络和信息处理国际会议(2013年),IEEE),396-401
[17] A.Hinneburg,D.A.Keim等人,《带噪声的大型多媒体数据库中聚类的有效方法》,载于:KDD,ACM,1998年,第58-65页。
[18] 徐,C.C。;Lin,C.W.,基于Cnn的大规模图像数据特征漂移补偿联合聚类和表示学习,IEEE Trans。多媒体,20421-429(2017)
[19] 吉,P。;张,T。;李,H。;Salzmann,M。;Reid,I.D.,深子空间聚类网络,(神经信息处理系统进展30:2017年神经信息处理体系年度会议(NeurIPS’17)(2017),麻省理工学院出版社),24-33
[20] Kanungo,T。;Mount,D.M。;内塔尼亚胡,新南威尔士州。;Piatko,C.D。;西尔弗曼,R。;Wu,A.Y.,《一种有效的k-means聚类算法:分析与实现》,IEEE Trans。模式分析。机器。整数。,24, 881-892 (2002)
[21] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》。,344(2009),John Wiley&Sons
[22] 赖,C.P。;中华人民共和国钟市。;Tseng,V.S.,用于时间序列数据分析的新型两级聚类方法,专家系统。申请。,37, 6319-6326 (2010)
[23] 廖天伟,时间序列数据的聚类——一项调查,模式识别。,38, 1857-1874 (2005) ·Zbl 1077.68803号
[24] 利亚霍维奇,S.L。;Sharapov,A.A.,量子化非拉格朗日规范理论:一种增强方法,高能物理学杂志。,2007, 047 (2007)
[25] J.MacQueen等人,《多元观测分类和分析的一些方法》,载于:第五届伯克利数理统计与概率研讨会论文集,美国加利福尼亚州奥克兰,1967年,第281-297页·Zbl 0214.46201号
[26] Mangasarian,O.L。;西北部街道。;Wolberg,W.H.,《通过线性规划进行乳腺癌诊断和预后》,Oper。研究,43,570-577(1995)·Zbl 0857.90073号
[27] 麦克因斯,L。;Healy,J.,加速分层密度聚类,(2017年IEEE国际数据挖掘研讨会(ICDMW)(2017),IEEE),33-42
[28] 莫纳思,N。;Zaheer,M。;席尔瓦,D。;McCallum,A。;Ahmed,A.,使用双曲线空间中树的连续表示的基于梯度的层次聚类,(第25届ACM SIGKDD国际知识发现与数据挖掘会议论文集(2019),ACM),714-722
[29] 诺维科夫,A。;Benderskaya,E.,基于kuramoto模型的振荡神经网络,用于聚类分析,模式识别。图像分析。,24, 365-371 (2014)
[30] 罗德里格斯,A。;Laio,A.,通过快速搜索和发现密度峰值进行聚类,科学,3441492-1496(2014)
[31] 罗德里格斯,M.Z。;科明,C.H。;卡萨诺娃,D。;布鲁诺,O.M。;Amancio,D.R。;科斯塔,L.d.F。;Rodrigues,F.A.,《聚类算法:比较方法》,PloS One,14,Article e0210236 pp.(2019)
[32] 萨马利亚,F.S。;Harter,A.C.,人脸识别随机模型的参数化,1994年IEEE计算机视觉应用研讨会论文集,IEEE,138-142(1994)
[33] Sampat,M.P。;王,Z。;古普塔,S。;博维克,A.C。;Markey,M.K.,《复小波结构相似性:一种新的图像相似性指数》,IEEE Trans。图像处理。,18, 2385-2401 (2009) ·Zbl 1371.94324号
[34] A.Shama,S.Phadikar,《使用基于空间约束的聚类的自动彩色图像分割》,载于《计算和通信的新兴趋势》。施普林格,2014年,第113-121页。
[35] 邵,J。;何,X。;Böhm,C。;杨琼。;Plant,C.,同步启发分区和层次聚类,IEEE Trans。知识。数据工程,25893-905(2012)
[36] Shi,C。;孔,X。;黄,Y。;Philip,S.Y。;Wu,B.,Hetesim:异构网络中相关性度量的一般框架,IEEE Trans。知识。数据工程,26,2479-2492(2014)
[37] W.N.Street,W.H.Wolberg,O.L.Mangasarian,乳腺肿瘤诊断的核特征提取,收录于:生物医学图像处理和生物医学可视化,国际光学和光子学学会,1993年,第861-870页。
[38] 孙毅,余毅,韩建军,基于等级的星型网络模式异质信息网络聚类,载《第15届ACM SIGKDD国际知识发现与数据挖掘会议论文集》,ACM,2009年,第797-806页。
[39] 西奥多里迪斯,S。;Koutroumbas,K.,模式识别(2009),爱思唯尔
[40] 王,G。;Song,Q.,通过密度度量的向外统计测试进行自动聚类,IEEE Trans。知识。《数据工程》,1971-1985年第28期(2016年)
[41] 王,S。;李强。;袁,H。;李,D。;耿,J。;赵,C。;雷,Y。;刘,C。;Liu,C.,δ-开集聚类——一种新的拓扑聚类方法,Wiley Interdiscip。版本:数据挖掘知识。Discovery,8,文章e1262 pp.(2018)
[42] 王,Z。;张,R。;齐,J。;Yuan,B.,Dbsvec:使用支持向量扩展的基于密度的聚类,(2019年IEEE第35届国际数据工程会议(ICDE)(2019),IEEE),280-291
[43] Wu,W。;熊,H。;Shekhar,S.,聚类与信息检索,11(2013),施普林格科学与商业媒体
[44] J.Xie,R.Girshick,A.Farhadi,用于聚类分析的无监督深度嵌入,载于:机器学习国际会议,ACM,2016年,第478-487页。
[45] Yang,K。;高,Y。;马·R。;Chen,L。;Wu,S。;Chen,G.,Dbscan-ms:度量空间中基于密度的分布式聚类,(2019年IEEE第35届国际数据工程会议(ICDE)(2019),IEEE),1346-1357
[46] 杨,X。;邓,C。;郑,F。;严,J。;Liu,W.,使用双自动编码器网络的深谱聚类,(IEEE计算机视觉和模式识别会议论文集(2019),IEEE),4066-4075
[47] Yu,S.,多类谱聚类,(第九届IEEE国际计算机视觉会议论文集(2003),IEEE:IEEE Nice,France),313-319
[48] 张,T。;Ramakrishnan,R。;Livny,M.,Birch:一种用于超大数据库的高效数据聚类方法,ACM Sigmod Record,25103-114(1996)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。