×

聚类中的邻域密度信息。 (英语) Zbl 1492.90178号

摘要:基于密度的聚类(DBC)方法能够在存在噪声的情况下识别任意形状的数据簇。DBC方法基于局部邻域密度估计的概念。DBC方法的一个主要缺点是其在高维方面的性能较差。在这项工作中,提出了一种在高维上表现良好的新型DBC方法。该方法的新颖性可以概括为:一种用于识别高密度数据点的一阶二阶混合优化算法;用于识别可达点的自适应扫描半径。本文给出了该方法有效性的理论结果。通过严格的实验评估,证明了该方法的有效性和效率。将该方法与文献中已知的DBC方法在合成数据和实际数据上进行了比较。内部和外部集群验证措施均用于评估所提方法的性能。

MSC公司:

90立方 非线性规划
62H30型 分类和区分;聚类分析(统计方面)
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] MacQueen,J.等人:多元观测分类和分析的一些方法。收录于:《第五届伯克利数学统计与概率研讨会论文集》,奥克兰,第281-297页(1967年)·Zbl 0214.46201号
[2] 哈蒂根,JA;Wong,MA,Algorithm as 136:A k-means聚类算法,J.R.Stat.Soc.Ser。C(应用统计),28,1,100-108(1979)·Zbl 0447.62062号
[3] Jain,AK,《数据聚类:超越k-means的50年》,模式识别。莱特。,31, 8, 651-666 (2010) ·doi:10.1016/j.patrec.2009.09.011
[4] Gan,G.,Ma,C.,Wu,J.:《数据聚类:理论、算法和应用》,第20卷。暹罗(2007)·Zbl 1185.68274号
[5] Yang,M-S,模糊聚类调查,数学。计算。型号1。,18, 11, 1-16 (1993) ·Zbl 0800.68728号 ·doi:10.1016/0895-7177(93)90202-A
[6] Kriegel,惠普;科尔格,P。;桑德,J。;Zimek,A.,基于密度的聚类,威利跨学科评论:数据挖掘和知识发现,1,3,231-240(2011)
[7] Ester,M.,Kriegel,H.-P.,Sander,J.,Xu,X.:一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。收录于:Kdd,第226-231页(1996年)
[8] 坎佩洛,RJGB;Moulavi,D。;Zimek,A。;Sander,J.,《半监督和非监督从层次结构中最优提取聚类的框架》,Data Min.Knowl。光盘。,27344-371(2013年)·Zbl 1281.68175号 ·doi:10.1007/s10618-013-0311-4
[9] Mount,D.M.公司:网址:http://www.cs.umd.edu/mount/ANN/(2010)
[10] 桑德,J。;埃斯特,M。;Kriegel,惠普;Xu,X.,空间数据库中基于密度的聚类:算法gdbscan及其应用,Data Min.Knowl。发现。,2, 2, 169-194 (1998) ·doi:10.1023/A:1009745219419
[11] Ankerst,M.,Breunig,M.M.,Kriegel,H.-P.,Sander,J.:《光学:识别聚类结构的排序点》。In:ACM Sigmod记录。ACM,第49-60页(1999年)
[12] Aggarwal,C.C.,Yu,P.S.:在高维空间中发现广义投影簇。载于:2000年ACM SIGMOD国际数据管理会议记录。ACM,第70-81页(2000年)
[13] 弗雷利,C。;Raftery,AE,基于模型的聚类,判别分析和密度估计,J.Amer。《法律总汇》第97、458、611-631页(2002年)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[14] 斯普雷克,P。;Tabor,J。;Byrski,K.,主动函数交叉熵聚类,专家系统。申请。,72, 49-66 (2017) ·doi:10.1016/j.eswa.2016.12.011
[15] Ertöz,L,Steinbach,M.,Kumar,V.:在嘈杂的高维数据中发现不同大小、形状和密度的簇。收录:2003年SIAM数据挖掘国际会议记录。SIAM,第47-58页(2003年)
[16] 阿扎里尼,A。;Torelli,N.,通过非参数密度估计进行聚类,统计计算。,17, 1, 71-80 (2007) ·doi:10.1007/s11222-006-9010-y
[17] 阿扎里尼,A。;Menardi,G.,通过非参数密度估计进行聚类:r包pdfcluster,J.Stat.Softw。,57, 11, 1-26 (2014) ·doi:10.18637/jss.v057.i11
[18] 罗德里格斯,A。;Laio,A.,《通过快速搜索和发现密度峰值进行聚类》,《科学》,34461911492-1496(2014)·doi:10.1212/science.1242072
[19] Tabor,J。;Spurek,P.,交叉聚类,模式识别。,47, 9, 3046-3059 (2014) ·兹比尔1342.68279 ·doi:10.1016/j.patcog.2014.03.006
[20] Sander,J.,《基于密度的聚类》,270-273(2010),波士顿:美国施普林格出版社,波士顿
[21] Celebi,M.E.:分区聚类算法。斯普林格(2014)·Zbl 1305.68010号
[22] Ultsch,A.:用som聚类:U*c。摘自:第五届自组织地图研讨会论文集,第2卷,第75-82页(2005)
[23] Leisch,F.,Dimitriadou,E.:“mlbench”(2013年)
[24] Franti,P。;O.维尔马约基。;Hautamaki,V.,使用k最近邻图的快速凝聚聚类,IEEE Trans。模式分析。马赫。智力。,28, 11, 1875-1881 (2006) ·doi:10.1109/TPAMI.2006.227
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。