×

通过非参数密度估计进行聚类的进展。 (英语) Zbl 1322.62175号

摘要:基于密度的聚类方法取决于将组与数据底层密度水平集的连接组件相关联的思想,该数据将通过非参数方法进行估计。这些方法声称具有一些理想的特性和良好的性能,但它们涉及识别连接区域所需的非平凡计算工作。在之前的工作中,提出了使用空间细分,例如Delaunay三角剖分,因为它适当地推广了检测连接组件的单变量过程。然而,它的计算复杂性随着数据的维数呈指数级增长,因此三角剖分不适用于高维。我们的目标是克服Delaunay三角测量的局限性。我们讨论了使用另一种方法来识别与密度水平集相关联的连接区域。通过测量连接成对观测数据的线段上可能存在的密度谷的范围,所提出的方法将公式从任意维空间转换为单变量空间,从而在计算和可视化方面都有好处。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G07年 密度估算
60D05型 几何概率与随机几何
52B55号 与凸性相关的计算方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abramson,I.S.:关于核估计中的带宽变化——平方根定律。Ann.Stat.10,1217-1223(1982)·Zbl 0507.62040号 ·doi:10.1214/aos/1176345986
[2] Azzalini,A.,Torelli,N.:通过非参数密度估计进行聚类。统计计算。17, 71-80 (2007) ·doi:10.1007/s11222-006-9010-y
[3] Azzalini,A.,Menardi,G.,Rosolin,T.:R包pdfCluster:通过非参数密度估计进行聚类分析(版本1.0-0)(2012年)。http://cran.r-project.org/package=pdfCluster ·Zbl 1055.62075号
[4] Burman,P.,Polonik,W.:多元模式搜索:具有显著性度量的数据分析工具。J.多变量。分析。100, 1198-1218 (2009) ·Zbl 1159.62032号 ·doi:10.1016/j.jmva.2008.10.015
[5] Cuevas,A.、Febrero,M.、Fraiman,R.:估算簇数。可以。《美国联邦法律大全》第28卷第367-382页(2000年)·Zbl 0981.62054号 ·doi:10.2307/3315985
[6] Cuevas,A.、Febrero,M.、Fraiman,R.:聚类分析:基于密度估计的进一步方法。计算。统计数据分析。36, 441-459 (2001) ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473(00)00052-9
[7] Dazard,J.E.,Rao,J.S.:局部稀疏凹凸搜索。J.计算。图表。统计19,900-929(2010)·doi:10.1198/jcgs.2010.09029
[8] De la Cruz,R.:具有偏椭圆误差的贝叶斯非线性回归模型:在纵向剖面分类中的应用。计算。统计数据分析。53, 436-449 (2008) ·Zbl 1231.62125号 ·doi:10.1016/j.csda.2008.08.027
[9] Du,Q.,Faber,V.,Gunzburger,M.:质心Voronoi细分:应用和算法。SIAM第41版,637-676(1999)·兹伯利0983.65021 ·doi:10.137/S0036144599352836
[10] Even,S.:《图形算法》,第二版。剑桥大学出版社,纽约(2011)·Zbl 1237.05199号 ·doi:10.1017/CBO9781139015165
[11] 福里纳,M。;阿玛尼诺,C。;Lanteri,S。;Tibrivia,E.,《根据脂肪酸组成对橄榄油进行分类》,189-214(1983),伦敦
[12] Forina,M.、Armanino,C.、Castino,M.和Ubigli,M.:多元数据分析作为葡萄酒原产地的判别方法。Vitis 25189-201(1986)
[13] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[14] Fraley,C.,Raftery,A.E.:MCLUST版本。R的3:正态混合建模和基于模型的聚类。华盛顿大学技术报告504,Dep.Stat.(2006),2009年修订·Zbl 1073.62545号
[15] 弗里德曼,J.H.:关于偏差、方差、0-1损失和维度诅咒。数据最小知识。发现。1, 55-77 (1997) ·doi:10.1023/A:1009778005914
[16] Gower,J.C.,Ross,G.J.S.:最小生成树和单连锁聚类分析。J.R.Stat.Soc.,塞尔维亚。C、 申请。《美国联邦法律大全》第18卷第54-64页(1969年)
[17] Hartigan,J.A.:聚类算法。威利,纽约(1975年)·Zbl 0372.62040号
[18] Kriegel,H.,Kröger,P.,Sander,J.,Zimek,A.:基于密度的聚类。发现。1, 231-240 (2011) ·doi:10.1002/widm.30
[19] Krznaric,D.,Levcopoulos,C.:完全连锁聚类的快速算法。离散计算。地理。19, 131-145 (1998) ·Zbl 0892.68103号 ·doi:10.1007/PL00009332
[20] Lubischew,A.A.:关于鉴别分析在分类学中的应用。生物统计学18,455-477(1962)·Zbl 0112.11602号 ·doi:10.2307/2527894
[21] Menardi,G.,Torelli,N.:降低聚类检测的数据维度。J.统计计算。模拟。(2012年)。doi:10.1080/00949655.2012.679032·兹比尔1453.62547 ·doi:10.1080/00949655.2012.679032
[22] Minnotte,M.C.:模式存在性的非参数测试。Ann.Stat.25,1646-1660(1997)·Zbl 0936.62056号 ·doi:10.1214/aos/1031594735
[23] Müller,D.W.,Sawitzki,G.:多模态的过剩质量估计和测试。《美国统计协会期刊》86,738-746(1991)·Zbl 0733.62040号
[24] Prates,M.,Lachos,V.,Cabral,C.:R包mixsmsn:拟合偏态正态分布的尺度混合的有限混合(版本1.0-3)(2012年)。http://cran.r-project.org/web/packages/mixsmsn/index.html ·Zbl 0979.62046号
[25] Ooi,H.:使用树进行密度可视化和模式搜索。J.计算。图表。统计11,328-347(2002)·doi:10.1198/106186002760180545
[26] R开发核心团队:R:统计计算的语言和环境。R统计计算基金会,维也纳(2013年)。http://www.R-project.org/。国际标准图书编号(ISBN)3-900051-07-3-900051-00·Zbl 0507.62040号
[27] Rinaldo,A.,Wasserman,L.:广义密度聚类。《Ann.Stat.38》,2678-2722(2010)·Zbl 1200.62066号 ·doi:10.1214/10-AOS797
[28] Sahu,S.K.,Dey,D.K.,Branco,M.D.:一类新的多元偏态分布及其在贝叶斯回归模型中的应用。可以。《美国联邦法律大全》第31卷第129-150页(2003年)·Zbl 1039.62047号 ·doi:10.2307/3316064
[29] Scott,D.W.,Sain,S.:多维密度估计。《统计手册》,第24卷,第229-261页(2005年)
[30] Silverman,B.W.:统计和数据分析的密度估计。查普曼和霍尔,纽约(1986年)·Zbl 0617.62042号 ·doi:10.1007/978-1-4899-3324-9
[31] Stuetzle,W.:通过分析样本的最小生成树来估计密度的聚类树。J.分类。20, 25-47 (2003) ·兹比尔1055.62075 ·doi:10.1007/s00357-003-0004-6
[32] Stuetzle,W.,Nugent,R.:估算密度聚类树的广义单链接方法。J.计算。图表。《法律总汇》第19卷,第397-418页(2010年)·doi:10.1198/jcgs.2009.07049
[33] Tibshirani,R.,Walther,G.,Hastie,T.:通过GAP统计估计数据集中的簇数。J.R.Stat.Soc.,塞尔维亚。B、 统计方法。63, 411-423 (2000) ·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[34] Wishart,D。;科尔,A.J.(编辑),《模式分析:减少连锁效应的最近邻的推广》,282-308(1969),伦敦
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。