×

模态聚类渐近性在带宽选择中的应用。 (英语) Zbl 1477.62117号

概要:基于密度的聚类依赖于将组与数据背后概率分布的某些特定特征联系起来的思想。引用真实但未知的人口结构,可以在标准推理设置中构建聚类问题,其中理想人口聚类的概念定义为由真实密度函数诱导的分区。这种方法的非参数公式称为模式聚类,它在群和密度模式吸引域之间建立了对应关系。在操作上,需要进行非参数密度估计,正确选择平滑量,控制密度形状,因此可能控制模态结构,对于确定最终分区至关重要。在这项工作中,我们从渐近的角度解决了模态聚类的密度估计问题。讨论了一种自然且易于解释的度量基于密度的分区之间距离的度量方法,探索了其渐近近似,并用于研究非参数模式聚类的带宽选择问题。

MSC公司:

6220国集团 非参数推理的渐近性质
62H30型 分类和区分;聚类分析(统计方面)
62G07年 密度估算
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ameijeiras Alonso,J.和Crujeiras,R.M.以及Rodriguez Casal,A.(2018)。多模式:用于模式评估的R包。,arXiv预打印arXiv:1803.00472·Zbl 1420.62155号 ·doi:10.1007/s11749-018-0611-5
[2] Baillo,A.、Cuesta Albertos,J.A.和Cuevas,A.(2001年)。水平集非参数估计的收敛速度。,统计与概率信件。53(1) 27-35. ·Zbl 0980.62022号 ·doi:10.1016/S0167-7152(01)00006-2
[3] Ben-David,S.、von Luxburg,U.和Pál,D.(2006)。冷静地看待集群稳定性。《第19届学习理论年会论文集》(G.Lugosi和H.U.Simon编辑),第5-19页。斯普林格·Zbl 1143.68520号
[4] Chacón,J.E.(2015)。非参数密度聚类的人口背景,统计科学。30(4) 518-532. ·Zbl 1426.62181号
[5] Chacón,J.E.(2019年)。混合模型模式聚类,数据分析和分类进展。13(2) 379-404. ·Zbl 1474.62218号
[6] Chacón,J.E.和Duong,T.(2013)。数据驱动的密度导数估计,应用于非参数聚类和凹凸搜索。,电子统计杂志。7 499-532. ·Zbl 1337.62067号 ·doi:10.1214/13-EJS781
[7] Chacón,J.E.和Duong,T.以及Wand,M.P.(2011年)。一般多元核密度导数估计的渐近性。,中国统计。21 807-840. ·Zbl 1214.62039号 ·doi:10.5705/ss.2011.036a
[8] Chacón,J.E.和Duong,T.(2018)。,多元核平滑及其应用。查普曼和霍尔·Zbl 1402.62003号
[9] Chacón,J.E.和Monfort,P.(2014)。均值漂移聚类的带宽选择比较。《统计学和人口学的理论和应用问题》(C.H.Skiadas,ed.)47-59。国际科学技术进步协会(ISAST),雅典。
[10] Chen,Y.C.,Genovese,C.R.和Wasserman,L.(2016)。模式聚类的综合方法,《电子统计杂志》。10(1) 210-241. ·Zbl 1332.62200号 ·doi:10.1214/15-EJS1102
[11] Chen,Y.-C.,Genovese,C.R.和Wasserman,L.(2017)。使用Morse-Smale复数进行统计推断。,电子统计杂志。11(1) 1390-1433. ·Zbl 1362.62078号 ·doi:10.1214/17-EJS1271
[12] Chernoff,H.(1964年)。模式估计。,统计数学研究所年鉴。16 31-41. ·Zbl 0212.21802号 ·doi:10.1007/BF02868560
[13] Cuevas,A.、Febrero,M.和Fraiman,R.(2001)。聚类分析:基于密度估计的进一步方法。,计算统计学和数据分析。36(4) 441-459. ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473(00)00052-9
[14] Devroye,L.和Györfi,L.(1985)。,非参数密度估计:纽约威利(L_1)视图·Zbl 0546.62015号
[15] Doss,C.R.和Weng,G.(2018年)。多元水平集和最高密度区域核密度估计的带宽选择。,电子统计杂志。12(2) 4313-4376. ·Zbl 1409.62083号 ·doi:10.1214/18-EJS1501
[16] Duong,T.(2018)。,ks:内核平滑URLhttps://CRAN.R-project.org/package=ksR软件包版本1.11.3。
[17] Einbeck,J.(2011)。基于均值漂移的无监督学习技术的带宽选择:通过自我覆盖的统一方法。,模式识别研究杂志。6(2) 175-192.
[18] Everitt,B.S.、Landau,S.、Leese,M.和Sthal,D.(2011)。,聚类分析。(第5版)。约翰·威利父子公司·Zbl 1274.62003年
[19] Fukunaga,K.和Hostetler,L.(1975年)。密度函数梯度的估计及其在模式识别中的应用。,IEEE信息理论汇刊。21(1) 32-40. ·兹比尔0297.62025 ·doi:10.1109/TIT.1975.1055330
[20] Grund,B.和Hall,P.(1995年)。关于模式估计中的(L^p)误差最小化。,统计年鉴23 2265-2284·兹比尔0853.62029 ·doi:10.1214/aos/1034713656
[21] Hall,P.和Marron,J.S.(1991年)。密度估计中带宽选择的下限。,概率论及相关领域90 149-173·Zbl 0742.62041号 ·doi:10.1007/BF01192160
[22] Hall,P.和Wand,M.P.(1988年)。关于核密度估计中绝对距离的最小化。,统计与概率快报6 311-314·Zbl 0629.62037号 ·doi:10.1016/0167-7152(88)90005-3
[23] Hennig,C.、Meila,M.、Murtagh,F.和Rocci,R.(2016)。,聚类分析手册。查普曼和霍尔·Zbl 1331.68001号
[24] Hornik,K.(2018)。,线索:集群群。统一资源定位地址https://CRAN.R-project.org/package=线索R包版本0.3-55。
[25] Jones,M.C.(1992年)。在核密度估计变化中自动选择带宽的潜力。,统计与概率快报13 351-356。
[26] Kaufman,L.和Rousseeuw,P.J.(2005)。,在数据中寻找群体:聚类分析导论。John Wiley&Sons公司·Zbl 1345.62009号
[27] Leone,F.C.,Nelson,L.S.和Nottingham,R.B.(1961年)。折叠正态分布。,技术计量学3 543-550。
[28] Lisic,J.(2018)。,MeanShiftR:一种计算效率高的MeanShift实现。统一资源定位地址https://CRAN.R-project.org/package=meanShiftR。R套装版本0.52。
[29] 松本,Y.(2002)。,莫尔斯理论导论。美国数学学会·Zbl 0990.57001号
[30] McNicholas,P.D.(2016)。基于模型的聚类,分类杂志。33(3) 331-373. ·Zbl 1364.62155号 ·doi:10.1007/s00357-016-9211-9
[31] 梅勒·M(2016)。比较聚类的标准。在C.Hennig、M.Meil、F.Murtagh和R.Rocci(编辑),《聚类分析手册》619-635。CRC出版社·Zbl 1396.62150号
[32] Menardi,G.(2016)。模态聚类综述,《国际统计评论》84(3)413-433·Zbl 07763532号
[33] 乔维(2020)。密度水平集非参数估计的渐近性与最优带宽选择。,《电子统计杂志》14(1)302-344·Zbl 1428.62184号 ·doi:10.1214/19-EJS1668
[34] R核心团队(2018),R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。URLhttps://www.R-project.org/。
[35] Romano,J.P.(1988年)。关于模型核密度估计的弱收敛性和最优性。,统计年鉴16 629-647·Zbl 0658.62053号 ·doi:10.1214/aos/1176350824
[36] Saavedra-Nieves,P.、González-Manteiga,W.和Rodríguez-Casal,A.(2014)。水平集估计。,非参数统计专题(M.G.Akritas、S.N.Lahiri和D.N.Politis编辑)。《施普林格数学与统计学报》74 299-307·Zbl 1383.62102号
[37] Samworth,R.J.和Wand,M.P.(2010年)。用于最高密度区域估计的渐近和最优带宽选择。,《统计年鉴》38(3)1767-1792·Zbl 1189.62061号 ·doi:10.1214/09-AOS766
[38] Scott,D.W.(2015)。多元密度估计:理论、实践和可视化。约翰·威利父子公司·Zbl 1311.62004号
[39] Scrucca,L.(2016)。识别高斯有限混合模型中用于聚类的连接成分,计算统计与数据分析93 5-17·Zbl 1468.62174号 ·doi:10.1016/j.csda.2015.01.006
[40] 西尔弗曼,B.W.(1981)。使用核密度估计来研究多模态。,英国皇家统计学会杂志。B系列43 97-99。
[41] Silverman,B.W.(1986)。,统计和数据分析的密度估计。查普曼和霍尔·Zbl 0617.62042号
[42] Singh,R.S.(1987)。密度及其导数的核估计的MISE。,统计与概率快报。5 153-159. ·Zbl 0635.62028号 ·doi:10.1016/0167-7152(87)90072-1
[43] Stuetzle,W.(2003)。通过分析样本的最小生成树来估计密度的聚类树。,分类杂志。20(1) 25-47. ·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6
[44] Thom,R.(1949年)。不同细胞的表面分区。,科学研究院,228 973-975年·Zbl 0034.20802号
[45] von Luxburg,U.(2010年)。聚类稳定性:概述。,机器学习的基础和趋势,2 235-274·Zbl 1191.68615号 ·doi:10.1561/2200000008
[46] Wand,M.P.和Jones,M.C.(1993年)。二元核密度估计中平滑参数化的比较。,《美国统计协会杂志》88(422)520-528·Zbl 0775.62105号 ·doi:10.1080/01621459.1993.10476303
[47] M·旺德·Zbl 0854.62043号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。