阿德尔奇·阿扎里尼;乔瓦娜·梅纳迪 基于密度的非连续数据聚类。 (英语) Zbl 1342.65017号 计算。斯达。 31,编号2771-798(2016). 摘要:基于密度的聚类依赖于将群体与样本空间中具有高密度概率分布的区域相关联的思想。虽然这种聚类分析方法具有一些可取的特性,但它的使用必然仅限于连续数据。本文提出了一种简单但可行的方法来解决这个问题,该方法基于识别非连续变量下的连续成分。在应用于模拟数据的许多变体中探索了基本思想,确认了该技术的实际有效性,并提出了其实际使用建议。还提供了一些使用实际数据的插图。 MSC公司: 62-08 统计问题的计算方法 62H30型 分类和区分;聚类分析(统计方面) 62G07年 密度估算 关键词:密度估计;混合变量;模态聚类;基于模型的聚类;多维缩放 软件:MULTIMIX公司;质量(R);R(右);UCI-毫升;集群(R);弹性混合物;pdf集群;群集查找;麦克卢斯特 PDF格式BibTeX公司 XML格式引用 \textit{A.Azzalini}和\textit{G.Menardi},计算机。Stat.31,No.2,771--798(2016;Zbl 1342.65017) 全文: 内政部 参考文献: [1] Anderlucci L,Hennig C(2014)分类数据的聚类:基于模型和基于距离的方法的比较。公共统计理论方法43(4):704-721·Zbl 1287.62010年 ·doi:10.1080/03610926.2013.806665 [2] Arabie,P。;休伯特,L。;Bagozzi,R.(编辑),营销研究中的聚类分析(1994),牛津 [3] 亚松森A,纽曼D(2010)UCI机器学习库。加州大学欧文分校信息与计算机科学学院 [4] Azzalini A,Menardi G(2014)通过非参数密度估计进行聚类:R包pdfCluster。J Stat Softw杂志57(11):1-26·Zbl 1322.62175号 [5] Azzalini A,Torelli N(2007)通过非参数密度估计进行聚类。统计计算17:71-80·doi:10.1007/s11222-006-9010-y [6] Bartholomew DJ(1980)分类数据的因子分析。J R Stat Soc系列B 42:293-321·Zbl 0471.62054号 [7] Bartholomew DJ,Knott M(1999),潜在变量模型和因子分析,第2版。阿诺德出版社,伦敦·Zbl 1066.62528号 [8] Browne RP,McNicholas PD(2012)混合类型数据的基于模型的聚类、分类和判别分析。《统计计划推断》142:2976-2984·Zbl 1335.62093号 ·doi:10.1016/j.jspi.2012.05.001 [9] Fraley C,Raftery A(1998年)有多少集群?哪种聚类方法?通过基于模型的聚类分析回答。计算J 41:578-588·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578 [10] Fraley C,Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国统计学会杂志97:611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131 [11] Fraley C、Raftery AE、Murphy B、Scrucca L(2012)Mclust第4版R:正常混合建模和基于模型的聚类、分类和密度估计。华盛顿大学统计系技术报告597·兹比尔1520.62002 [12] Fukunaga K,Hostetler LD(1975)密度函数梯度的估计及其在模式识别中的应用。IEEE Trans-Inf理论21:32-40·Zbl 0297.62025号 ·doi:10.1109/TIT.1975.1055330 [13] Goodman LA(1974)使用可识别和不可识别模型进行探索性潜在结构分析。生物特征61:215-231·Zbl 0281.62057号 ·doi:10.1093/biomet/61.2.215 [14] Gruen B,Leisch F(2008)FlexMix第2版:具有伴随变量和可变参数和恒定参数的有限混合。J Stat Softw杂志28(4):1-35。http://www.jstatsoft.org/v28/i04/ ·Zbl 1073.62545号 [15] Hartigan JA(1975)聚类算法。纽约威利·兹伯利0372.62040 [16] Hubert L,Arabie P(1985)比较分区。J类2:193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075 [17] Hunt L,Jorgensen M(2003),含缺失信息的混合数据混合模型聚类。计算统计数据分析41:429-440·Zbl 1256.62037号 ·doi:10.1016/S0167-9473(02)00190-1 [18] Kaufman L,Rousseeuw PJ(1990)《数据中的发现群体:聚类分析导论》。纽约威利·Zbl 1345.62009号 ·doi:10.1002/9780470316801 [19] Leich F(2004)FlexMix:R.J Stat Softw 11(8):1-18中有限混合模型和潜在类回归的一般框架。http://www.jstatsoft.org/v11/i08/ [20] Lin TI(2010)使用多元斜t分布的稳健混合建模。统计计算20(3):343-356·doi:10.1007/s11222-009-9128-9 [21] Maechler M、Rousseeuw P、Struyf A、Hubert M、Hornik K(2013)《集群:集群分析基础与扩展》。R包版本1.14.4 [22] Marbac M,Biernacki C,Vandewalle V(2015)条件相关分类数据的基于模型的聚类。J类32(2):145-175·Zbl 1335.62103号 [23] Mardia KV、Kent JT、Bibby JM(1979)多元分析。剑桥大学学术出版社·Zbl 0432.62029号 [24] Menardi G,Azzalini A(2014):通过非参数密度估计实现聚类的进展。统计计算24:753-767·Zbl 1322.62175号 ·数字对象标识代码:10.1007/s11222-013-9400-x [25] Oh M,Raftery AE(1998)基于模型的相异聚类:贝叶斯方法。J计算图表统计16:559-585·doi:10.1198/106186007X236127 [26] R开发核心团队(2011)R:统计计算的语言和环境。R统计计算基金会,维也纳。国际标准图书编号(ISBN)3-900051-07-0 [27] Stuetzle W(2003)通过分析样本的最小生成树来估计密度的聚类树。J类20:25-47·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6 [28] Stuetzle W,Nugent R(2010)估算密度聚类树的广义单链接方法。J计算图表统计19:397-418·doi:10.1198/jcgs.2009.07049 [29] Tzeng J,Lu HH,Li WH(2008)大型基因组数据集的多维缩放。BMC生物信息学9(1):179·doi:10.1186/1471-2105-9-179 [30] Venables VN,Ripley BD(2002)《现代应用统计》,纽约S.Springer出版社。http://www.stats.ox.ac.uk/pub/MASS4网站 ·Zbl 1006.62003号 [31] 弗蒙特,JK;Magidson,J。;JA Hagenaars(编辑);AL McCutcheon(编辑),潜在类聚类分析,89-106(2002),剑桥·Zbl 1003.00021号 ·doi:10.1017/CBO9780511499531.004 [32] Wishart,D。;科尔,AJ(编辑),《模式分析:减少连锁效应的最近邻的推广》,282-308(1969),剑桥 [33] Wolfe JH(1970)多元混合分析的模式聚类。多变量Behav Res 5:329-350·doi:10.1207/s15327906mbr0503_6 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。