×

通过引导方法选择簇数。 (英语) Zbl 1239.62076号

摘要:考虑了聚类分析中簇数的选择问题。最近,聚类稳定性的概念被用于衡量任何给定聚类算法的鲁棒性J.Wang(王)[Biometrika 97,编号4,893–904(2010;Zbl 1204.62104号)]用于通过交叉验证选择集群数量。本文提出了一种基于bootstrap的聚类不稳定性估计方案,然后选择聚类数,使相应的估计聚类不稳定性最小化。通过仿真和实例验证了该选择准则的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G09号 非参数统计重采样方法
65C60个 统计学中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Aeberhard,S.,Coomans,D.,de Vel,O.,1992年。高维环境中分类器的比较,《技术报告》,92-02,北昆士兰詹姆斯·库克大学计算机科学系和数学与统计系。;Aeberhard,S.,Coomans,D.,de Vel,O.,1992年。高维环境中分类器的比较,《技术报告》,92-02,北昆士兰詹姆斯·库克大学计算机科学系和数学与统计系。
[2] Ben-David,S.,von Luxburg,U.,Pal,D.,2006年。冷静看待聚类的稳定性,第19届学习理论年会(COLT 2006)。;Ben-David,S.,von Luxburg,U.,Pal,D.,2006年。冷静看待集群的稳定性,第19届学习理论年会(COLT 2006)·Zbl 1143.68520号
[3] Ben-Hur,A。;Elisseeff,A。;Guyon,I.,《基于稳定性的集群数据结构发现方法》,太平洋生物计算研讨会,7,6-17(2002)
[4] 布莱恩特,P.,2002年。更多关于等级聚类的稳定性,论文发表于北美洲分类学会会议,威斯康星州麦迪逊。;布莱恩特,P.,2002年。更多关于等级聚类的稳定性,论文发表于威斯康星州麦迪逊的北美分类学会会议。
[5] Calinski,R.B。;Harabasz,J.,《聚类分析的树枝状方法》,《统计学中的通信——模拟和计算》,31-27(1974)·Zbl 0273.62010
[6] Cheng,R。;Milligan,G.W.,\(K)-表示具有影响检测的聚类方法,教育和心理测量,56833-838(1996)
[7] DiCiccio,T.J。;Efron,B.,指数族中更准确的置信区间,Biometrika,79,231-245(1992)·Zbl 0752.62027号
[8] Efron,B.,Jackknife-after-bootstrap标准误差和影响函数,《皇家统计学会杂志》,B辑,54,83-127(1992)·兹比尔0782.62051
[9] Efron,B.,Better bootstrap confidence intervals(带讨论),《美国统计协会杂志》,82,171-200(1987)·Zbl 0622.62039号
[10] 埃夫隆,B。;Tibshirani,R.J.,《Bootstrap简介》(1993),查普曼和霍尔/CRC·Zbl 0835.62038号
[11] 方,Y。;Wang,J.,Penized cluster analysis with application to family data,计算统计与数据分析,552128-2136(2011)·Zbl 1328.62384号
[12] Fisher,R.A.,在分类学问题中使用多重测量,《优生学年鉴》,7199-188(1936)
[13] Fowlkes,E.B。;Mallows,C.L.,《比较两个等级聚类的方法》,《美国统计协会杂志》,78,553-584(1983)·Zbl 0545.62042号
[14] Gnanadesikan,R.,《多元观测的统计数据分析方法》(1997),John Wiley&Sons公司:John Willey&Sons,Inc.纽约·Zbl 0403.62034号
[15] Hartigan,J.A.,《聚类算法》(1975),威利出版社:威利纽约·兹伯利0372.62040
[16] Johnson,S.C.,《分层聚类方案》,《心理测量学》,第2241-254页(1967年)·Zbl 1367.62191号
[17] 考夫曼,L。;Rousseeuw,P.,《在数据中寻找群体:聚类分析导论》(1990),威利:威利纽约·Zbl 1345.62009号
[18] Krieger,A.W。;Green,P.E.,关于使用内部交叉验证来选择簇数的警告,《心理测量学》,64,341-353(1999)·Zbl 1291.62222号
[19] Krzanowski,W.J。;Lai,Y.T.,确定数据集中簇数的标准,生物计量学,44,23-34(1985)·Zbl 0707.62122号
[20] 兰格,T。;罗斯,V。;布朗,M。;Buhmann,J.,基于稳定性的聚类解决方案验证,神经计算,161299-1323(2004)·Zbl 1089.68100号
[21] MacQueen,J.B.,1967年。多元观测值分类和分析的一些方法。摘自:第五届伯克利数理统计与概率研讨会论文集,1。加利福尼亚大学出版社,伯克利,第281-297页。;MacQueen,J.B.,1967年。多元观测值分类和分析的一些方法。摘自:第五届伯克利数理统计与概率研讨会论文集,1。加利福尼亚大学出版社,伯克利,第281-297页·Zbl 0214.46201号
[22] McIntyre,R.M。;Blashfield,R.K.,《评估最小方差聚类程序的最近中心技术》,《多元行为研究》,第15期,第225-238页(1980年)
[23] 米利根,G.W。;Cooper,M.C.,《确定数据集中簇数的程序检查》,《心理测量学》,第50期,第159-179页(1985年)
[24] Ng,A。;乔丹,M。;Weiss,Y.,《关于光谱聚类:分析和算法》(Dietterich,T.;Becker,S.;Ghahramani,Z.,Adv.Neural.Info.Processing Sys.(NIPS2001)(2001),麻省理工出版社:麻省理学出版社剑桥),849-856
[25] O.沙米尔。;Tishby,T.,有限样本的簇稳定性,(Platt,J.;Koller,D.;Singer,Y.;Roweis,S.,高级神经信息处理系统(NIPS207)(2007),麻省理工学院出版社:麻省理工学院剑桥出版社),1297-1304
[26] 史J。;Malik,J.,标准化切割和图像分割,IEEE模式分析和机器智能汇刊,22888-905(2000)
[27] Steinley,D.,《(K)均值聚类中的稳定性分析》,英国数学与统计心理学杂志,61255-273(2008)
[28] 糖,C。;James,G.,《发现数据集中的簇数:信息理论方法》,《美国统计协会杂志》,98,750-763(2003)·Zbl 1046.62064号
[29] Sun,W.,Wang,J.,Fang,Y.,正则化\(k\);Sun,W.,Wang,J.,Fang,Y.,正则化\(k\)·Zbl 1335.62109号
[30] Tibshirani,R。;沃尔瑟,G。;Hastie,T.,通过缺口统计估算数据集中的簇数,《皇家统计学会期刊》,B辑,63,511-528(2001)
[31] Wang,J.,通过交叉验证一致选择簇数,Biometrika,97,893-904(2010)·Zbl 1204.62104号
[32] Witten,D.M。;Tibshirani,R.,《聚类中特征选择的框架》,《美国统计协会杂志》,105,713-726(2010)·Zbl 1392.62194号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。