×

使用交叉验证估计集群数量。 (英文) Zbl 07499280号

摘要:许多集群方法,包括\(k\)-means,都要求用户指定集群数量作为输入参数。已经设计了多种方法来自动选择簇数,但它们通常依赖于强大的建模假设。本文提出了一种基于新型交叉验证的数据驱动方法来估计簇数。该方法不同于普通的交叉验证,因为聚类从根本上来说是一个无监督的学习问题。仿真和实际数据分析结果表明,该方法优于现有方法,尤其是在具有异质或重尾噪声的高维环境中。在酵母细胞周期数据集中,该方法发现了一个具有可解释基因组的简约聚类。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ben-Hur,A。;Elisseeff,A。;Guyon,I.,在聚类数据中发现结构的一种基于稳定性的方法,7,6-17(2001)
[2] Caliánski,T。;Harabasz,J.,“聚类分析的枝晶方法”,《统计学中的通信——理论和方法》,3,1-27(1974)·Zbl 0273.62010 ·doi:10.1080/03610927408827101
[3] 查拉德,M。;北加扎利。;波伊托,V。;Niknafs,A.,“NbClust:确定数据集中相关簇数的R包”,《统计软件杂志》,61,1-36(2014)·doi:10.18637/jss.v061.i06
[4] M.M.T.蒋。;Mirkin,B.,“k-Means聚类中聚类数的智能选择:不同聚类扩散的实验研究”,《分类杂志》,27,3-40(2010)·Zbl 1337.62127号 ·doi:10.1007/s00357-010-9049-5
[5] Cho,R.J。;坎贝尔,M.J。;Winzeler,E.A。;斯坦梅茨,L。;Conway,A。;沃迪卡,L。;沃尔夫斯堡,T.G。;Gabrielian,A.E。;Landsman,D。;洛克哈特·D·J。;Davis,R.W.,“有丝分裂细胞周期的全基因组转录分析”,《分子细胞》,265-73(1998)·doi:10.1016/S1097-2765(00)80114-8
[6] Dortet-Bernadet,J.-L。;Wicker,N.,“单位球面上基于模型的聚类与基因表达谱图解”,生物统计学,9,66-80(2008)·Zbl 1274.62761号 ·doi:10.1093/biostatistics/kxm012
[7] 方,Y。;Wang,J.,“通过Bootstrap方法选择簇数”,计算统计与数据分析,56468-477(2012)·Zbl 1239.62076号 ·doi:10.1016/j.csda.2011.09.003
[8] 弗雷利,C。;Raftery,A.E.,“基于模型的聚类、判别分析和密度估计”,《美国统计协会杂志》,97,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[9] 藤田,A。;高桥,D.Y。;Patriota,A.G.,“估算集群数量的非参数方法”,计算统计与数据分析,73,27-39(2014)·Zbl 1506.62064号 ·doi:10.1016/j.csda.2013.11.012
[10] Gabriel,K.R.,Le Biplot-Outil d’Exploration de Données Multidimensionalles,“法国社会统计杂志,143,5-55(2002)
[11] Hartigan,J.A.,《聚类算法》(1975),纽约:威利,纽约·Zbl 0372.62040号
[12] Hartigan,J.A。;Wong,M.A.,“算法AS 136:k均值聚类算法”,《皇家统计学会杂志》,C辑,28,100-108(1979)·Zbl 0447.62062号 ·doi:10.2307/2346830
[13] 哈斯贝克,J.M.B。;Wulff,D.U.,《集群:集群分析基础与扩展》,R包0.2-2版(2018年)
[14] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》,《统计学中的斯普林格系列》(2009),纽约:斯普林格出版社,纽约·Zbl 1273.62005年
[15] Hennig,C.,“fpc:集群的灵活程序,R包版本2.1-10(2015)
[16] Jain,A.K.,“数据聚类:超越K-Means的50年”,《模式识别快报》,第31期,第651-666页(2010年)·doi:10.1016/j.patrec.2009.09.011
[17] Jain,A.K。;Murty,M.N。;Flynn,P.J.,“数据聚类:综述”,ACM计算调查,31264-323(1999)·doi:10.145/31499.331504
[18] Maechler,M。;卢梭,P。;Struyf,A。;休伯特,M。;Hornik,K.,《集群:集群分析基础与扩展》,R软件包2.0.7-1版(2018年)
[19] Mangasarian,O.L。;塞提诺,R。;Wolberg,W.,大尺度数值优化,“通过线性规划的模式识别:医学诊断的理论和应用”,22-31(1990),费城,宾夕法尼亚州:SIAM,费城·Zbl 0726.90096号
[20] 梅耶,D。;Dimitriadou,E。;霍尼克,K。;Weingessel,A。;Leisch,F.,“e1071:概率理论小组统计部的其他功能(原名:e1071),TU Wien,R包版本1.6-8(2017)
[21] A.B.欧文。;Perry,P.O.,“SVD和非负矩阵分解的双交叉验证”,《应用统计学年鉴》,3564-594(2009)·Zbl 1166.62047号 ·doi:10.1214/08-AOAS227
[22] Pollard,D.,“k-Means聚类的强一致性”,《统计年鉴》,9135-140(1981)·Zbl 0451.62048号 ·doi:10.1214/aos/1176345339
[23] Pomeroy,S.L。;Tamayo,P。;加森贝克,M。;斯图拉·L·M。;安吉洛,M。;McLaughlin,M.E。;Kim,J.Y。;Goumnerova,L.C。;布莱克,P.M。;Lau,C。;Allen,J.C.,“基于基因表达的中枢神经系统胚胎肿瘤预后预测”,《自然》,415436-442(2002)·数字对象标识代码:10.1038/415436a
[24] R核心团队,R:统计计算的语言和环境(2018),奥地利维也纳:R统计计算基金会,奥地利维也纳
[25] Schlimmer,J.C.,《通过表征调整获得概念》(1987年)
[26] Scrucca,L。;Fop,M。;墨菲,T.B。;Raftery,A.E.,“mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计”,《R期刊》,第8期,第205-233页(2016年)·doi:10.32614/RJ-2016-021
[27] 糖,C.A。;James,G.M.,“找出数据集中的簇数”,《美国统计协会杂志》,98,750-763(2003)·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[28] Tavazoie,S。;休斯·J·D。;坎贝尔,M.J。;Cho,R.J。;Church,G.M.,“遗传网络结构的系统决定”,《自然遗传学》,22228-285(1999)·doi:10.1038/10343
[29] Tibshirani,R。;Walther,G.,“通过预测强度进行聚类验证”,《计算与图形统计杂志》,第14期,第511-528页(2005年)·doi:10.1198/106186005X59243
[30] Tibshirani,R。;Walther,G。;Hastie,T.,“通过差距统计估计数据集中的簇数”,《皇家统计学会期刊》,B辑,63,411-423(2001)·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[31] 韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计与S》(2002),纽约:施普林格出版社,纽约·Zbl 1006.62003号
[32] Wang,J.,“通过交叉验证一致选择簇数”,《生物特征》,97893-904(2010)·Zbl 1204.62104号 ·doi:10.1093/biomet/asq061
[33] Wickham,H.,ggplot2:数据分析的优雅图形(2016),纽约:Springer-Verlag,纽约·Zbl 1397.62006年
[34] Wilson,E.B.,“概率推断、继承法则和统计推断”,《美国统计协会杂志》,22,209-212(1927)·doi:10.1080/01621459.1927.10502953
[35] Wold,S.,“因子和主成分模型中成分数量的交叉验证估计”,《技术计量学》,第20期,第397-405页(1978年)·Zbl 0403.62032号 ·网址:10.1080/00401706.1978.10489693
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。