×

单交叉聚类:一种通过自动估计离群值和簇数来发现细长簇的算法。 (英语) Zbl 07545871号

总结:许多聚类方法在球形簇上表现良好,但在细长簇上表现不佳。单链方法适合于发现此类长簇,但它对数据中的离群值和噪声很敏感,导致所谓的链效应本文提出了一种改进的交叉聚类算法,即单交叉聚类(SCC),这是一种部分聚类算法,用于估计簇数,识别离群值,并有助于识别细长簇。通过将SCC与许多现有的聚类方法进行比较,验证了SCC的有效性,在模拟和实际数据集上都表明,SCC是识别正确簇数和簇成员数的可靠解决方案。该算法已在R包CrossClustering中实现,可以从CRAN提供的包库免费下载。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ailon,N。;Charikar,M。;Newman,A.,《聚合不一致信息:排名和聚类》,JACM,55,5,23(2008)·Zbl 1325.68102号
[2] Amadasun,M。;King,R.A.,通过均匀邻域的凝聚聚类对多光谱图像进行低层次分割,模式识别,21,3,261-8(1988)·doi:10.1016/0031-3203(88)90060-X
[3] 阿扎里尼,A。;鲍曼,A.W.,《旧忠实间歇泉的一些数据研究》,应用统计,39,3,357-65(1990)·Zbl 0707.62186号
[4] 班菲尔德,J。;Raftery,A.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-21(1993)·兹比尔0794.62034 ·doi:10.2307/2532201
[5] 比恩,J。;Tibshirani,R.,《通过极小极大链接利用原型进行分层聚类》,美国统计协会杂志,106,495,1075(2011)·Zbl 1229.62083号
[6] Birch,F。;Kennedy,G.C.,《地球物理专题丛书》。第16卷,冰岛和黄石国家公园间歇泉温度注释,329-36(1972),华盛顿特区:美国地球物理联合会,华盛顿特区
[7] 布鲁斯科,M.J。;Cradit,J.D.,区分不同矩阵的双标准方法,英国数学与统计心理学杂志,58,2,319-32(2005)·doi:10.1348/000711005X63890
[8] 伯尼,S.M。;Tariq,H.,K-means聚类分析用于图像分割,国际计算机应用杂志,96,4(2014)·doi:10.5120/16779-6360
[9] 卡西西,C。;蒙塔托,P。;阿利奥塔,M。;Cannata,A。;Pulvirenti,A.,《数据挖掘知识发现和应用进展》,A.Karahoca主编。,时间序列数据挖掘的相似性度量和降维技术(2012)
[10] Chawla,S。;Gionis,A.,k-means:聚类和离群值检测的统一方法,2013年SIAM国际数据挖掘会议论文集,189-197(2013)
[11] 库克·R·D。;Weisberg,S.,《回归中的残差和影响》(1982),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0564.62054号
[12] 科妮娅,A。;Conn,P.M.,《荧光显微镜:超分辨率和其他新技术》(2014)
[13] 特拉特,M。;Hansen,P.,双标准聚类分析,IEEE模式分析和机器智能汇刊,PAMI-2,4,277-91(1980)·兹比尔0458.62049 ·doi:10.1109/TPAMI.1980.4767027
[14] Denby,L。;Pregibon,D.,回归中图形的使用示例,《美国统计学家》,41,33-8(1987)·doi:10.2307/2684315
[15] Dilts,D。;Khamalah,J。;Plotkin,A.,《使用聚类分析进行医疗资源决策》,《医疗决策》,15,4,333-47(1995)·doi:10.1177/0272989X9501500404
[16] 杜布斯,R.C.,有多少个集群是最好的?实验,模式识别,20,6645-63(1987)·doi:10.1016/0031-3203(87)90034-3
[17] 杜达,P.O。;哈特,体育。;Stork,D.G.,模式分类(2001),纽约州纽约市:威利市纽约州纽约州纽约·兹伯利0968.68140
[18] 埃斯特,M。;Kriegel,H.-P。;桑德,J。;Xu,X.,在有噪声的大型空间数据库中发现簇的基于密度的算法,226-31(1996)
[19] Evans,K。;爱,T。;Thurston,S.W.,基于模型的聚类分析中的离群点识别,分类杂志,32,1,63-84(2015)·Zbl 1331.62306号 ·doi:10.1007/s00357-015-9171-5
[20] 埃弗里特,B。;兰道,S。;Leese,M.,聚类分析(2001)·Zbl 1205.62076号
[21] Fisher,D.H.,通过增量概念聚类获取知识,机器学习,2,2,139-72(1987)·doi:10.1007/BF00114265
[22] Florek,K。;Łukaszewicz,J。;佩尔卡尔,J。;斯坦豪斯,H。;Zubrzycki,S.,《统一点与统一点划分》,数学讨论会,2,3-4,282-5(1951)·Zbl 0045.26103号 ·doi:10.4064/cm-2-3-4-282-285
[23] Forgy,E.W.,《多元数据的聚类分析:分类的效率与可解释性》,生物统计学,21768-9(1965)
[24] 弗雷利,C。;Raftery,A.E.,《基于模型的聚类、判别分析和密度估计》,《美国统计协会杂志》,97458611-31(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[25] Fukunaga,K.,《统计模式识别导论》(1990),纽约州纽约市:纽约州纽约州学术出版社·Zbl 0711.62052号
[26] Gionis,A。;Mannila,H。;Tsaparas,P.,双标准聚类分析,ICDE,1,1,4(2005)
[27] 郭杰。;李,H。;Yang,H。;王,R。;Yang,Y。;马,M。;Liu,B.,信息计算与应用。计算机和信息科学中的通信,391,基于因子和聚类分析的经济发展研究(2013),柏林:施普林格,柏林
[28] 哈斯勒,M。;Piekenbrock,M.(2017)
[29] Hartigan,J.A.,聚类算法(1975)·Zbl 0372.62040号
[30] Hartigan,J.A.,高密度集群的单一联系一致性,《美国统计协会杂志》,76,374,388-94(1981)·Zbl 0468.62053号 ·doi:10.1080/01621459.1981.10477658
[31] 哈蒂根,J.A。;Wong,M.A.,Algorithm AS 136:A k-means聚类算法,应用统计学,28,1,100-8(1979)·Zbl 0447.62062号 ·doi:10.2307/2346830
[32] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2,1,193-218(1985)·doi:10.1007/BF01908075
[33] 考夫曼,L。;Rousseeuw,P.,《在数据中发现群体:聚类分析导论》(1990)·Zbl 1345.62009号
[34] 库马尔,V。;库马尔,S。;Kumar Singh,A.,《离群点检测:基于聚类的方法》,《国际科学与现代工程杂志》(IJISME),第1期,第7期(2013年)
[35] 雷,Y。;W.Zhili。;罗明,M。;Q.雪松,时间序列中语义web服务的聚类与推荐,KSII Transactions on Internet and Information Systems,8,8,2743-62(2014)
[36] 廖,M。;李毅。;Kianifard,F。;奥比,E。;Arcona,S.,聚类分析及其在医疗索赔数据中的应用:对开始血液透析的终末期肾病患者的研究,BMC肾病,17,1,25(2016)·doi:10.1186/s12882-016-0238-2
[37] 刘,Z。;George,R.,计算机和信息科学ISCIS 2003,2869,计算机科学讲义,时空数据的模糊聚类分析(2003),Springer
[38] Lizunov,V.A。;斯坦库拉,K。;特洛伊,A。;库什曼,S.W。;Zimmerberg,J.,胰岛素调节脂肪细胞质膜簇中谷氨酸4的限制,PLoS One,8,3,e57559(2013)·doi:10.1371/journal.pone.0057559
[39] J.麦奎因。
[40] Maechler,M.、Rousseeuw,P.、Struyf,A.、Hubert,M.和Hornik,K.,2017年。集群:集群分析基础和扩展。R软件包版本2.0.6。
[41] 马丁·D·。;Fowlkes,C。;塔尔·D。;Malik,J.,《人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用》,第八届IEEE国际计算机视觉会议论文集,加拿大不列颠哥伦比亚省温哥华。ICCV 2001年7月7日至14日(2001年)
[42] McQuitty,L.L.,分离正交型和斜交型的基本连锁分析和类型相关性,教育和心理测量,17,2207-22(1957)·doi:10.1177/001316445701700204
[43] 梅利尼科夫,V。;Chen,W.C。;Maitra,R.,MixSim:用于模拟数据以研究聚类算法性能的R包,《统计软件杂志》,51,12,1-25(2012)·doi:10.18637/jss.v051.i12
[44] Milligan,G.W。;Cooper,M.C.,《确定数据集中簇数的程序检查》,《心理测量学》,50,2,159-79(1985)·doi:10.1007/BF02294245
[45] Milligan,G.W。;Cooper,M.C.,《层次聚类分析外部标准的可比性研究》,多变量行为研究,21,4,441-58(1986)·doi:10.1207/s15327906mbr2104_5
[46] Milligan,G.W。;库珀,M.C.,《方法论综述:聚类方法》,应用心理测量,11,4,329-54(1987)·doi:10.1177/014662168701100401
[47] 香港Moonesinghe。;Tan,P.N.,OutRank:使用随机行走的基于图形的离群值检测框架,《人工智能工具国际期刊》,17,1,19-36(2008)·doi:10.1142/S0218213008003753
[48] 尼提亚,新南威尔士州。;Duraiswamy,K。;Gomathy,P.,《医学诊断中聚类技术的调查》,《国际计算机科学趋势与技术杂志》,2013年第1期,第2期,第17-22页
[49] 奥马尔,I。;Werman,M.,《颜色线:图像特定颜色表示》,2004年IEEE计算机学会计算机视觉和模式识别会议论文集,美国华盛顿特区,2004年6月27日-7月2日,CVPR 2004(2004)
[50] Postman,M.,《星系、星系团和超星系团的分布》(2006),IOP Publishing Ltd
[51] R核心团队,R:统计计算的语言和环境(2017),奥地利维也纳:R统计计算基金会,奥地利维也纳
[52] Rand,W.M.,聚类方法评估的客观标准,美国统计协会杂志,663336846-50(1971)·doi:10.1080/01621459.1971.10482356
[53] Raykov,Y.P。;布库瓦拉斯,A。;Baig,F。;Little,M.A.,《K-means集群失败时该怎么办:一种简单但有原则的替代算法》,《公共科学图书馆·综合》,11,9,e0162259(2016)·doi:10.1371/journal.pone.0162259
[54] Rinehart,J.S.,老忠实间歇泉内部工作的热和地震指示,地球物理研究杂志,74,2,566-73(1969)·doi:10.1029/JB074i002p00566
[55] SAS Institute Inc,SAS/STAT[textregistered]9.2用户指南(2008),北卡罗来纳州卡里市:SAS Institution Inc
[56] Scrucca,L。;Fop,M。;墨菲,T.B。;Raftery,A.E.,mclust 5:使用高斯有限混合模型的聚类、分类和密度估计,《R杂志》,8,1,289-33(2016)·doi:10.32614/RJ-2016-021
[57] 沙希德,R。;Bertazzon,S。;Knudtson,M.L。;Ghali,W.A.,卫生服务规划空间分析建模中距离测量的比较,BMC卫生服务研究,9,1200(2009)·doi:10.1186/1472-6963-9-200
[58] Silverman,B.W.,《非参数回归曲线拟合的样条平滑方法的某些方面(讨论)》,《皇家统计学会杂志:B辑(方法学)》,47,1-52(1985)·兹伯利0606.62038 ·doi:10.1111/j.2517-6161.1985.tb01327.x
[59] Sneath,P.H.A.,计算机在分类学中的应用,微生物学,17201-26(1957)·doi:10.1099/00221287-17-1-201
[60] Specht,S。;O.海德巴赫。;棉花,F。;臧(2017)
[61] Steinley,D.,Hubert-Arable调整后的兰德指数的性质,《心理学方法》,9,3,386(2004)·doi:10.1037/1082-989X.9.3.386
[62] 斯坦利,D。;Brusco,M.J.,《K均值聚类分析的新变量加权和选择程序》,《多元行为研究》,43,1,77-108(2008)·doi:10.1080/00273170701836695
[63] 斯坦利,D。;布鲁斯科,M.J。;Hubert,L.,调整后兰德指数的方差,心理方法,21,2,261-72(2016)·doi:10.1037/met0000049
[64] 苏,Z。;杨琼。;张,H。;Xu,X。;胡永华。;Ma,S.,用于自适应web界面设计的基于相关性的web文档聚类,知识和信息系统,4,2,151-67(2002)·doi:10.1007/s101150200002
[65] Tellaroli,P。;Bazzi,M。;多纳托,M。;Brazzale,A.R。;Drághici,S.,《交叉聚类:一种自动估计聚类数量的部分聚类算法》,《公共科学图书馆·综合》,11,3,e0152333(2016)·doi:10.1371/journal.pone.0152333
[66] Tellaroli,P。;Bazzi,M。;多纳托,M。;菲诺斯,L。;Courcoux,P.(2018)
[67] Tran,T.N。;韦伦斯,R。;Buydens,L.M.C.,高维多光谱图像的基于KNN密度的聚类,Proc。第二届GRSS/ISPRS城市地区遥感和数据融合联合研讨会,Urban 2003(2003)
[68] Wang,Y。;王,X。;Wang,X.L.,《模式识别中的机器学习和数据挖掘》,编辑P.Perner,《计算机科学讲义》,第9729卷,MDLM 2016,基于光谱聚类的离群值检测技术(2016),Springer
[69] Ward,J.H.Jr.,优化目标函数的分层分组,《美国统计协会杂志》,58,301,236-44(1963)·doi:10.1080/01621459.1963.10500845
[70] Weisberg,S.,应用线性回归,207-11(1980),纽约:威利,纽约·Zbl 0529.62054号
[71] Xu,R。;Wunsch,D.,聚类算法综述。神经网络,IEEE神经网络汇刊,16,3,645-78(2005)·doi:10.1109/TNN.2005.845141
[72] Yuen,D.A。;Dzwinel,W。;Ben-Zion,Y。;Kadlec,B.J.,《复杂性和系统科学百科全书》,多维空间上的地震簇,可视化,2347-71(2009),Springer-Verlag
[74] 张,C。;张,X。;张,M。;Li,Y.,邻域数,山谷搜索和聚类,模式识别字母,28,2,173-80(2007)·doi:10.1016/j.parec.2006.07.003
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。