×

非线性可分数据的(模糊)聚类综述与建议。 (英语) Zbl 1471.62566号

总结:在许多实际情况下,数据可能具有非线性可分簇的特征。经典(硬或模糊)聚类算法通过计算欧氏距离来生成对象划分。因此,它们基于线性假设,因此不能正确识别具有非线性结构特征的簇。为了克服这一局限性,可以采用几种方法:基于密度、核、图或流形的聚类。本文对这些方法进行了综述,并提出了一些新的基于模糊流形的算法,包括所谓的测地距离。合成数据、基准数据和实际数据表明了这些算法的有效性。

MSC公司:

62兰特 歧管统计
62H30型 分类和区分;聚类分析(统计方面)
62时86分 多元分析与模糊性
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] MacQueen,J.B.,《多元观测分类和分析的一些方法》,(第五届伯克利数理统计与概率研讨会论文集(1967),加利福尼亚大学出版社:加利福尼亚大学出版社伯克利分校),281-297·Zbl 0214.46201号
[2] Bezdek,J.C.,《使用模糊目标函数算法进行模式识别》(1981),Plenum出版社:Plenum Press New York·兹比尔0503.68069
[3] 古斯塔夫森,D.E。;Kessel,W.C.,带模糊协方差矩阵的模糊聚类,(1978年IEEE决策与控制会议论文集,包括第17届自适应过程研讨会(1979年)),761-766·兹比尔0448.62045
[4] 加特,I。;Geva,A.B.,无监督最优模糊聚类,IEEE Trans。模式分析。机器。智力。,7, 773-781 (1989) ·Zbl 0709.62592号
[5] 埃斯特,M。;Kriegel,H.P。;Jörg,S。;Xu,X.,一种基于密度的算法,用于在有噪声的大型空间数据库中发现簇,(第二届知识发现和数据挖掘国际会议论文集KDD’96(1996),AAAI出版社:AAAI Press Portland),226-231
[6] 肖-泰勒,J。;Cristianini,N.,《模式分析的核心方法》(2004),剑桥大学出版社:剑桥大学出版社
[7] 迪伦,I.S。;关,Y。;Kulis,B.,Kernel k-means:谱聚类和归一化切割,(第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集KDD’04(2004),ACM:ACM纽约),551-556
[8] Ng,A。;乔丹,M。;Weiss,Y.,《关于谱聚类:分析和算法》(Dietterich,T.;Becker,S.;Ghahramani,Z.,《神经信息处理系统的进展》,第14卷(2002年),麻省理工学院出版社:麻省理学学院出版社),849-856
[9] Asgharbeygi,N。;Maleki,A.,Geodesic k-means聚类,(第19届模式识别国际会议论文集,2008年,佛罗里达州坦帕(2008)),1-4
[10] 斯坦福特区。;Raftery,A.E.,《在空间点模式中发现曲线特征:带噪声的主曲线聚类》,IEEE Trans。模式分析。机器。智力。,22, 601-609 (2000)
[11] 坎佩罗,R.J.G.B。;Moulavi,D。;Zimek,A。;Sander,J.,数据聚类、可视化和离群值检测的层次密度估计,ACM Trans。知识。发现。数据,10,1-51(2015)
[12] Tran,T.N。;Drab,K。;Daszykowski,M.,用密集相邻簇对数据进行聚类的改进DBSCAN算法,Chemom。因特尔。实验室系统。,120, 92-96 (2013)
[13] Han,D。;阿格拉瓦尔。;Liao,W.K。;Choudhary,A.,带火花实现的快速DBSCAN算法,(Roy,S.S.;Samui,P.;Deo,R.;Ntalampiras,S.,《工程应用中的大数据》(2018),Springer:Springer Singapore),173-192
[14] 周,A。;周,S。;曹,J。;范,Y。;Hu,Y.,《将DBSCAN算法扩展到大型空间数据库的方法》,J.Compute。科学。技术。,15, 509-526 (2000) ·Zbl 0970.68583号
[15] 安科斯特,M。;Breunig,M.M。;克里格尔,H.P。;Sander,J.,《光学:识别聚类结构的排序点》,(美国计算机学会SIGMOD数据管理国际会议论文集SIGMOD'99(1999),美国计算机学会:美国计算机学会纽约分会),49-60
[16] 哈斯勒,M。;皮肯布罗克,M。;Arya,S。;Mount,D.,dbscan:基于密度的噪声应用集群(dbscan)和相关算法。R包版本1.1-3(2018)
[17] Hennig,C.,fpc:集群的灵活程序。R包版本2.1-11.1(2018)
[18] Kriegel,H.P。;科尔格,P。;桑德,J。;Zimek,A.,基于密度的聚类,Wiley Interdiscip。版本数据最小知识。发现。,1, 3, 231-240 (2011)
[19] Sander,J.,基于密度的聚类,(Sammut,C.;Webb,G.I.,《机器学习和数据挖掘百科全书》(2016),Springer:Springer Boston),1-5
[20] 桑德,J。;埃斯特,M。;Kriegel,H.P。;Xu,X.,空间数据库中基于密度的聚类:算法GDBSCAN及其应用,Data Min.Knowl。发现。,2, 169-194 (1998)
[21] 舒伯特,E。;桑德,J。;埃斯特,M。;Kriegel,H.P。;Xu,X.,重新访问DBSCAN:为什么以及如何(仍然)使用DBSCAN,ACM Trans。数据库系统。,42, 19 (2017)
[22] Nasibova,E.N。;Ulutagay,G.,具有各种邻域关系的基于密度的聚类方法的稳健性,模糊集系统。,160, 3601-3615 (2009) ·Zbl 1185.68555号
[23] 博尔多尼亚,G。;Ienco,D.,Fuzzy core dbscan聚类算法,(Laurent,A.;Strauss,O.;Bouchon-Meunier,B.;Yager,R.R.,《基于知识的系统中的信息处理和不确定性管理》,IPMU 2014年。基于知识的系统中的信息处理和不确定性管理。基于知识的系统中的信息处理和不确定性管理,IPMU 2014,《计算机和信息科学通信》,第442卷(2014),Springer:Springer-Cham),100-109
[24] 伊恩科,D。;Bordogna,G.,DBScan聚类算法的模糊扩展,软计算。,1719-1730年(2018年)·兹比尔1398.62165
[25] Ulutagaya,G。;Nasibov,E.,《基于邻域概念的模糊和清晰聚类方法:综合综述》,J.Intell。模糊系统。,23, 1-11 (2012)
[26] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe-Taylor,J.,《支持向量机和其他基于内核的学习方法简介》(2000),剑桥大学出版社:剑桥大学出版社
[27] 卡拉佐格鲁,A。;Smola,A。;霍尼克,K。;Zeileis,A.,kernlab:R,J.Stat.Softw中内核方法的S4包。,11, 9, 1-20 (2004)
[28] 张德清。;Chen,S.C.,使用基于核的模糊C-均值算法对不完整数据进行聚类,神经过程。莱特。,18, 155-162 (2003)
[29] 张德清。;Chen,S.C.,一种新的核化模糊C均值算法及其在医学图像分割中的应用,Artif。因特尔。医学,32,37-50(2004)
[30] 丁,Y。;Fu,X.,基于遗传算法的基于核的模糊c-均值聚类算法,神经计算,188,233-238(2016)
[31] Memon,K.H。;Lee,D.H.,带局部信息的广义核加权模糊C均值聚类算法,模糊集系统。,340, 91-108 (2018) ·Zbl 1397.62226号
[32] Schaeffer,S.E.,图聚类,计算。科学。第1版,第27-64页(2007年)·Zbl 1302.68237号
[33] 美国卢克斯堡,《光谱聚类教程》,统计计算。,17, 395-416 (2007)
[34] 史J。;Malik,J.,标准化切割和图像分割,IEEE Trans。模式分析。机器。智力。,22, 888-905 (2000)
[35] Zahn,C.T.,检测和描述格式塔簇的图论方法,IEEE Trans。计算。,20, 68-86 (1971) ·Zbl 0264.68040号
[36] Oksanen,J。;Blanchet,F.G。;友好,M。;金德·R。;Legendre,P。;McGlinn,D。;P.R.明钦。;奥哈拉,R.B。;辛普森,G.L。;Solymos,P。;史蒂文斯,M.H.H。;Szoecs,E。;Wagner,H.,《素食:社区生态包》。R包版本2.5-4(2019)
[37] 沙兰,R。;Shamir,R.,CLICK:一种用于基因表达分析的聚类算法,(第八届分子生物学智能系统国际会议论文集ISMB’00(2000),AAAI出版社:AAAI Press Menlo Park),307-316
[38] Dijkstra,E.W.,关于与图有关的两个问题的注释,Numer。数学。,1, 269-271 (1959) ·Zbl 0092.16002号
[39] Floyd,R.W.,《算法97:最短路径》,Commun。ACM,5345(1962)
[40] Warshall,S.,布尔矩阵的一个定理,J.ACM,9,11-12(1962)·Zbl 0118.33104号
[41] Tenenbaum,J.B。;德席尔瓦,V。;Langford,J.C.,《非线性降维的全球几何框架》,《科学》,290,2319-2323(2000)
[42] Lee,J.A。;Verleysen,M.,《非线性降维》(2007),Springer-Verlag:Springer-Verlag纽约·Zbl 1128.68024号
[43] Asgharbeygi,N。;Maleki,A.,Geodesic k-means聚类,(2008年第19届国际模式识别会议论文集),1-4
[44] 考夫曼,L。;Rousseeuw,P.J.,通过medoids进行聚类,(Dodge,Y.,基于L1-Norm和相关方法的统计数据分析(1987),北荷兰:北荷兰阿姆斯特丹),405-416
[45] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》(1990),John Wiley and Sons:John Willey and Sons Hoboken·Zbl 1345.62009号
[46] Wu,A.Y。;加兰,M。;Han,J.,使用测地聚类挖掘无标度网络,(第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集KDD’04(2004),ACM:ACM纽约),719-724
[47] Ray,S。;Pakhira,M.K.,使用K-medoid框架的无标度网络聚类,(第二届计算机和通信技术国际会议论文集ICCCT-2011(2011)),94-99
[48] Karygianni,S。;Frossard,P.,基于切线的流形近似与局部线性模型,信号处理。,104, 232-247 (2014)
[49] Babaeian,A。;Babaee,M。;Bayestehtashk,A。;Bandarabadi,M.,使用曲率约束距离的非线性子空间聚类,模式识别。莱特。,68, 118-125 (2015)
[50] Feil,B.公司。;Abonyi,J.,基于测地距离的模糊聚类,(Saad,A.;Dahal,K.;Sarfraz,M.;Roy,R.,《工业应用中的软计算》,《软计算进展》,第39卷(2007),施普林格:施普林格-海德堡),50-59·Zbl 1513.62123号
[51] 博格,I。;Groenen,P.,《现代多维尺度:理论与应用》(2005),Springer-Verlag:Springer-Verlag纽约·Zbl 1085.62079号
[52] Balasubramanian,M。;施瓦茨,E.L。;Tenenbaum,J.B。;德席尔瓦,V。;Langford,J.C.,Isomap算法和拓扑稳定性,《科学》,295552,7(2002)
[53] 克里希纳普兰,R。;Joshi,A。;Yi,L.,k-medoids算法的模糊关系及其在web文档和片段聚类中的应用,(FUZZ-IEEE’99(1999)模糊系统会议论文集),1281-1286
[54] 基拉利,A。;瓦提·福加拉西,阿拉斯加州。;Abonyi,J.,基于测地距离的模糊c-中值聚类-在图形和高维数据中搜索中心点,模糊集系统。,286, 157-172 (2016)
[55] Kim,J。;垫片,K.H。;Choi,S.,软测地线核k-means,(IEEE声学、语音和信号处理国际会议论文集ICASSP’07(2007)),429-432
[56] Runkler,T.A.,关系模糊聚类,(de Oliveira,J.V.;Pedrycz,W.,《模糊聚类及其应用进展》(2007),威利:威利-奇切斯特),31-51
[57] 佐丹尼,P。;Ramos-Guajardo,A.B.,随机模糊集的模糊聚类程序,模糊集系统。,305, 54-69 (2016) ·Zbl 1368.62175号
[58] Banerjee,A。;Davé,R.N.,稳健聚类,Wiley Interdiscip。版本数据最小知识。发现。,2, 29-59 (2011)
[59] Davé,R.N.,聚类中噪声的表征和检测,模式识别。莱特。,12, 657-664 (1991)
[60] Davé,R.N。;Sen,S.,关系数据的稳健模糊聚类,IEEE Trans。模糊系统。,10, 713-727 (2002)
[61] 费拉罗,M.B。;Giordani,P.,使用R编程语言的模糊聚类工具箱,模糊集系统。,279,1-16(2015)
[62] 费拉罗,M.B。;佐丹尼,P。;Serafini,A.,fclust:模糊聚类的R包,R J.,9(2019)
[63] 杜瓦,D。;Graff,C.,UCI机器学习知识库(2019),加利福尼亚大学信息与计算机科学学院:加利福尼亚大学信息和计算机科学学院欧文分校
[64] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 193-218 (1985)
[65] (2017),(意大利语)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。