×

使用基于投影的聚类来查找高维数据中基于距离和密度的聚类。 (英语) Zbl 07413949号

摘要:对于由距离和密度结构(DDS)构成簇的高维数据集,许多聚类算法无法正确识别这些簇。这一点在32种使用一组数据集的聚类算法中得到了证明,这些数据集故意为聚类带来复杂的DDS挑战。为了改进高维DDS数据集的结构查找和聚类,引入了基于投影的聚类(PBC)。投影和聚类的共存允许通过地形图探索DDS。这使我们能够首先估计集群趋势是否存在,然后估计集群数量。比较表明,PBC总是能够找到正确的聚类结构,而32种聚类算法中最好的算法的性能因数据集而异。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿道夫森。;阿克曼,M。;Brownstein,NC,《聚类与否:聚类方法分析》,模式识别,88,13-26(2019)·doi:10.1016/j.patcog.2018.10.026
[2] 艾伯哈德,S。;库曼斯,D。;De Vel,O.,《高维环境中分类器的比较》,技术报告92-02(1992),北昆士兰:北昆士兰州詹姆斯·库克大学,计算机科学系和数学与统计系,北昆士兰州
[3] Aggarwal,C.C.,Wolf,J.L.,Yu,P.S.,Procopiuc,C.,&Park,J.S.(1999)。投影聚类的快速算法。ACM SIGMOD国际数据管理会议(第28卷,第61-72页),宾夕法尼亚州费城:计算机协会。
[4] 阿加瓦尔,CC;Yu,PS,《在高维空间中发现广义投影簇》,《ACM SIGMOD国际数据管理会议论文集》,70-81(2000),纽约:ACM,纽约·doi:10.1145/342009.335383
[5] 阿格拉瓦尔,R。;Gehrke,J。;Gunopulos,D。;Raghavan,P.,数据挖掘应用中高维数据的自动子空间聚类,ACM SIGMOD国际数据管理会议论文集,94-105(1998),西雅图:ACM
[6] 安德森,E.,《加斯佩半岛的虹膜》,《美国虹膜学会公报》,第59期,第2-5页(1935年)
[7] Arabie,P。;休伯特,L。;Bagozzi,RP,营销研究中的聚类分析,营销研究的高级方法,160-189(1994),英国牛津:Blackwell Business,英国牛津
[8] Arabie,P。;休伯特,LJ;De Soete,G.,《聚类与分类》(1996),新加坡:世界科学出版社,新加坡·Zbl 0836.00014号 ·数字对象标识代码:10.1142/1930
[9] Aupetit,M.,《连续投影技术中的畸变可视化和拓扑恢复》,神经计算,701304-1330(2007)·doi:10.1016/j.neucom.2006.11.018
[10] 博克,HH;博兹多安,H。;Gupta,AK,《关于聚类分析、主成分分析和多维尺度之间的接口,多元统计建模和数据分析》,17-34(1987),多德雷赫特:施普林格·Zbl 0627.62068号 ·doi:10.1007/978-94-009-3977-6_2
[11] RE Bonner,On some clustering technique,IBM Journal of Research and Development,8,22-32(1964年)·Zbl 0116.09705号 ·数字对象标识代码:10.1147/rd.81.0022
[12] Chang,WC,《关于在分离两个多元正态分布的混合物之前使用主成分》,《皇家统计学会杂志:C辑:应用统计学》,32,267-275(1983)·Zbl 0538.62050号
[13] Charrad,M.、Ghazzali,N.、Boiteau,V.和Niknafs,A.(2012年)。NbClust:用于确定数据集中相关簇数的R包。《统计软件杂志》,61(6),1-36。doi:10.18637/jss.v061.i06
[14] 科蒙,P。;Lacoume,J.,独立成分分析,高阶统计,29-38(1992),阿姆斯特丹:爱思唯尔,阿姆斯特丹
[15] 达斯古普塔,S。;古普塔,A.,约翰逊和林登斯特劳斯定理的初等证明,随机结构与算法,22,60-65(2003)·兹比尔1018.51010 ·doi:10.1002/rsa.10073
[16] De Soete,G。;JD卡罗尔;迪迪,E。;Lechevallier,Y。;Schader,M。;Bertrand,P。;Burtschy,B.,《低维欧几里德空间中的K-means聚类》,分类和数据分析的新方法,212-219(1994),柏林:施普林格出版社,柏林·Zbl 1113.00306号 ·doi:10.1007/978-3642-51175-224
[17] Defays,D.,《完整链接方法的有效算法》,《计算机杂志》,第20期,第364-366页(1977年)·Zbl 0364.68038号 ·doi:10.1093/comjnl/20.4.364
[18] Demartines,P。;Hérault,J.,CCA:“曲线成分分析”,《信号与图像的悲剧研究》第15期,921-924(1995),法国:GRETSI,法国信号与图像悲剧研究小组
[19] Dijkstra,EW,关于与图有关的两个问题的注释,数字数学,1269-271(1959)·Zbl 0092.16002号 ·doi:10.1007/BF01386390
[20] Dimitriadou,E.(2002年)。cclust-convex聚类方法和聚类指标。R包版本0.6-21。
[21] Dimitriadou,E。;多尔尼卡尔,S。;Weingessel,A.,《确定二进制数据集中簇数的索引检查》,《心理测量学》,67,137-159(2002)·Zbl 1297.62229号 ·doi:10.1007/BF02294713
[22] 罗德岛杜达;哈特,体育;斯托克,DG,模式分类(2001),纽约:威利,纽约·兹伯利0968.68140
[23] Ester,M.、Kriegel,H.-P.、Sander,J.和Xu,X.(1996年)。一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。程序。第二届知识发现和数据挖掘国际会议(KDD 96)(第96卷,第226-231页)。俄勒冈州波特兰:AAAI出版社。
[24] Everitt,理学学士;兰道,S。;Leese,M.,聚类分析(2001),伦敦:阿诺德,伦敦·Zbl 1205.62076号
[25] Everitt,理学学士;兰道,S。;Leese,M。;斯塔尔,D。;Everitt,理学学士;兰道,S。;Leese,M。;Stahl,D.,层次聚类,聚类分析,71-110(2011),纽约:威利·兹比尔1274.62003 ·数字对象标识代码:10.1002/9780470977811.ch4
[26] Fisher,RA,《分类问题中多重测量的使用》,优生学年鉴,7179-188(1936)·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[27] Florek,K.,Łukaszewicz,J.,Perkal,J.、Steinhaus,H.和Zubrzycki,S.(1951年)。南-南联络处和南-南部联合收尾点处。程序。数学座谈会(第2卷,第282-285页)。波兰科学院数学研究所·Zbl 0045.26103号
[28] Flury,B。;Riedwyl,H.,《多元统计,实用方法》(1988),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0495.62057号 ·doi:10.1007/978-94-009-1217-5
[29] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[30] Fraley,C.和Raftery,A.E.(2006年)。MCLUST第3版:正态混合物建模和基于模型的聚类的R包,第504卷技术报告,西雅图华盛顿大学统计系。
[31] 弗朗克·P。;Cameron,E。;好,G。;JY Rasplus;Oldroyd,BP,澳大利亚无刺蜜蜂物种复合体中的巢穴结构和遗传分化,分子生态学,132317-2331(2004)·文件编号:10.1111/j.1365-294X.2004.02236.x
[32] BJ弗雷;Dueck,D.,通过在数据点之间传递消息进行聚类,《科学》,315972-976(2007)·Zbl 1226.94027号 ·doi:10.1126/science.1136800
[33] Ge,R.、Ester,M.、Jin,W.和Davidson,I.(2007)。约束驱动的聚类过程。第十三届ACM SIGKDD知识发现和数据挖掘国际会议(KDD 07)(第320-329页)。加利福尼亚州圣何塞:计算机协会。
[34] 哈弗拉赫,T。;科尔曼,A。;维克佐雷克,L。;巴索,G。;Te Kronnie,G。;贝内,M-C;德沃斯,J。;埃尔南德斯,JM;霍夫曼,W-K;Mills,KI,基于微阵列的基因表达谱在白血病诊断和亚类化中的临床应用:来自白血病研究小组的国际微阵列创新报告,临床肿瘤学杂志,282529-2537(2010)·doi:10.1200/JCO.2009.23.4732
[35] Handl,J。;诺尔斯,J。;Kell,DB,后基因组数据分析中的计算聚类验证,生物信息学,213201-3212(2005)·doi:10.1093/bioinformatics/bti517
[36] Hennig,C。;Spiliopoulou,M。;Schmidt-Thieme,L。;Janning,R.,有多少种蜜蜂?确定集群数量的案例研究,数据分析,机器学习和知识发现,41-49(2014),柏林:施普林格,柏林·doi:10.1007/978-3-319-01595-85
[37] Hennig,C.,《聚类分析手册》(2015),纽约:Chapman&Hall/CRC,纽约·doi:10.1201/b19706
[38] 埃雷罗,J。;巴伦西亚。;Dopazo,J.,用于聚类基因表达模式的分层无监督生长神经网络,生物信息学,17,126-136(2001)·doi:10.1093/bioinformatics/17.2.126
[39] 海耶,LJ;克鲁格利亚克,S。;Yooseph,S.,探索表达数据:共表达基因的鉴定和分析,基因组研究,9,1106-1115(1999)·数字对象标识代码:10.1101/gr.9.11.1106
[40] 通用电气公司Hinton;Roweis,ST,随机邻域嵌入,神经信息处理系统进展,833-840(2002),剑桥:麻省理工学院出版社,剑桥
[41] HINTZE,JL;NELSON,RD,《小提琴绘图:盒子密度痕迹协同作用》,《美国统计学家》,52,181-184(1998)
[42] 霍夫梅尔,D。;Pavlidis,N.,《最大可分聚类》,2015年IEEE计算智能研讨会系列,780-786(2015),新泽西州皮斯卡塔韦:IEEE,皮斯卡塔韦,新泽西·doi:10.1109/SSCI.2015.116
[43] 霍夫梅尔,D。;Pavlidis,N.,PPCI:使用投影追踪进行聚类识别的R包,《R期刊》,第11期,第152页(2019年)·doi:10.32614/RJ-2019-046
[44] Hofmeyr,DP,最小割超平面聚类,IEEE模式分析和机器智能汇刊,39,1547-1560(2016)·doi:10.1109/TPAMI.2016.2609929
[45] Hotelling,H.,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》,24417-441(1933)·JFM 59.1182.04号文件 ·doi:10.1037/h0071325
[46] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[47] 阿拉斯加州贾恩;Dubes,RC,聚类数据算法(1988),恩格尔伍德悬崖:普伦蒂斯·霍尔学院,恩格尔伍德悬崖·兹比尔0665.62061
[48] Johnson,W.B.和Lindenstrauss,J.(1984)。Lipschitz映射在Hilbert空间中的扩展。当代数学,26(1),189-206·Zbl 0539.46017号
[49] 考夫曼,L。;罗素,PJ;考夫曼,L。;Rousseeuw,PJ,围绕medoids进行分区(PAM程序),《在数据中发现群体:聚类分析导论》,68-125(1990),新泽西州霍博肯:新泽西州威利·Zbl 1345.62009号 ·doi:10.1002/9780470316801.ch2
[50] 考夫曼,L。;Rousseeuw,PJ,《在数据中发现群体:聚类分析简介》(2005年),霍博肯:威利·Zbl 1345.62009号
[51] Kim,J.,《涌现:核心思想和问题》,Synthese,151,547-559(2006)·doi:10.1007/s11229-006-9025-0
[52] Kleinberg,J.,《聚类的不可能性定理》,《神经信息处理系统的进展》,463-470(2003),不列颠哥伦比亚省温哥华:麻省理工学院出版社,温哥华
[53] 兰斯,GN;Williams,WT,层次多义分类的计算机程序(“相似性分析”),《计算机杂志》,9,60-64(1966)·Zbl 0136.38807号 ·doi:10.1093/comjnl/9.1.60
[54] 兰斯,GN;Williams,WT,《计算机分类的广义排序策略》,《自然》,212,218(1966)·doi:10.1038/212218a0
[55] 兰斯,GN;Williams,WT,分类排序策略的一般理论:1。层次系统,《计算机杂志》,9373-380(1967)·doi:10.1093/comjnl/9.4.373
[56] Lichman,M.,UCI机器学习库(2013),欧文:加利福尼亚大学信息与计算机科学学院,欧文
[57] 林德,Y。;Buzo,A。;Gray,R.,矢量量化器设计的算法,IEEE通讯汇刊,2884-95(1980)·doi:10.1109/TCOM.1980.1094577
[58] Lötsch,J。;Ultsch,A.,《利用U矩阵的结构》,《自组织映射和学习矢量量化的进展》,249-257(2014),Mittweida:Springer International Publishing,Mittwida·doi:10.1007/978-3-319-07695-9_24
[59] 马科斯,A。;Iodice D’Enza,A。;van de Velden,M.,《超越串联分析:R中的联合维数缩减和聚类》,《统计软件杂志(在线)》,91,1-24(2019)
[60] Martinetz,TM;SG Berkovich;Schulten,KJ,用于矢量量化的“Neural-gas”网络及其在时间序列预测中的应用,IEEE神经网络汇刊,4558-569(1993)·doi:10.1109/72.238311
[61] McQuitty,LL,离散和连续数据的倒数对相似性分析,教育和心理测量,26825-831(1966)·doi:10.177/01316446602600402
[62] 米利根,GW;Cooper,MC,聚类分析中变量标准化的研究,分类杂志,181-204(1988)·doi:10.1007/BF01897163
[63] 米尔金,BG,《集群:数据恢复方法》(2005),博卡拉顿:查普曼和霍尔/CRC,博卡拉通·Zbl 1083.68099号 ·doi:10.1201/9781420034912
[64] Ng、AY;密歇根州约旦;Weiss,Y.,《关于谱聚类:分析和算法》,《神经信息处理系统进展》,2849-856(2002)
[65] Niu,D.、Dy,J.和Jordan,M.(2011年)。谱聚类的降维。Gordon,G.,Dunson,D.&Dudík,M.(编辑),Proc。第十四届国际人工智能与统计会议(第15卷,第552-560页)。佛罗里达州劳德代尔堡:PMLR。
[66] Patterson,T。;内华达州凯尔索、哈尔·谢尔顿重温:利用卫星土地覆盖数据设计和制作自然彩色地图,《地图透视》,47,28-55(2004)·doi:10.14714/CP47.470
[67] 帕夫利迪斯,NG;Hofmeyr,DP;Tasoulis,SK,最小密度超平面,机器学习研究杂志,17,5414-5446(2016)·Zbl 1392.68362号
[68] 皮尔逊,K.,LIII。在最接近空间点系的直线和平面上,伦敦、爱丁堡和都柏林哲学杂志和科学杂志,2559-572(1901)·JFM 32.0246.07号文件 ·doi:10.1080/14786440109462720
[69] R开发核心团队,R:统计计算的语言和环境(版本3.2.5)(2008),维也纳:R统计计算基金会,维也纳
[70] Ritter,G.,《稳健聚类分析和变量选择》(2014),帕索:查普曼和霍尔/CRC,帕索·Zbl 1341.62037号 ·doi:10.1201/b17353
[71] 罗德里格斯,A。;Laio,A.,《通过快速搜索和发现密度峰值进行聚类》,《科学》,3441492-1496(2014)·doi:10.1126/science.1242072
[72] 罗素,PJ;考夫曼,L.,《在数据中寻找群体》(1990年),布鲁塞尔:威利出版社,布鲁塞尔·Zbl 1345.62009号
[73] Scharl,T。;Leisch,F.,《随机QT-聚类算法:时间进程微阵列数据的稳定性和方差评估》,《计算统计学学报》(Compstat),1015-1022(2006),海德堡:Physica Verlag,海德伯格
[74] 索科尔,RR;Michener,CD,评估系统关系的统计方法,堪萨斯大学科学通报,281409-1438(1958)
[75] 斯坦利,D。;Brusco,MJ,《初始化k均值批量聚类:几种技术的关键评估》,《分类杂志》,2499-121(2007)·兹比尔1144.62331 ·doi:10.1007/s00357-007-0003-0
[76] 斯坦利,D。;布鲁斯科,MJ;Henson,R.,《主要聚类轴:在数据减少的情况下保存聚类结构的投影追求指数》,多元行为研究,47663-492(2012)·doi:10.1080/00273171.2012.673952
[77] 西奥多里迪斯,S。;Koutroumbas,K.,模式识别(2009),蒙特利尔:爱思唯尔,蒙特利尔·Zbl 0954.68131号
[78] 特伦,MC,《通过自组织和群体智能实现基于投影的聚类》(2018),海德堡:斯普林格,海德伯格·doi:10.1007/978-3658-20540-9
[79] Thrun,M.C.、Gehlert,T.和Ultsch,A.(2020年)。分析分布的精细结构。预印本可在arXiv.org,PLOS ONE上获取,版本为arXiv:1908.06081。
[80] Thrun,M.C.、Lerch,F.、Lötsch,J.和Ultsch,A.(2016)。生物标志物多元数据的可视化和3D打印。在中欧举行的计算机图形、可视化和计算机视觉国际会议(WSCG)上(第7-16页)。普尔赞。
[81] 特隆,MC;Ultsch,A.,《利用基本聚类问题对基准数据集进行聚类》,《简明数据》,30 C,105501(2020)·doi:10.1016/j.dib.2020.105501
[82] Thrun,M.C.和Ultsch,A.(2020b)。自组织集群的群体智能。人工智能杂志,103237。doi:10.1016/j.artint.2020.103237·Zbl 1504.68191号
[83] 蒂默尔曼,ME;Ceulemans,E。;基尔斯,HA;Vichi,M.,重新考虑因子和简化K-means,计算统计与数据分析,54,1858-1871(2010)·Zbl 1284.62396号 ·doi:10.1016/j.csda.2010.02.009
[84] 托格森,WS,《多维尺度:理论与方法》,《心理测量学》,第17期,第401-419页(1952年)·Zbl 0049.37603号 ·doi:10.1007/BF02288916
[85] Tukey,J.W.(1977年)。探索性数据分析。阅读:美国Addison-Wesley出版公司·Zbl 0409.62003号
[86] Tung,A.K.、Han,J.、Lakshmanan,L.V.和Ng,R.T.(2001)。大型数据库中基于约束的聚类。Van den Bussche,J.&Vianu,V.(编辑),Proc。国际数据库理论会议(ICDT)(第1973卷,第405-419页)。柏林,海德堡,伦敦:施普林格·Zbl 1047.68594号
[87] Ultsch,A.(1995年)。自组织神经网络的性能不同于统计k均值聚类。信息与分类学会(GFKL)(1995年)。巴塞尔。
[88] Ultsch,A.(2005a)。与SOM的集群:U*C.,《第五届自组织地图研讨会论文集》(第75-82页),法国巴黎。
[89] Ultsch,A。;拜尔·D·。;Wernecke,KD,Pareto密度估计:知识发现的密度估计,分类、数据科学和信息系统创新,91-100(2005),德国柏林:德国柏林施普林格·Zbl 1448.62105号 ·doi:10.1007/3-540-26981-9_12
[90] Ultsch,A.,《自组织特征地图的涌现》,第六届自组织地图研讨会(WSOM 07),1-7(2007),德国比勒菲尔德:德国比勒费尔德大学图书馆
[91] Ultsch,A。;贝尼什,M。;Lötsch,J。;Merényi,E。;JM门登霍尔;O'Driscoll,P.,《聚类质量评估的ESOM可视化》,《自组织地图和学习矢量量化的进展:2016年第11届WSOM国际研讨会论文集》,美国德克萨斯州休斯顿,2016年1月6-8日,39-48(2016),查姆:斯普林格国际出版公司,查姆·Zbl 1330.68031号 ·doi:10.1007/978-3-319-28518-43
[92] Ultsch,A.和Herrmann,L.(2005)。用于减少投影错误的紧急自组织映射的架构。在Verleysen,M.(编辑),Proc。欧洲人工神经网络研讨会(ESANN)(第1-6页)。比利时:布鲁日。
[93] Ultsch,A。;Lötsch,J.,高维数据中的机器学习聚类识别,生物医学信息学杂志,66,95-104(2017)·doi:10.1016/j.jbi.2016.12.011
[94] Ultsch,A。;Thrun,MC,《平面投影的可信可视化》,第12届自组织地图和学习矢量量化、聚类和数据可视化(WSOM)国际研讨会,1-5(2017),Nany:IEEE,Nany
[95] Ultsch,A.和Vetter,C.(1995)。自组织神经网络的性能不同于统计k均值聚类过程。信息与分类学会(GFKL)(1995年第卷)巴塞尔协议第8-10条。
[96] 范德马滕,LJP;Postma,EO;van den Herik,HJ,降维:比较综述,机器学习研究杂志,10,66-71(2009)
[97] Van Dongen,S.M.(2000年)。通过流模拟进行图形聚类。荷兰乌得勒支:乌得勒支大学博士论文。
[98] 维纳,J。;Peltonen,J。;Nybo,K。;艾多斯,H。;Kaski,S.,《数据可视化中非线性降维的信息检索视角》,《机器学习研究杂志》,第11期,第451-490页(2010年)·Zbl 1242.62006年
[99] 维希,M。;Kiers,HAL,双向数据的因子k均值分析,计算统计与数据分析,37,49-64(2001)·Zbl 1051.62056号 ·doi:10.1016/S0167-9473(00)00064-5
[100] Ward,JH Jr,优化目标函数的分层分组,美国统计协会杂志,58236-244(1963)·doi:10.1080/01621459.1963.10500845
[101] 韦伦斯,R。;Buydens,LMC,R中的自组织和超组织地图:Kohonen包,统计软件杂志,21,1-19(2007)·doi:10.18637/jss.v021.2005
[102] 韦恩斯坦,JN;科利森,EA;米尔斯,GB;KRM Shaw;Ozenberger,文学学士;Ellrott,K。;施穆列维奇,I。;桑德,C。;斯图尔特,JM;癌症基因组图谱研究网络,癌症基因组图谱泛癌分析项目,《自然遗传学》,45,1113-1120(2013)·数字对象标识代码:10.1038/ng.2764
[103] Wickham,H.和Stryjewski,L.(2011)。40年的箱线图。美国统计学家。
[104] 沃尔伯格,WH;Mangasarian,OL,用于乳腺细胞学医学诊断的多表面模式分离方法,美国国家科学院学报,87,9193-9196(1990)·Zbl 0709.92537号 ·doi:10.1073/pnas.87.23.9193
[105] Zhang,B.,聚类算法性能对数据聚类性的依赖性,技术报告HPL-2000-137(2001),Palo Alto:Hewlett-Packard Labs,Palo Alto
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。