大卫·P·霍夫梅尔。;尼科斯·帕夫利迪斯。;伊德里斯·埃克利(Idris A.Eckley)。 高维数据流的分簇。 (英语) Zbl 1505.62189号 统计计算。 26,第5期,1101-1120(2016). 摘要:随着自动数据采集技术在各种应用程序中的部署,流式数据聚类变得越来越重要。针对高维数据流,我们提出了一种基于高密度聚类的全增量投影除法聚类方法。该方法能够识别任意子空间中的簇,估计簇数,并检测需要修改模型的数据分布变化。对大量真实和模拟数据集的实证评估表明,该方法在维数和簇数上具有可扩展性,对噪声和无关特征具有鲁棒性,并且能够处理各种类型的非平稳性。 MSC公司: 62-08 统计问题的计算方法 62H30型 分类和区分;聚类分析(统计方面) 62G07年 密度估算 68T05型 人工智能中的学习和自适应系统 关键词:群集;数据流;高维性;人口漂移;模态测试 软件:HPStream公司;AS 217标准;UCI-毫升 PDF格式BibTeX公司 XML格式引用 \textit{D.P.Hofmeyr}等人,《统计计算》。26,第5号,1101--1120(2016;Zbl 1505.62189) 全文: 内政部 链接 参考文献: [1] Aggarwal,抄送;Aggarwal,CC(编辑);Reddy,C.(编辑),《流聚类算法调查》,457-482(2013),博卡拉顿 [2] Aggarwal,C.C.、Han,J.、Wang,J.和Yu,P.:聚类进化数据流的框架。摘自:第29届超大数据库国际会议记录,第29卷,第81-92页(2003年) [3] Aggarwal,C.C.、Han,J.、Wang,J.和Yu,P.S.:高维数据流预测聚类的框架。摘自:《第三十届超大数据库国际会议论文集》,第852-863页(2004年) [4] Amini,A.,Saboohi,H.,Wah,T.Y.,Herawan,T.:Dmm-stream:用于进化数据流的密度微型聚类算法。In:《第一届先进数据与信息工程国际会议论文集》(DaEng-2013),675-682(2014) [5] Amini,A.,Wah,T.Y.,Saboohi,H.:关于基于密度的数据流聚类算法:一项调查。J.计算。科学。Technol公司。29(1), 116-141 (2014) ·doi:10.1007/s11390-014-1416-y [6] Anagostopoulos,C.、Tasoulis,D.K.、Adams,N.M.、Pavlidis,N.G.、Hand,D.J.:在线线性和二次判别分析,用于流分类。统计分析。数据最小值5(2),139-166(2012)·Zbl 07260320号 ·doi:10.1002/sam.10151 [7] Ankerst,M.、Breunig,M.,Kriegel,H.P.、Sander,J.:OPTICS:确定聚类结构的排序点。摘自:ACM Sigmod会议记录,第49-60页(1999) [8] Artac,M、Jogan,M和Leonardis,A:在线视觉学习和识别的增量PCA。摘自:《第十六届模式识别国际会议论文集》,第3卷,第781-784页(2002年)·Zbl 1200.62034号 [9] Azzalini,A.,Torelli,N.:通过非参数密度估计进行聚类。统计计算。17(1), 71-80 (2007). doi:10.1007/s11222-006-9010-y·doi:10.1007/s11222-006-9010-y [10] Babcock,B.,Babu,S.,Datar,M.,Motwani,R.,Widom,J.:数据流系统中的模型和问题。摘自:第二十一届ACM SIGMOD-SIGACT-SIGART数据库系统原理专题讨论会会议记录,第1-16页(2002年)·Zbl 1211.68134号 [11] Bache,K.,Lichman,M.:UCI机器学习库。加州大学欧文分校信息与计算机科学学院。http://archive.ics.uci.edu/m [12] Boley,D.:主方向除法分割。最小已知数据。发现。2(4), 325-344 (1998) ·doi:10.1023/A:1009740529316 [13] Campello,R.J.G.B.,Moulavi,D.,Zimek,A.,Sander,J.:从层次结构中半监督和非监督最优提取聚类的框架。最小已知数据。发现。27(3),344-371(2013)·Zbl 1281.68175号 ·doi:10.1007/s10618-013-0311-4 [14] Cao,F.,Ester,M.,Qian,W.,Zhou,A.:带噪声的进化数据流上基于密度的聚类。摘自:2006年SIAM数据挖掘国际会议记录,第328-339页(2006) [15] Chen,Y.,Tu,L.:实时流数据的基于密度的聚类。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第133-142页(2007)·Zbl 1281.68175号 [16] Cuevas,A.、Febrero,M.、Fraiman,R.:聚类分析:基于密度估计的进一步方法。计算。统计数据分析。36(4), 441-459 (2001) ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473(00)00052-9 [17] Cuevas,A.,Fraiman,R.:支持评估的插件方法。Ann.Stat.25(6),2300-2312(1997)·Zbl 0897.62034号 ·doi:10.1214/aos/1030741073 [18] Ester,M.、Kriegel,H.P.、Sander,J.、Xu,X.:一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。摘自:《第二届知识发现和数据挖掘国际会议论文集》,第226-231页(1996) [19] Guha,S.、Meyerson,A.、Mishra,N.、Motwani,R.、O'Callaghan,L.:聚类数据流:理论与实践。IEEE传输。知识。数据工程15(3),515-528(2003)·doi:10.1010/TKDE.2003.1198387 [20] Hartigan,J.A.:聚类算法。概率与数理统计中的威利级数。威利,纽约(1975年)·Zbl 0372.62040号 [21] Hartigan,P.M.:算法为217:计算倾角统计以测试单峰。J.R.Stat.Soc.34(3),320-325(1985) [22] Hartigan,J.A.,Haritigan,P.M.:单峰倾角测试。Ann.Stat.13(1),70-84(1985)·Zbl 0575.62045号 ·doi:10.1214/aos/1176346577 [23] Hassani,M.,Kranen,P.,Saini,R.,Seidl,T.:子空间任意时间流聚类。摘自:《第26届国际科学与统计数据库管理会议论文集》,第37页(2014)·Zbl 0897.62034号 [24] Hassani,M.、Spaus,P.、Gaber,M.M.、Seidl,T.:基于密度的数据流预测聚类。摘自:《第六届可扩展不确定性管理国际会议论文集》,第311-324页(2012年) [25] Haykin,S.:《神经网络:综合基础》。Prentice-Hall International,Upper Saddle River(1999年)·Zbl 0934.68076号 [26] Jain,A.K.:数据聚类:超过K-means 50年。模式识别。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.parec.2009.0011 [27] Jia,C.,Tan,C.,Yong,A.:一种用于处理数据流的基于网格和密度的聚类算法。In:国际遗传与进化计算会议(2008)·Zbl 1281.68175号 [28] Kranen,P.,Assent,I.,Baldauf,C.,Seidl,T.:自适应任意时间流聚类。摘自:IEEE数据挖掘国际会议,第249-258页,doi:10.1109/ICDM.2009.47(2009) [29] Kranen,P.:流数据挖掘的任何时间算法。死亡论文。亚琛RWTH大学(2011) [30] Kriegel,H.P.,Kröger,P.,Zimek,A.:高维数据聚类:关于子空间聚类、基于模式的聚类和相关聚类的调查。知识。发现。数据。3(1), 1-58 (2009) ·数字对象标识代码:10.1145/1497577.1497578 [31] Li,Y.,Xu,L.-Q.,Morphett,J.,Jacobs,R.:增量和鲁棒pca的集成算法。摘自:《国际图像处理会议记录》,第1期,第245-248页(2009年) [32] Menardi,G.,Azzalini,A.:通过非参数密度估计进行聚类的进展。统计计算。24(5), 753-767 (2014). 数字对象标识代码:10.1007/s11222-013-9400-x·Zbl 1322.62175号 ·数字对象标识代码:10.1007/s11222-013-9400-x [33] Müller,D.W.,Sawitzki,G.:多模态的过剩质量估计和测试。《美国统计协会期刊》86(415),738-746(1991)·Zbl 0733.62040号 [34] Ntoutsi,I.、Zimek,A.、Palpanas,T.、Kröger,P.、Kriegel,H.P.:高维数据流上基于密度的投影聚类。摘自:《SiAM国际数据挖掘会议论文集》,第987-998页(2012年) [35] Pavlidis,N.G.,Tasoulis,D.K.,Adams,N.M.,Hand,D.J.:λ-感知器:数据流的自适应分类器。模式识别。44(1), 78-96 (2011) ·Zbl 1211.68134号 ·doi:10.1016/j.patcog.2010.07.026 [36] Reynolds Jr,M.R.,Stoumbos,Z.G.:连续检查时监控比例的CUSUM图。J.资格。Technol公司。3(1), 87 (1999) [37] Rigollet,P.,Vert,R.:密度水平集插件估计的最佳速率。伯努利15(4),1154-1178(2009)·Zbl 1200.62034号 ·文件编号:10.3150/09-BEJ184 [38] Rinaldo,A.,Wasserman,L.:广义密度聚类。《Ann.Stat.38》(5),2678-2722(2010)·Zbl 1200.62066号 ·doi:10.1214/10-AOS797 [39] Rosenberg,A.,Hirschberg,J.:V度量:基于条件熵的外部聚类评估度量。摘自:2007年自然语言处理和计算自然语言学习实证方法联合会议记录,第410-420页(2007) [40] Scott,D.W.:《多元密度估计:理论、实践和可视化》,第383卷。John Wiley&Sons,纽约(2009)·兹比尔1311.62004 [41] Silva,J.A.,Faria,E.R.,Barros,R.C.,Hruschka,E.R..,de Carvalho,A.C.P.L.F.,Gama,J.:数据流聚类:一项调查。ACM计算。Surv公司。46(1), 13:1-13:31 (2013) ·Zbl 1288.68200号 ·doi:10.1145/2522968.2522981 [42] Stuetzle,W.:通过分析样本的最小生成树来估计密度的聚类树。J.分类。20(5), 25-47 (2003) ·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6 [43] Stuetzle,W.,Nugent,R.:估算密度聚类树的广义单链接方法。J.计算。Gr.Stat.19(2),397-418(2010)·doi:10.1198/jcgs.2009.07049 [44] Tasoulis,S.K.,Tasouli,D.K.,Plagianakos,V.:增强主方向分裂聚类。模式识别。43(10), 3391-3411 (2010) ·Zbl 1209.68489号 ·doi:10.1016/j.patcog.2010.05.025 [45] SK塔苏利斯;丹麦塔苏利斯;副总裁Plagianakos;Maglogiannis,L.(编辑);Vlahavas,L.(编辑),高维数据流的聚类,223-230(2012),柏林·doi:10.1007/978-3-642-30448-4_28 [46] Vergara,A.、Vembu,S.、Ayhan,T.、Ryan,M.A.、Homer,M.L.、Huerta,R.:使用分类器集合的化学气体传感器漂移补偿。传感器执行器B 166、320-329(2012)·doi:10.1016/j.snb.2012.01.074 [47] von Luxburg,U.:聚类稳定性。Now Publishers Inc,汉诺威(2010)·Zbl 1191.68615号 [48] Weng,J.,Zhang,Y.,Hwang,W.S.:无协方差增量主成分分析。IEEE传输。模式分析。机器。智力。25(8), 1034-1040 (2003) [49] Zhang,T.,Ramakrishnan,R.,Livny,M.:BIRCH:一种适用于超大数据库的高效数据聚类方法。ACM SIGMOD Conf.25,103-114(1996)·doi:10.1145/235968.233324 [50] Zhao,Y.,Karypis,G.:文档聚类的标准函数:实验和分析。机器。学习。42, 143-175 (2001) ·Zbl 0970.68167号 ·doi:10.1023/A:1007612920971 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。