×

高维数据流的分簇。 (英语) Zbl 1505.62189号

摘要:随着自动数据采集技术在各种应用程序中的部署,流式数据聚类变得越来越重要。针对高维数据流,我们提出了一种基于高密度聚类的全增量投影除法聚类方法。该方法能够识别任意子空间中的簇,估计簇数,并检测需要修改模型的数据分布变化。对大量真实和模拟数据集的实证评估表明,该方法在维数和簇数上具有可扩展性,对噪声和无关特征具有鲁棒性,并且能够处理各种类型的非平稳性。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62G07年 密度估算
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Aggarwal,抄送;Aggarwal,CC(编辑);Reddy,C.(编辑),《流聚类算法调查》,457-482(2013),博卡拉顿
[2] Aggarwal,C.C.、Han,J.、Wang,J.和Yu,P.:聚类进化数据流的框架。摘自:第29届超大数据库国际会议记录,第29卷,第81-92页(2003年)
[3] Aggarwal,C.C.、Han,J.、Wang,J.和Yu,P.S.:高维数据流预测聚类的框架。摘自:《第三十届超大数据库国际会议论文集》,第852-863页(2004年)
[4] Amini,A.,Saboohi,H.,Wah,T.Y.,Herawan,T.:Dmm-stream:用于进化数据流的密度微型聚类算法。In:《第一届先进数据与信息工程国际会议论文集》(DaEng-2013),675-682(2014)
[5] Amini,A.,Wah,T.Y.,Saboohi,H.:关于基于密度的数据流聚类算法:一项调查。J.计算。科学。Technol公司。29(1), 116-141 (2014) ·doi:10.1007/s11390-014-1416-y
[6] Anagostopoulos,C.、Tasoulis,D.K.、Adams,N.M.、Pavlidis,N.G.、Hand,D.J.:在线线性和二次判别分析,用于流分类。统计分析。数据最小值5(2),139-166(2012)·Zbl 07260320号 ·doi:10.1002/sam.10151
[7] Ankerst,M.、Breunig,M.,Kriegel,H.P.、Sander,J.:OPTICS:确定聚类结构的排序点。摘自:ACM Sigmod会议记录,第49-60页(1999)
[8] Artac,M、Jogan,M和Leonardis,A:在线视觉学习和识别的增量PCA。摘自:《第十六届模式识别国际会议论文集》,第3卷,第781-784页(2002年)·Zbl 1200.62034号
[9] Azzalini,A.,Torelli,N.:通过非参数密度估计进行聚类。统计计算。17(1), 71-80 (2007). doi:10.1007/s11222-006-9010-y·doi:10.1007/s11222-006-9010-y
[10] Babcock,B.,Babu,S.,Datar,M.,Motwani,R.,Widom,J.:数据流系统中的模型和问题。摘自:第二十一届ACM SIGMOD-SIGACT-SIGART数据库系统原理专题讨论会会议记录,第1-16页(2002年)·Zbl 1211.68134号
[11] Bache,K.,Lichman,M.:UCI机器学习库。加州大学欧文分校信息与计算机科学学院。http://archive.ics.uci.edu/m
[12] Boley,D.:主方向除法分割。最小已知数据。发现。2(4), 325-344 (1998) ·doi:10.1023/A:1009740529316
[13] Campello,R.J.G.B.,Moulavi,D.,Zimek,A.,Sander,J.:从层次结构中半监督和非监督最优提取聚类的框架。最小已知数据。发现。27(3),344-371(2013)·Zbl 1281.68175号 ·doi:10.1007/s10618-013-0311-4
[14] Cao,F.,Ester,M.,Qian,W.,Zhou,A.:带噪声的进化数据流上基于密度的聚类。摘自:2006年SIAM数据挖掘国际会议记录,第328-339页(2006)
[15] Chen,Y.,Tu,L.:实时流数据的基于密度的聚类。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第133-142页(2007)·Zbl 1281.68175号
[16] Cuevas,A.、Febrero,M.、Fraiman,R.:聚类分析:基于密度估计的进一步方法。计算。统计数据分析。36(4), 441-459 (2001) ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473(00)00052-9
[17] Cuevas,A.,Fraiman,R.:支持评估的插件方法。Ann.Stat.25(6),2300-2312(1997)·Zbl 0897.62034号 ·doi:10.1214/aos/1030741073
[18] Ester,M.、Kriegel,H.P.、Sander,J.、Xu,X.:一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。摘自:《第二届知识发现和数据挖掘国际会议论文集》,第226-231页(1996)
[19] Guha,S.、Meyerson,A.、Mishra,N.、Motwani,R.、O'Callaghan,L.:聚类数据流:理论与实践。IEEE传输。知识。数据工程15(3),515-528(2003)·doi:10.1010/TKDE.2003.1198387
[20] Hartigan,J.A.:聚类算法。概率与数理统计中的威利级数。威利,纽约(1975年)·Zbl 0372.62040号
[21] Hartigan,P.M.:算法为217:计算倾角统计以测试单峰。J.R.Stat.Soc.34(3),320-325(1985)
[22] Hartigan,J.A.,Haritigan,P.M.:单峰倾角测试。Ann.Stat.13(1),70-84(1985)·Zbl 0575.62045号 ·doi:10.1214/aos/1176346577
[23] Hassani,M.,Kranen,P.,Saini,R.,Seidl,T.:子空间任意时间流聚类。摘自:《第26届国际科学与统计数据库管理会议论文集》,第37页(2014)·Zbl 0897.62034号
[24] Hassani,M.、Spaus,P.、Gaber,M.M.、Seidl,T.:基于密度的数据流预测聚类。摘自:《第六届可扩展不确定性管理国际会议论文集》,第311-324页(2012年)
[25] Haykin,S.:《神经网络:综合基础》。Prentice-Hall International,Upper Saddle River(1999年)·Zbl 0934.68076号
[26] Jain,A.K.:数据聚类:超过K-means 50年。模式识别。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.parec.2009.0011
[27] Jia,C.,Tan,C.,Yong,A.:一种用于处理数据流的基于网格和密度的聚类算法。In:国际遗传与进化计算会议(2008)·Zbl 1281.68175号
[28] Kranen,P.,Assent,I.,Baldauf,C.,Seidl,T.:自适应任意时间流聚类。摘自:IEEE数据挖掘国际会议,第249-258页,doi:10.1109/ICDM.2009.47(2009)
[29] Kranen,P.:流数据挖掘的任何时间算法。死亡论文。亚琛RWTH大学(2011)
[30] Kriegel,H.P.,Kröger,P.,Zimek,A.:高维数据聚类:关于子空间聚类、基于模式的聚类和相关聚类的调查。知识。发现。数据。3(1), 1-58 (2009) ·数字对象标识代码:10.1145/1497577.1497578
[31] Li,Y.,Xu,L.-Q.,Morphett,J.,Jacobs,R.:增量和鲁棒pca的集成算法。摘自:《国际图像处理会议记录》,第1期,第245-248页(2009年)
[32] Menardi,G.,Azzalini,A.:通过非参数密度估计进行聚类的进展。统计计算。24(5), 753-767 (2014). 数字对象标识代码:10.1007/s11222-013-9400-x·Zbl 1322.62175号 ·数字对象标识代码:10.1007/s11222-013-9400-x
[33] Müller,D.W.,Sawitzki,G.:多模态的过剩质量估计和测试。《美国统计协会期刊》86(415),738-746(1991)·Zbl 0733.62040号
[34] Ntoutsi,I.、Zimek,A.、Palpanas,T.、Kröger,P.、Kriegel,H.P.:高维数据流上基于密度的投影聚类。摘自:《SiAM国际数据挖掘会议论文集》,第987-998页(2012年)
[35] Pavlidis,N.G.,Tasoulis,D.K.,Adams,N.M.,Hand,D.J.:λ-感知器:数据流的自适应分类器。模式识别。44(1), 78-96 (2011) ·Zbl 1211.68134号 ·doi:10.1016/j.patcog.2010.07.026
[36] Reynolds Jr,M.R.,Stoumbos,Z.G.:连续检查时监控比例的CUSUM图。J.资格。Technol公司。3(1), 87 (1999)
[37] Rigollet,P.,Vert,R.:密度水平集插件估计的最佳速率。伯努利15(4),1154-1178(2009)·Zbl 1200.62034号 ·文件编号:10.3150/09-BEJ184
[38] Rinaldo,A.,Wasserman,L.:广义密度聚类。《Ann.Stat.38》(5),2678-2722(2010)·Zbl 1200.62066号 ·doi:10.1214/10-AOS797
[39] Rosenberg,A.,Hirschberg,J.:V度量:基于条件熵的外部聚类评估度量。摘自:2007年自然语言处理和计算自然语言学习实证方法联合会议记录,第410-420页(2007)
[40] Scott,D.W.:《多元密度估计:理论、实践和可视化》,第383卷。John Wiley&Sons,纽约(2009)·兹比尔1311.62004
[41] Silva,J.A.,Faria,E.R.,Barros,R.C.,Hruschka,E.R..,de Carvalho,A.C.P.L.F.,Gama,J.:数据流聚类:一项调查。ACM计算。Surv公司。46(1), 13:1-13:31 (2013) ·Zbl 1288.68200号 ·doi:10.1145/2522968.2522981
[42] Stuetzle,W.:通过分析样本的最小生成树来估计密度的聚类树。J.分类。20(5), 25-47 (2003) ·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6
[43] Stuetzle,W.,Nugent,R.:估算密度聚类树的广义单链接方法。J.计算。Gr.Stat.19(2),397-418(2010)·doi:10.1198/jcgs.2009.07049
[44] Tasoulis,S.K.,Tasouli,D.K.,Plagianakos,V.:增强主方向分裂聚类。模式识别。43(10), 3391-3411 (2010) ·Zbl 1209.68489号 ·doi:10.1016/j.patcog.2010.05.025
[45] SK塔苏利斯;丹麦塔苏利斯;副总裁Plagianakos;Maglogiannis,L.(编辑);Vlahavas,L.(编辑),高维数据流的聚类,223-230(2012),柏林·doi:10.1007/978-3-642-30448-4_28
[46] Vergara,A.、Vembu,S.、Ayhan,T.、Ryan,M.A.、Homer,M.L.、Huerta,R.:使用分类器集合的化学气体传感器漂移补偿。传感器执行器B 166、320-329(2012)·doi:10.1016/j.snb.2012.01.074
[47] von Luxburg,U.:聚类稳定性。Now Publishers Inc,汉诺威(2010)·Zbl 1191.68615号
[48] Weng,J.,Zhang,Y.,Hwang,W.S.:无协方差增量主成分分析。IEEE传输。模式分析。机器。智力。25(8), 1034-1040 (2003)
[49] Zhang,T.,Ramakrishnan,R.,Livny,M.:BIRCH:一种适用于超大数据库的高效数据聚类方法。ACM SIGMOD Conf.25,103-114(1996)·doi:10.1145/235968.233324
[50] Zhao,Y.,Karypis,G.:文档聚类的标准函数:实验和分析。机器。学习。42, 143-175 (2001) ·Zbl 0970.68167号 ·doi:10.1023/A:1007612920971
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。