文件Zbl 1505.62189-zbMATH Open

大卫·P·霍夫梅尔。;尼科斯·帕夫利迪斯。;伊德里斯·埃克利（Idris A.Eckley）。

高维数据流的分簇。（英语） Zbl 1505.62189号

统计计算。 26，第5期，1101-1120（2016）.

摘要：随着自动数据采集技术在各种应用程序中的部署，流式数据聚类变得越来越重要。针对高维数据流，我们提出了一种基于高密度聚类的全增量投影除法聚类方法。该方法能够识别任意子空间中的簇，估计簇数，并检测需要修改模型的数据分布变化。对大量真实和模拟数据集的实证评估表明，该方法在维数和簇数上具有可扩展性，对噪声和无关特征具有鲁棒性，并且能够处理各种类型的非平稳性。

MSC公司：

62-08	统计问题的计算方法
62H30型	分类和区分；聚类分析（统计方面）
62G07年	密度估算
68T05型	人工智能中的学习和自适应系统

关键词：

群集;数据流;高维性;人口漂移;模态测试

软件：

HPStream公司;AS 217标准;UCI-毫升

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Aggarwal，抄送；Aggarwal，CC（编辑）；Reddy，C.（编辑），《流聚类算法调查》，457-482（2013），博卡拉顿
[2]	Aggarwal，C.C.、Han，J.、Wang，J.和Yu，P.：聚类进化数据流的框架。摘自：第29届超大数据库国际会议记录，第29卷，第81-92页（2003年）
[3]	Aggarwal，C.C.、Han，J.、Wang，J.和Yu，P.S.：高维数据流预测聚类的框架。摘自：《第三十届超大数据库国际会议论文集》，第852-863页（2004年）
[4]	Amini，A.，Saboohi，H.，Wah，T.Y.，Herawan，T.：Dmm-stream：用于进化数据流的密度微型聚类算法。In:《第一届先进数据与信息工程国际会议论文集》（DaEng-2013），675-682（2014）
[5]	Amini，A.，Wah，T.Y.，Saboohi，H.：关于基于密度的数据流聚类算法：一项调查。J.计算。科学。Technol公司。29(1), 116-141 (2014) ·doi:10.1007/s11390-014-1416-y
[6]	Anagostopoulos，C.、Tasoulis，D.K.、Adams，N.M.、Pavlidis，N.G.、Hand，D.J.：在线线性和二次判别分析，用于流分类。统计分析。数据最小值5（2），139-166（2012）·Zbl 07260320号 ·doi:10.1002/sam.10151
[7]	Ankerst，M.、Breunig，M.，Kriegel，H.P.、Sander，J.：OPTICS：确定聚类结构的排序点。摘自：ACM Sigmod会议记录，第49-60页（1999）
[8]	Artac，M、Jogan，M和Leonardis，A：在线视觉学习和识别的增量PCA。摘自：《第十六届模式识别国际会议论文集》，第3卷，第781-784页（2002年）·Zbl 1200.62034号
[9]	Azzalini，A.，Torelli，N.：通过非参数密度估计进行聚类。统计计算。17(1), 71-80 (2007). doi:10.1007/s11222-006-9010-y·doi:10.1007/s11222-006-9010-y
[10]	Babcock，B.，Babu，S.，Datar，M.，Motwani，R.，Widom，J.：数据流系统中的模型和问题。摘自：第二十一届ACM SIGMOD-SIGACT-SIGART数据库系统原理专题讨论会会议记录，第1-16页（2002年）·Zbl 1211.68134号
[11]	Bache，K.，Lichman，M.：UCI机器学习库。加州大学欧文分校信息与计算机科学学院。http://archive.ics.uci.edu/m
[12]	Boley，D.：主方向除法分割。最小已知数据。发现。2(4), 325-344 (1998) ·doi:10.1023/A:1009740529316
[13]	Campello，R.J.G.B.，Moulavi，D.，Zimek，A.，Sander，J.：从层次结构中半监督和非监督最优提取聚类的框架。最小已知数据。发现。27（3），344-371（2013）·Zbl 1281.68175号 ·doi:10.1007/s10618-013-0311-4
[14]	Cao，F.，Ester，M.，Qian，W.，Zhou，A.：带噪声的进化数据流上基于密度的聚类。摘自：2006年SIAM数据挖掘国际会议记录，第328-339页（2006）
[15]	Chen，Y.，Tu，L.：实时流数据的基于密度的聚类。摘自：第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集，第133-142页（2007）·Zbl 1281.68175号
[16]	Cuevas，A.、Febrero，M.、Fraiman，R.：聚类分析：基于密度估计的进一步方法。计算。统计数据分析。36(4), 441-459 (2001) ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473（00）00052-9
[17]	Cuevas，A.，Fraiman，R.：支持评估的插件方法。Ann.Stat.25（6），2300-2312（1997）·Zbl 0897.62034号 ·doi:10.1214/aos/1030741073
[18]	Ester，M.、Kriegel，H.P.、Sander，J.、Xu，X.：一种基于密度的算法，用于在带有噪声的大型空间数据库中发现簇。摘自：《第二届知识发现和数据挖掘国际会议论文集》，第226-231页（1996）
[19]	Guha，S.、Meyerson，A.、Mishra，N.、Motwani，R.、O'Callaghan，L.：聚类数据流：理论与实践。IEEE传输。知识。数据工程15（3），515-528（2003）·doi:10.1010/TKDE.2003.1198387
[20]	Hartigan，J.A.：聚类算法。概率与数理统计中的威利级数。威利，纽约（1975年）·Zbl 0372.62040号
[21]	Hartigan，P.M.：算法为217：计算倾角统计以测试单峰。J.R.Stat.Soc.34（3），320-325（1985）
[22]	Hartigan，J.A.，Haritigan，P.M.：单峰倾角测试。Ann.Stat.13（1），70-84（1985）·Zbl 0575.62045号 ·doi:10.1214/aos/1176346577
[23]	Hassani，M.，Kranen，P.，Saini，R.，Seidl，T.：子空间任意时间流聚类。摘自：《第26届国际科学与统计数据库管理会议论文集》，第37页（2014）·Zbl 0897.62034号
[24]	Hassani，M.、Spaus，P.、Gaber，M.M.、Seidl，T.：基于密度的数据流预测聚类。摘自：《第六届可扩展不确定性管理国际会议论文集》，第311-324页（2012年）
[25]	Haykin，S.：《神经网络：综合基础》。Prentice-Hall International，Upper Saddle River（1999年）·Zbl 0934.68076号
[26]	Jain，A.K.：数据聚类：超过K-means 50年。模式识别。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.parec.2009.0011
[27]	Jia，C.，Tan，C.，Yong，A.：一种用于处理数据流的基于网格和密度的聚类算法。In:国际遗传与进化计算会议（2008）·Zbl 1281.68175号
[28]	Kranen，P.，Assent，I.，Baldauf，C.，Seidl，T.：自适应任意时间流聚类。摘自：IEEE数据挖掘国际会议，第249-258页，doi:10.1109/ICDM.2009.47（2009）
[29]	Kranen，P.：流数据挖掘的任何时间算法。死亡论文。亚琛RWTH大学（2011）
[30]	Kriegel，H.P.，Kröger，P.，Zimek，A.：高维数据聚类：关于子空间聚类、基于模式的聚类和相关聚类的调查。知识。发现。数据。3(1), 1-58 (2009) ·数字对象标识代码：10.1145/1497577.1497578
[31]	Li，Y.，Xu，L.-Q.，Morphett，J.，Jacobs，R.：增量和鲁棒pca的集成算法。摘自：《国际图像处理会议记录》，第1期，第245-248页（2009年）
[32]	Menardi，G.，Azzalini，A.：通过非参数密度估计进行聚类的进展。统计计算。24(5), 753-767 (2014). 数字对象标识代码：10.1007/s11222-013-9400-x·Zbl 1322.62175号 ·数字对象标识代码：10.1007/s11222-013-9400-x
[33]	Müller，D.W.，Sawitzki，G.：多模态的过剩质量估计和测试。《美国统计协会期刊》86（415），738-746（1991）·Zbl 0733.62040号
[34]	Ntoutsi，I.、Zimek，A.、Palpanas，T.、Kröger，P.、Kriegel，H.P.：高维数据流上基于密度的投影聚类。摘自：《SiAM国际数据挖掘会议论文集》，第987-998页（2012年）
[35]	Pavlidis，N.G.，Tasoulis，D.K.，Adams，N.M.，Hand，D.J.：λ-感知器：数据流的自适应分类器。模式识别。44(1), 78-96 (2011) ·Zbl 1211.68134号 ·doi:10.1016/j.patcog.2010.07.026
[36]	Reynolds Jr，M.R.，Stoumbos，Z.G.：连续检查时监控比例的CUSUM图。J.资格。Technol公司。3(1), 87 (1999)
[37]	Rigollet，P.，Vert，R.：密度水平集插件估计的最佳速率。伯努利15（4），1154-1178（2009）·Zbl 1200.62034号 ·文件编号：10.3150/09-BEJ184
[38]	Rinaldo，A.，Wasserman，L.：广义密度聚类。《Ann.Stat.38》（5），2678-2722（2010）·Zbl 1200.62066号 ·doi:10.1214/10-AOS797
[39]	Rosenberg，A.，Hirschberg，J.：V度量：基于条件熵的外部聚类评估度量。摘自：2007年自然语言处理和计算自然语言学习实证方法联合会议记录，第410-420页（2007）
[40]	Scott，D.W.：《多元密度估计：理论、实践和可视化》，第383卷。John Wiley&Sons，纽约（2009）·兹比尔1311.62004
[41]	Silva，J.A.，Faria，E.R.，Barros，R.C.，Hruschka，E.R..，de Carvalho，A.C.P.L.F.，Gama，J.：数据流聚类：一项调查。ACM计算。Surv公司。46(1), 13:1-13:31 (2013) ·Zbl 1288.68200号 ·doi:10.1145/2522968.2522981
[42]	Stuetzle，W.：通过分析样本的最小生成树来估计密度的聚类树。J.分类。20(5), 25-47 (2003) ·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6
[43]	Stuetzle，W.，Nugent，R.：估算密度聚类树的广义单链接方法。J.计算。Gr.Stat.19（2），397-418（2010）·doi:10.1198/jcgs.2009.07049
[44]	Tasoulis，S.K.，Tasouli，D.K.，Plagianakos，V.：增强主方向分裂聚类。模式识别。43(10), 3391-3411 (2010) ·Zbl 1209.68489号 ·doi:10.1016/j.patcog.2010.05.025
[45]	SK塔苏利斯；丹麦塔苏利斯；副总裁Plagianakos；Maglogiannis，L.（编辑）；Vlahavas，L.（编辑），高维数据流的聚类，223-230（2012），柏林·doi:10.1007/978-3-642-30448-4_28
[46]	Vergara，A.、Vembu，S.、Ayhan，T.、Ryan，M.A.、Homer，M.L.、Huerta，R.：使用分类器集合的化学气体传感器漂移补偿。传感器执行器B 166、320-329（2012）·doi:10.1016/j.snb.2012.01.074
[47]	von Luxburg，U.：聚类稳定性。Now Publishers Inc，汉诺威（2010）·Zbl 1191.68615号
[48]	Weng，J.，Zhang，Y.，Hwang，W.S.：无协方差增量主成分分析。IEEE传输。模式分析。机器。智力。25(8), 1034-1040 (2003)
[49]	Zhang，T.，Ramakrishnan，R.，Livny，M.：BIRCH：一种适用于超大数据库的高效数据聚类方法。ACM SIGMOD Conf.25，103-114（1996）·doi:10.1145/235968.233324
[50]	Zhao，Y.，Karypis，G.：文档聚类的标准函数：实验和分析。机器。学习。42, 143-175 (2001) ·Zbl 0970.68167号 ·doi:10.1023/A:1007612920971

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

高维数据流的分簇。（英语） Zbl 1505.62189号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

高维数据流的分簇。 （英语） Zbl 1505.62189号

MSC公司：

关键词：

软件：

参考文献：

高维数据流的分簇。（英语） Zbl 1505.62189号