×

度量\(k\)-仅插入流中的中值聚类。 (英语) Zbl 1523.68173号

摘要:我们使用(O(varepsilon^{-3}k\logn)空间给出了仅插入流上度量中值问题的低常数近似。特别地,我们提出了一个报告簇权重的流((O(varepsilon^{-3}k\logn),2+varepsilen)-双标准解决方案。由于以下原因,运行离线近似算法J.拜尔卡等[SODA 2015,737–756(2015;Zbl 1371.90073号)]在这个双标准溶液上,得到了(17.66+varepsilon)-近似[S.Guha公司等,IEEE Trans。知识。Data Eng.15,No.3,515–528(2003;doi:10.1109/TKDE.2003.1198387);M.Charikar先生等人,STOC 2003,30–39(2003;Zbl 1192.68350号);V.勇敢者等,SODA 2011,26-40(2011;Zbl 1375.68212号)]。我们的结果符合流式\(k\)-中值聚类最著名的空间要求,同时显著提高了近似精度。我们还提供了一个下界,表明任何维护((alpha,beta)-双标准的(operatorname{polylog}(n))-空间流算法必须具有(beta\geq 2)。我们的技术将数据流分成由最优聚类成本的跳跃所定义的段,随着数据流的进展,最优聚类成本单调增加。通过存储流的最近段的精确摘要和旧段的低空间摘要,我们的算法为整个流保持了一个\(O(\varepsilon^{-3}k\logn),2+\varepsilon)\)-双标准解。除了我们的主要结果之外,我们还引入了一种新的结构,我们称之为候选集这是一组点的集合,这些点很有可能包含产生接近最佳(k)中值成本的(k)点。我们提出了一种称为单调远距采样(MFS)的算法,用于在数据流上的单程中构造候选集。我们表明,在数据流终止时,将该候选集与核心集结合使用可以加快对“(k)集群中心”解决方案集的搜索。虽然已知渐近规模较小的核集,但MFS的相对简单性使其作为一种实用技术具有吸引力。

MSC公司:

68周27 在线算法;流式算法
62H30型 分类和区分;聚类分析(统计方面)
68单位05 计算机图形;计算几何(数字和算法方面)
68周25 近似算法
68瓦40 算法分析
90B80型 离散位置和分配
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arya,V。;加格,N。;坎德卡尔,R。;Meyerson,A。;穆纳加拉,K。;Pandit,V.,《(k)-中值和设施位置问题的局部搜索启发式算法》,SIAM J.Compute。,33, 3, 544-562 (2004) ·Zbl 1105.68118号
[2] 巴多尤,M。;Har-Peled,S。;Indyk,P.,通过核心集的近似聚类,(第三十四届ACM计算理论研讨会论文集,STOC'02(2002),ACM:ACM纽约,纽约,美国),250-257,URLhttp://doi.acm.org/10.1145/509907.509947 ·Zbl 1192.68871号
[3] Bentley,J.L。;Saxe,J.B.,可分解搜索问题I.静态到动态转换,J.算法,1,4,301-358(1980),URLhttp://www.sciencedirect.com/science/article/pii/0196677480900152 ·Zbl 0461.68065号
[4] Braverman,V。;Meyerson,A。;奥斯特罗夫斯基,R。;罗伊特曼,A。;Shindler,M。;Tagiku,B.,《良好聚类数据上的流K-means》,(第二十二届ACM-SIAM离散算法年会论文集,SODA’11(2011),SIAM),26-40,http://dl.acm.org/citation.cfm?id=2133036.2133039 ·Zbl 1375.68212号
[5] 伯里,M。;Schwiegelshohn,C.,k-means的随机预测:在合并和减少之外维护核心集(2015),CoRR abs/1504.01584,URLhttp://arxiv.org/abs/1504.01584
[6] Byrka,J。;Pensyl,T。;Rybicki,B。;Srinivasan,A。;Trinh,K.,《K中值的改进近似和预算优化中的正相关性》,(第二十六届ACM-SIAM离散算法年会论文集,SODA’15(2015),SIAM),737-756,URLhttp://dl.acm.org/citation.cfm?id=2722129.2722179 ·Zbl 1371.90073号
[7] Charikar,M。;O'Callaghan,L。;Panigrahy,R.,《聚类问题的更好流式算法》,(第三十五届ACM计算理论研讨会论文集,STOC'03(2003),ACM:ACM纽约,纽约,美国),30-39,URLhttp://doi.acm.org/10.1145/780542.780548 ·Zbl 1192.68350号
[8] Chen,K.,关于度量空间和欧氏空间中(K)-中值和(K)–均值聚类的核集及其应用,SIAM J.Compute。,39、3、923-947(2009),网址http://dx.doi.org/10.1137/070699007 ·Zbl 1192.68880号
[9] 费尔德曼,D。;Langberg,M.,《近似和聚类数据的统一框架》(第四十三届ACM计算理论研讨会论文集,STOC’11(2011),ACM:ACM纽约,纽约,美国),569-578,URLhttp://doi.acm.org/10.1145/1993636.1993712 ·Zbl 1288.90046号
[10] H.Fichtenberger,M.Gillé,M.Schmidt,C.Schwiegelshohn,C.Sohler,BICO:BIRCH满足k-means聚类的核心集,in:算法-ESA 2013-第21届欧洲年会,法国索菲亚·安蒂波利斯,2013年9月2-4日。《会议记录》,2013年,第481-492页,http://dx.doi.org/10.1007/978-3642-40450-4_41,URLhttp://dx.doi.org/10.1007/978-3642-40450-4_41。 ·Zbl 1395.68360号
[11] Guha,S.,聚类和总结数据流的紧密结果,(第12届数据库理论国际会议论文集,2009年ICDT,ACM:ACM纽约,纽约,美国),268-275,URLhttp://doi.acm.org/10.1145/1514894.1514926
[12] Guha,S。;Meyerson,A。;米什拉,N。;Motwani,R。;O'Callaghan,L.,《聚类数据流:理论与实践》,IEEE Trans。知识。数据工程,15,3,515-528(2003),URLhttp://dx.doi.org/10.1109/TKDE.2003.1198387
[13] Har-Peled,S。;Kushal,A.,k-中值和k-均值聚类的较小核集,离散计算。地理。,37、1、3-19(2007),网址http://dx.doi.org/10.1007/s00454-006-1271-x ·Zbl 1106.68112号
[14] S.Har-Peled,S.Mazumdar,(k)均值和(k)中值聚类的核心集及其应用,收录于:STOC 20042004,第291-300页·兹比尔1192.68904
[15] Meyerson,A.,在线设施位置,(第42届IEEE计算机科学基础研讨会论文集,FOCS’01(2001),IEEE计算机学会:IEEE计算机协会,华盛顿特区,美国),426-
[16] Shindler,M。;Wong,A。;Meyerson,A.W.,《大数据集的快速准确k均值》(Shawe-Taylor,J.;Zemel,R.;Bartlett,P.;Pereira,F.;Weinberger,k.,《神经信息处理系统的进展》24(2011),Curran Associates,Inc.),2375-2383,http://papers.nips.cc/paper/4362-fast-and-accurate-k-means-for-large-datasets.pdf
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。