×

高维更快的平衡聚类。 (英语) Zbl 1455.68274号

摘要:在过去的几十年中,受限聚类问题引起了人们的极大关注。在本文中,我们研究了平衡的\(k)-中心、\(k)-中值和\(k)-均值聚类问题,其中每个聚类的大小都受到给定的上下限的约束。这些问题是由处理高维大规模数据的应用引起的。现有的方法往往需要计算复杂的匹配(或最小费用流)来满足平衡约束,因此具有很高的复杂性,特别是在高维情况下。我们为三个平衡聚类问题开发了一个有效的框架来解决这个问题,我们的方法基于一种新的几何空间划分思想。对于平衡(k)中心聚类,我们提供了一种改进现有近似因子的4近似算法;对于平衡的\(k\)-中值和\(k\)-均值聚类,我们的算法产生常数和\(1+\ε)-近似因子,其中任何\(\ε>0\)。更重要的是,当(k)为常数时,我们的算法实现了线性或近似线性的运行时间,并且显著改进了现有的算法。我们的结果可以很容易地推广到度量平衡聚类,并且运行时间在(n)点度量的复杂性方面是次线性的。

MSC公司:

68周25 近似算法
62H30型 分类和区分;聚类分析(统计方面)
68单位05 计算机图形;计算几何(数字和算法方面)
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,G。;帕尼格拉希,R。;费德,T。;托马斯·D·。;肯塔帕迪,K。;库勒,S。;朱,A.,《通过聚类实现匿名性》,ACM Trans。算法,6,3,49(2010)·Zbl 1300.68023号
[2] 艾哈迈迪安,S。;Swamy,C.,《改善下限设施位置的近似保证》,(近似和在线算法——第十届国际研讨会。近似和在线计算——第十期国际研讨会,2012年WAOA,斯洛文尼亚卢布尔雅那,2012年9月13日至14日(2012)),257-271,修订论文集·Zbl 1395.68332号
[3] 艾哈迈迪安,S。;Swamy,C.,《具有下限和离群值的聚类问题的近似算法》,(第43届国际自动化、语言和编程学术讨论会。第43届自动化、语言与编程国际学术讨论会,ICALP 2016年7月11日至15日,意大利罗马(2016)),第69页·Zbl 1395.90172号
[4] 安,H.-C。;Bhaskara,A。;Chekuri,C。;古普塔,S。;马丹,V。;Svensson,O.,容量受限k k中心的树中心,数学。程序。,154,1-2,29-53(2015)·Zbl 1337.90036号
[5] Arora,S。;Raghavan,P。;Rao,S.,欧几里德k-中位数近似方案及相关问题,(第三十届ACM计算理论年会论文集(1998),ACM),106-113·兹比尔1027.68979
[6] Arya,V。;Garg,北。;坎德卡尔,R。;Meyerson,A。;穆纳加拉,K。;Pandit,V.,《k-median和设施位置问题的局部搜索启发法》,SIAM J.Compute。,33, 3, 544-562 (2004) ·兹比尔1105.68118
[7] 阿瓦西,P。;Charikar,M。;Krishnaswamy,R。;Sinop,A.K.,《欧几里德K均值逼近的硬度》,(第31届国际计算几何研讨会,第31届计算几何国际研讨会,2015年6月22日至25日,荷兰埃因霍温(2015)),754-767·Zbl 1378.68048号
[8] 艾丁,K。;巴蒂尼,M。;Mirrorkni,V.,《通过线性嵌入实现分布式平衡分区》,(第九届ACM网络搜索和数据挖掘国际会议论文集(2016),ACM),387-396
[9] 巴多尤,M。;Clarkson,K.L.,小球的较小核集,(ACM-SIAM离散算法研讨会论文集(2003)),801-802·Zbl 1092.68660号
[10] 巴多尤,M。;Har-Peled,S。;Indyk,P.,通过核心集的近似聚类,(ACM计算理论研讨会论文集(STOC)(2002)),250-257·Zbl 1192.68871号
[11] 班纳吉,A。;Ghosh,J.,带平衡约束的可扩展聚类算法,Data Min.Knowl。发现。,13, 3, 365-395 (2006)
[12] 巴里兰,J。;Kortsarz,G。;Peleg,D.,《如何分配网络中心》,J.Algorithms,15,3,385-415(1993)·兹比尔0784.68012
[13] 巴蒂尼,M。;Bhaskara,A。;Lattanzi,S。;Mirrokni,V.,通过映射核心集的分布式平衡聚类,(神经信息处理系统进展(2014)),2591-2599
[14] Bhattacharya,A。;Jaiswal,R。;Kumar,A.,约束k-means问题的更快算法,理论计算。系统。,62, 1, 93-115 (2018) ·兹比尔1387.68296
[15] 博格沃德,S。;Brieden,A。;Gritzmann,P.,平衡加权点集的基于lp的k-means算法,欧洲期刊Oper。第263、2349-355号决议(2017年)·Zbl 1381.62154号
[16] Byrka,J。;潘西尔,T。;Rybicki,B。;Srinivasan,A。;Trinh,K.,预算优化中K中值和正相关性的改进近似,ACM Trans。算法,13,2,23(2017)·Zbl 1454.90069号
[17] Charikar,M。;Guha,S.,设施选址问题的改进组合算法,SIAM J.Compute。,34, 4, 803-824 (2005) ·Zbl 1075.68100号
[18] Chen,K.,关于度量空间和欧氏空间中K-中值和K-均值聚类的核集及其应用,SIAM J.Compute。,39, 3, 923-947 (2009) ·Zbl 1192.68880号
[19] 科恩·阿达德,V。;克莱因,P.N。;Mathieu,C.,局部搜索产生欧几里德和无米氏度量中k均值和k中值的近似方案,(计算机科学基础(FOCS),2016年IEEE第57届年会(2016年),IEEE),353-364
[20] Cygan,M。;哈加伊,M。;Khuller,S.,非均匀硬容量k中心Lp舍入,(计算机科学基础(FOCS),2012年IEEE第53届年会(2012年),IEEE),273-282
[21] Dasgupta,S.,《k-means聚类的硬度》(2008),技术报告
[22] Dick,T。;李,M。;Pillutla,V.K。;白色,C。;北巴尔干。;Smola,A.,分布式学习的数据驱动资源分配,(人工智能与统计(2017)),662-671
[23] Ding,H.,当k为常数时的平衡k中心聚类,(第29届加拿大计算几何会议论文集。第29届加拿大人计算几何会议文献集,2017年7月26日至28日,2017(2017),卡尔顿大学:加拿大安大略省渥太华卡尔顿大学),179-184
[24] 丁·H。;胡,L。;黄,L。;Li,J.,带双边边界和离群值的电容中心问题,(算法和数据结构研讨会(2017),Springer),325-336·Zbl 1454.68179号
[25] 丁·H。;Xu,J.,无局部性的聚类约束数据的统一框架,(第二十六届ACM-SIAM离散算法年度研讨会论文集。第二十六届ACM-SIAM离散算法年度研讨会论文集,SODA 2015,美国加利福尼亚州圣地亚哥,2015年1月4-6日(2015)),1471-1490·Zbl 1371.68291号
[26] Edelsbrunner,H。;Valtr,P。;Welzl,E.,将稠密点集切成两半,离散计算。地理。,17243-255(1997年)·Zbl 0870.68153号
[27] Ene,A。;Har-Peled,S。;Raichel,B.,《具有下限的快速集群:没有客户太远,没有店铺太小》(2013),arXiv预印本
[28] J.埃里克森,课程讲座:最大流的延伸。
[29] 埃斯凡迪亚里,H。;Mirrorkni,V.S。;Zhong,P.,流媒体均衡集群(2019),CoRR
[30] 费尔德曼,D。;Langberg,M.,《近似和聚类数据的统一框架》,(第四十三届ACM计算理论研讨会论文集(2011),ACM),569-578·Zbl 1288.90046号
[31] 弗里格斯塔德,Z。;Rezapour,M。;Salavatipour,M.R.,《局部搜索生成加倍度量中k均值的PTAS》,(计算机科学基础(FOCS),2016年IEEE第57届年会,2016年,IEEE),365-374
[32] Gonzalez,T.F.,最小化最大簇间距离的聚类,Theor。计算。科学。,38, 293-306 (1985) ·Zbl 0567.62048号
[33] 古鲁斯瓦米,V。;Indyk,P.,《几何问题的嵌入和非逼近性》,(第十四届ACM-SIAM离散算法年会论文集(2003),工业和应用数学学会),537-538·Zbl 1092.68690号
[34] Hochbaum,D.S。;Shmoys,D.B.,《k中心问题的最佳启发式数学》。操作。研究,10,2,180-184(1985)·Zbl 0565.90015号
[35] Indyk,P.,度量空间问题的次线性时间算法,(第三十一届ACM计算理论年会论文集(1999),ACM),428-434·Zbl 1346.68256号
[36] Indyk,P。;Motwani,R。;Venkatasubramanian,S.,《噪声下的几何匹配:组合边界和算法》,(第十届ACM-SIAM离散算法年会论文集(1999),工业和应用数学学会),457-465·Zbl 0934.68108号
[37] Jain,A.K.,《数据聚类:超越K-means的50年》,模式识别。莱特。,31, 8, 651-666 (2010)
[38] Jain,K。;Vazirani,V.V.,使用原始对偶模式和拉格朗日松弛的度量设施位置和k-中值问题的近似算法,J.ACM,48,2274-296(2001)·Zbl 1138.90417号
[39] Jaiswal,R。;库马尔,A。;Sen,S.,《k均值和其他聚类问题的基于简单d 2抽样的PTAS》,《算法》,70,1,22-46(2014)·Zbl 1364.68369号
[40] Jaiswal,R。;库马尔,M。;Yadav,P.,针对k均值和其他聚类问题的基于d2采样的PTAS的改进分析,Inf.Process。莱特。,115, 2, 100-103 (2015) ·Zbl 1302.68341号
[41] Jaiswal,R。;Sen,S.,近似聚类,(近似算法和元启发式手册(2018),Chapman和Hall/CRC),169-186
[42] Kanungo,T。;芒特,D.M。;内塔尼亚胡,新南威尔士州。;Piatko,C.D。;西尔弗曼,R。;Wu,A.Y.,k均值聚类的局部搜索近似算法,计算。地理。,28, 2-3, 89-112 (2004) ·Zbl 1077.68109号
[43] 库勒,S。;Sussmann,Y.J.,电容约束的k中心问题,SIAM J.离散数学。,13, 3, 403-418 (2000) ·Zbl 0947.05073号
[44] 科丘马卡,T。;Cygan,M.,带离群值的电容约束k中心的常数因子近似(2014),arXiv预印本·Zbl 1359.90056号
[45] 科利奥普洛斯,S.G。;Rao,S.,欧氏k-中值问题的近似线性时间近似方案,SIAM J.Compute。,37, 3, 757-782 (2007) ·Zbl 1144.68052号
[46] Kuehn,A.A。;M.J.Hamburger,《仓库选址启发式程序》,马纳。科学。,9, 4, 643-666 (1963)
[47] 库马尔,A。;萨巴沃尔,Y。;Sen,S.,《任何维聚类问题的线性时间近似方案》,J.ACM,57,2,5(2010)·Zbl 1327.68334号
[48] Li,S.,关于超越自然LP松弛的均匀电容限制k中值,ACM Trans。算法,13,2,22(2017)·Zbl 1451.90089
[49] 李,S。;Svensson,O.,通过伪逼近逼近k中值,SIAM J.Compute。,45,2530-547(2016)·Zbl 1338.90346号
[50] Lin,W。;何,Z。;Xiao,M.,平衡聚类:一种统一模型和快速算法,(Kraus,S.,《第二十八届国际人工智能联合会议论文集》,2019年8月10日至16日,中国澳门,2019),2987-2993
[51] Mahajan,M。;Nimbhorkar,P。;Varadarajan,K.,平面K-means问题是NP-hard,Theor。计算。科学。,442,13-21(2012)·Zbl 1260.68158号
[52] 马里兰州马利宁。;Fránti,P.,用于聚类的平衡k-means,(IAPR模式识别(SPR)和结构与句法模式识别(SSPR)统计技术联合国际研讨会(2014),Springer),32-41
[53] Manne,A.S.,《规模经济下的工厂位置——分散和计算》,管理。科学。,11, 2, 213-235 (1964)
[54] 北米吉多。;Supowit,K.J.,关于一些常见几何位置问题的复杂性,SIAM J.Compute。,13, 1, 182-196 (1984) ·Zbl 0534.68032号
[55] Orlin,J.B.,Max flows in o(nm)time,or better,(第四十五届ACM计算理论研讨会论文集(2013),ACM),765-774·Zbl 1293.05151号
[56] Rösner,C。;Schmidt,M.,《带约束的隐私保护集群》,(第45届国际自动化、语言和编程学术讨论会。第45届自动、语言和程序国际学术讨论会,2018年7月9日至13日,捷克共和国布拉格(2018)),第96条,pp·Zbl 1499.90117号
[57] Vapnik,V。;Bottou,L.,模式识别和相关性估计的局部算法,神经计算。,5, 6, 893-909 (1993)
[58] A.Vattani,平面上k-均值聚类的硬度·Zbl 1380.68204号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。