×

(k)-机器模型中的近最优聚类。 (英语) Zbl 1515.68355号

摘要:聚类问题它有许多变体,在运筹学和计算机科学中有许多应用(例如,在生物信息学、图像处理、社会网络分析等方面的应用)。随着数据集规模的迅速增长,研究人员将重点放在为适合大规模计算的计算模型(如MapReduce、Pregel和流模型)中的聚类问题设计算法上。这个\(k\)-机器型号[H.克劳克等,SODA 2015,391-410(2015;Zbl 1371.68214号)]是用于大规模分布式图形处理的简单消息传递模型。本文考虑了集群问题的三个最突出的例子:无容量设施位置问题\(p\)-中位数问题,以及\(p\)-中心并针对在(k)-机器模型中运行的(widetilde{O}(n/k))轮中的这些问题提出了(O(1)-因子近似算法。这些算法在多对数因子下是最优的,因为本文还显示了获得这些问题的多项式系数近似算法的下界。这些是\(k \)-机器模型中集群问题的第一个结果。
我们假设,作为这些聚类问题的输入提供的度量只是隐式提供的,作为一个边加权图,简而言之,我们的主要技术贡献是表明,所有三个聚类问题的常数近似算法都可以通过只学习输入度量的一小部分来获得。

MSC公司:

68宽15 分布式算法
62H30型 分类和区分;聚类分析(统计方面)
68兰特 计算机科学中的图论(包括图形绘制)
68周25 近似算法
90B80型 离散位置和分配
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bandyapadhyay,S。;Inamdar,T。;Pai,S。;Pemmaraju,S.V.,k-machine模型中的近最优聚类,(《第19届分布式计算和网络国际会议论文集》,第19届国际分布式计算与网络会议论文集,2018年,印度瓦拉纳西,2018年1月4日至7日(2018)),第15条,pp。
[2] 埃内,A。;我,S。;Moseley,B.,《使用MapReduce快速聚类》,(第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集。第17届AC M SIGKDD国际知识发现与数据挖掘会议文献集,KDD’11,ACM,纽约州纽约市,美国(2011)),681-689
[3] 加里梅拉,K。;De Francisci Morales,G。;Gionis,A。;Sozio,M.,类预凝胶系统上大规模图形的可缩放设施位置,(第24届ACM国际信息与知识管理会议论文集。第24届AC国际信息和知识管理会议文献集,CIKM’15,美国纽约州纽约市ACM(2015)),273-282
[4] 迪恩,J。;Ghemawat,S.,MapReduce:一种灵活的数据处理工具,Commun。ACM,53,1,72-77(2010),ISSN 0001-0782
[5] Malewicz,G。;奥斯汀,M.H。;Bik,A.J。;Dehnert,J.C。;喇叭,I。;Leiser,N。;Czajkowski,G.,Pregel:大型图形处理系统,(2010年ACM SIGMOD国际数据管理会议论文集。2010年ACM-SIGMOD-国际数据管理大会论文集,SIGMOD'10,ACM,美国纽约州纽约市(2010)),135-146
[6] 席尔瓦,J.A。;Faria,E.R。;巴罗斯,R.C。;赫鲁晓卡,E.R。;de Carvalho,A.C.P.L.F;Gama,J.,《数据流聚类:调查》,ACM Compute。调查。,46,1,第13条pp.(2013),ISSN 0360-0300·Zbl 1288.68200号
[7] Alon,N。;马蒂亚斯,Y。;Szegedy,M.,《近似频率矩的空间复杂性》,(第二十八届ACM计算理论研讨会论文集。第二十八届美国计算机学会计算理论研讨会文献集,STOC’96,美国纽约州纽约市ACM(1996)),20-29·Zbl 0922.68057号
[8] 克劳克,H。;Nanongkai,D。;潘杜兰根,G。;Robinson,P.,大规模图形问题的分布式计算,(第二十六届ACM-SIAM年度离散算法研讨会论文集。第二十六届ADAM-SIAM年度离散算法会议论文集,SODA’15,美国宾夕法尼亚州费城(2015),工业与应用数学学会),391-410·Zbl 1371.68214号
[9] Ching,A。;Edunov,S。;卡比尔霍,M。;Logothetis,D。;Muthukrishnan,S.,《一万亿边:Facebook-scale的图形处理》,Proc。荷兰VLDB。,8, 12, 1804-1815 (2015)
[10] Guha,S。;Khuller,S.,《贪婪反击:改进的设施定位算法》,(第九届ACM-SIAM离散算法研讨会论文集。第九届年度ACM-SIAM离散算法研讨会文献集,SODA'98,费城,宾夕法尼亚州,美国(1998),工业和应用数学学会),649-657·Zbl 0936.68114号
[11] Jain,K。;Vazirani,V.V.,使用原对偶模式和拉格朗日松弛的度量设施位置和k中值问题的近似算法,J.ACM,48,2,274-296(2001),ISSN 0004-5411·Zbl 1138.90417号
[12] 梅图,R.R。;Plaxton,C.G.,《在线中值问题》,SIAM J.Compute。,32, 3, 816-832 (2003) ·Zbl 1128.90550号
[13] Li,S.,无容量设施选址问题的1.488近似算法,(第38届国际自动化会议论文集,语言与编程——第二卷。第38届自动控制国际会议论文集:语言与编程第二卷,ICALP’11(2011),斯普林格·弗拉格:柏林斯普林格尔·弗拉格,海德堡),77-88·Zbl 1334.68301号
[14] Jain,K。;马赫迪安,M。;Saberi,A.,《设施选址问题的一种新贪婪方法》,(第三十四届ACM计算理论研讨会论文集。第三十四年度ACM计算原理研讨会论文集,STOC'02,美国纽约州纽约市ACM(2002)),731-740·Zbl 1192.90106号
[15] Arya,V。;加格,N。;坎德卡尔,R。;Meyerson,A。;穆纳加拉,K。;Pandit,V.,K-median和设施位置问题的局部搜索启发式,(第三十三届ACM计算理论研讨会论文集。第三十三次ACM计算原理研讨会论文集,STOC'01,ACM,美国纽约州纽约市(2001)),21-29·Zbl 1323.90031号
[16] Gonzalez,T.F.,最小化最大簇间距离的聚类,Theor。计算。科学。,38, 293-306 (1985) ·Zbl 0567.62048号
[17] Thorup,M.,《稀疏图的快速k-median、k-center和设施位置》,SIAM J.Compute。,34、2、405-432(2005),ISSN 0097-5397·Zbl 1099.68136号
[18] Cohen,E.,具有传递闭包和可达性应用的规模估计框架,J.Compute。系统。科学。,55、3、441-453(1997),ISSN 00220000·兹比尔0897.68075
[19] Cohen,E.,《全方位草图》,重温:大规模图形分析的HIP估计值,IEEE Trans。知识。数据工程,27,9,2320-2334(2015),ISSN 10414347
[20] 贝克尔,R。;Karrenbauer,A。;Kringinger,S。;Lenzen,C.,通过梯度下降的近似无向转运和最短路径,CoRR
[21] Inamdar,T。;Pai,S。;Pemmaraju,S.V.,《具有离群值的设施选址的大规模分布式算法》,(第22届分布式系统原理国际会议,第22届国际分布式系统原理会议,OPODIS 2018,2018年12月17-19日,中国香港(2018)),第5条,pp。
[22] Charikar,M。;库勒,S。;Mount,D.M。;Narasimhan,G.,《带离群值的设施选址问题的算法》,(第十二届ACM-SIAM离散算法年会论文集。第十二届ADAM-SIAM离散算法年会刊论文集,SODA'01,美国宾夕法尼亚州费城(2001),工业和应用数学学会),642-651·Zbl 1012.90026号
[23] 潘杜兰根,G。;罗宾逊,P。;Scquizzato,M.,分布式图形计算的紧边界,CoRR
[24] 潘杜拉根,G。;罗宾逊,P。;Scquizzato,M.,《大图中连通性和MST的快速分布式算法》,(第28届ACM算法和架构并行性研讨会论文集。第28届AMM算法和体系结构并行性研讨会文献集,SPAA’16,美国纽约州纽约市ACM(2016)),429-438
[25] 康拉德,C。;彭马拉州S.V。;Riaz,T。;Robinson,P.,《大规模图对称破缺的复杂性》,(第33届分布式计算国际研讨会。第33届分布计算国际研讨会,2019年10月14日至18日,匈牙利布达佩斯(2019)),第26条pp·Zbl 1515.68248号
[26] 卡洛夫,H。;苏里,S。;Vassilvitskii,S.,MapReduce的计算模型,(第二十届ACM-SIAM离散算法年会论文集。第二十届ADAM-SIAM离散算法年会刊论文集,SODA’10,美国宾夕法尼亚州费城(2010),工业与应用数学学会),938-948·Zbl 1288.68247号
[27] 雅罗斯拉夫采夫,G。;Vadapalli,A.,《(ell_{text{p}})距离下单链聚类的大规模并行算法和硬度》,(第35届机器学习国际会议论文集。第35届国际机器学习会议论文集,ICML 2018,Stockholmsmässan,瑞典斯德哥尔摩,2018年7月10日至15日(2018)), 5596-5605
[28] 加法里,M。;库恩,F。;Uitto,J.,分布式下限大规模并行计算的条件硬度结果,(第60届IEEE计算机科学基础年会。第60届EEE计算机科学基础年度会议,2019年FOCS 2019,美国马里兰州巴尔的摩,2019(2019)年11月9日至12日),1650-1663
[29] Chang,Y。;费舍尔,M。;加法里,M。;Uitto,J。;郑毅,拥挤团中(Δ+1)着色的复杂性,大规模并行计算,集中式局部计算,(2019年ACM分布式计算原理研讨会论文集。2019年分布式计算原理ACM研讨会论文集,2019年7月29日至8月2日,加拿大安大略省多伦多,2019),471-480·Zbl 07298712号
[30] 加法里,M。;Uitto,J.,稀疏化分布式算法及其在大规模并行计算和集中式局部计算中的分支,(第三十届年度ACM-SIAM离散算法研讨会论文集。第三十届ACM-SIAM离散算法研讨会会议论文集,SODA 2019,美国加利福尼亚州圣地亚哥,2019年1月6-9日(2019)),1636-1653·Zbl 1431.68133号
[31] 盖,T.M。;Thomas,J.A.,《信息理论的要素》,《通信和信号处理中的Wiley系列》(2006),Wiley-Interscience:Wiley-Interscience,美国纽约州纽约市·Zbl 1140.94001号
[32] 贝克尔,R。;卡伦鲍尔,A。;Kringinger,S。;Lenzen,C.,分布式和流模型中的近最优近似最短路径和转运,(Richa,A。第31届分布式计算国际研讨会。第31届分布式计算国际研讨会,DISC 2017,德国达格斯图尔-莱布尼茨-富尔信息学院。第31届分布式计算国际研讨会。第31届分布式计算国际研讨会,DISC 2017,Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik,Dagstull,Germany,Leibniz International Proceedings in Informatics(LIPIcs),第91卷(2017),第7条pp·Zbl 1515.68357号
[33] Hegeman,J.W。;潘杜拉根,G。;彭马拉州S.V。;Sardeshmukh,V.B。;Scquizzato,M.,《拥挤集团中的最优边界:图连通性和MST》,(2015年ACM分布式计算原理研讨会论文集。2015年ACM分布式计算原理会议论文集,PODC’15,ACM,美国纽约州纽约市(2015)),91-100·Zbl 1333.68211号
[34] Drucker,A。;库恩,F。;Oshman,R.,《拥挤集团模型的力量》,(2014年ACM分布式计算原理研讨会论文集。2014年ACM分布式计算原理会议论文集,PODC’14,美国纽约州纽约市ACM(2014)),367-376·Zbl 1321.68381号
[35] 审查员-希尔,K。;多莉,M。;Korhonen,J.H。;Leitersdorf,D.,《拥挤集团中的快速近似最短路径》,(2019年ACM分布式计算原理研讨会论文集。2019年AMC分布式计算原理会议论文集,2019年PODC 2019,加拿大安大略省多伦多,2019(2019)年7月29日至8月2日),74-83·Zbl 07298658号
[36] 多莉,M。;Parter,M.,拥挤集团中指数更快的最短路径,CoRR·Zbl 07323171号
[37] Hegeman,J.W。;Pemmaraju,S.V.,测量设施位置的次对数分布式算法,Distrib.Comput。,28、5、351-374(2015),ISSN 0178-2770·Zbl 1342.68350号
[38] 阿彻,A。;拉贾戈帕兰,R。;Shmoys,D.B.,《k中值问题的拉格朗日松弛:新见解和连续性》,(Di Battista,G.;Zwick,U.,《算法——ESA 2003:第11届欧洲年会论文集》,《算法》——ESA 2003:第11届欧洲年会论文集中,匈牙利布达佩斯,2003年9月16日至19日(2003),施普林格:施普林格-柏林-海德堡,柏林,海德堡),31-42·Zbl 1266.90117号
[39] Luby,M.,最大独立集的简单并行算法,SIAM J.Compute。,15, 1036-1053 (1986) ·Zbl 0619.68058号
[40] Afek,Y。;阿隆,N。;O.巴拉德。;霍恩斯坦,E。;北巴尔凯。;Bar-Joseph,Z.,《基本分布式计算问题的生物解决方案》,《科学》,331,6014,183-185(2011),ISSN 0036-8075·Zbl 1226.92001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。