×

本地搜索将生成“(k)-均值”的PTAS(加倍度量)。 (英语) Zbl 1422.68296号

摘要:几乎在每个科学分支中遇到的最著名、最普遍的聚类问题无疑是\(k\)-方法:给定一组数据点和一个参数,选择(k)中心并围绕这些中心将数据点划分为(k)簇,以使点到其簇中心距离的平方和最小化。通常,这些数据点位于欧几里德空间(mathbb{R}^d)中,用于某些(d\geq2)\(k\)-方法它的第一个算法是在20世纪50年代引入的。在过去的六十年里,数百篇论文对这个问题进行了研究,并提出了不同的算法。实践中最常用的算法是Lloyd-Forgy,也称为“(k)”-方法算法和它的各种扩展在实践中通常工作得很好。然而,它们可能会产生与最佳解决方案相比成本任意大的解决方案。T.卡农戈等【计算地质学28,No.2–3,89–112(2004;Zbl 1077.68109号)]分析了一个非常简单的局部搜索启发式算法,得到了一个多项式时间算法,该算法对于任何固定的\(ε>0\)对于\(k\)具有近似比\(9+\ε\)-方法在欧几里德空间中。寻找一种具有更好的最坏情况近似保证的算法一直是该领域中最大的开放性问题之一,特别是能否得到固定维欧氏空间的真正多项式时间近似方案(PTAS)。我们通过显示一个简单的局部搜索算法为\(k)提供了一个PTAS来解决这个问题-方法对于任何固定的\(d\)。更准确地说,对于任何错误参数\(\epsilon>0\),一次考虑最多\(\rho=d^{O(d)}\cdot\epsilon^{-O(d/\epsillon)}\)中心交换的本地搜索算法将使用确切地\(k)成本最多比最优解大(1+epsilon)-因子的中心。尽管该算法由于多项式运行时间长而不实用,但它解决了这一重要问题的逼近性。我们的分析很容易扩展到更一般的设置,在这些设置中,我们希望最小化数据点及其簇中心之间距离的q次方之和(而不是(k)中的距离平方和-方法)对于任何固定的(q\geq 1),度量可能不是欧几里得的,但仍然具有固定的加倍维数。最后,我们的技术还扩展到了其他经典的聚类问题。我们首次证明了本地搜索可以为无能力设施位置和\(k\)的推广-中值的以双倍的指标实现不均匀的开放成本。

理学硕士:

68周25 近似算法
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68单位05 计算机图形学;计算几何(数字和算法方面)

软件:

k平均值++
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] D.Aloise、A.Deshpande、P.Hansen和P.Popat,NP公司-欧氏平方和聚类的硬度,马赫。学习。,75(2009年),第245-248页·Zbl 1378.68047号
[2] S.Arora,欧氏旅行推销员和其他几何问题的多项式时间近似方案J.ACM,45(1998),第753-782页·Zbl 1064.90566号
[3] S.Arora、P.Raghavan和S.Rao,欧几里德K中值的逼近格式及相关问题,《第三十届ACM计算理论研讨会论文集》(STOC’98),ACM,纽约,1998年,第106-113页·Zbl 1027.68979号
[4] D.Arthur、B.Manthey和H.Ro¨glin,K-means方法的平滑分析,J.ACM,58(2011),19·Zbl 1281.68224号
[5] D.Arthur和S.Vassilvitskii,K-means方法的速度有多慢?,《第二十二届计算几何年度研讨会论文集》(SoCG’06),ACM,纽约,2006年,第144-153页·Zbl 1153.68385号
[6] D.Arthur和S.Vassilvitskii,K(K)-means++:仔细播种的优势,载于《第十八届ACM-SIAM离散算法年会论文集》(SODA'07),SIAM,费城,2007年,第1027-1035页·Zbl 1302.68273号
[7] V.Arya、N.Garg、R.Khandekar、A.Meyerson、K.Munagala和V.Pandit,K-median和设施选址问题的局部搜索启发式算法,《第三十三届ACM计算理论研讨会论文集》(STOC'01),ACM,纽约,2001年,第21-29页·兹比尔1323.90031
[8] V.Arya、N.Garg、R.Khandekar、A.Meyerson、K.Munagala和V.Pandit,K-median和设施选址问题的局部搜索启发式算法,SIAM J.计算。,33(2004年),第544-562页·Zbl 1105.68118号
[9] P.Awasthi、A.Blum和O.Sheffet,稳定性产生K-median和K-means聚类的PTAS,《2010年IEEE第51届计算机科学基础年会(FOCS’10)会议记录》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2010年,第309-318页。
[10] P.Awasthi、M.Charikar、R.Krishnaswamy和A.K.Sinop,欧氏k-均值逼近的困难,《第31届计算几何国际研讨会论文集》(SoCG’15),LIPIcs Leibniz Int.Proc。通知。,2015年,第754-767页·Zbl 1378.68048号
[11] M.Bādoiu、S.Har-Peled和P.Indyk,通过核心集进行近似聚类,《第三十四届ACM计算机理论研讨会论文集》(STOC'02),ACM,纽约,2002年,第250-257页·Zbl 1192.68871号
[12] S.Bandyapadhyay和K.Varadarajan,关于K-means聚类的变体,第32届国际计算几何研讨会论文集(SoCG’16),LIPIcs Leibniz Int.Proc。通知。,Dagstuhl-Leibniz-Zentron fuör Informatik修道院,德国达格斯图尔,2016年·Zbl 1387.68235号
[13] J.Bloömer、C.Lammersen、M.Schmidt和C.Sohler,K-means算法的理论分析——综述《算法工程》,瑞士查姆斯普林格,第81-116页。
[14] J.Byrka、T.Pensyl、B.Rybicki、A.Srinivasan和K.Trinh,预算优化中K-中值和正相关的改进近似,ACM变速器。算法,13(2017),23·Zbl 1454.90069号
[15] M.Charikar和S.Li,k-median问题的相关lp-rounding方法,摘自第39届国际自动化、语言和编程学术讨论会会议记录——第一卷,ICALP’12,柏林施普林格,2012年,第194-205页·Zbl 1272.90020号
[16] K.Chen,度量空间和欧几里得空间中K-中值和K-均值聚类的核集及其应用,SIAM J.计算。,39(2009),第923-947页·Zbl 1192.68880号
[17] V.Cohen-Addad、P.N.Klein和C.Mathieu,局部搜索产生欧氏和无次优度量中k均值和k中值的近似方案,在IEEE第57届计算机科学基础年度研讨会上,FOCS 2016,新泽西州新不伦瑞克,IEEE皮斯卡塔韦,新泽西州,2016,第353-364页。
[18] V.Cohen-Addad、P.N.Klein和C.Mathieu,本地搜索对集群的强大功能,预印本,CoRR,abs/1603.095352016。
[19] V.Cohen-Addad和C.Mathieu,几何优化局部搜索的有效性,《第31届国际计算几何研讨会论文集》(SoCG’15),LIPIcs Leibniz Int.Proc。通知。,Dagstuhl-Leibniz-Zentron fuör Informatik宫,德国达格斯图尔,2015年,第329-344页·Zbl 1378.68167号
[20] S.Dasgupta,K的意思是多快?,《第16届学习理论年会和第7届内核研讨会论文集》(COLT/Kernel’03),柏林斯普林格,2003年,第735页。
[21] W.Fernandez de la Vega、M.Karpinski、C.Kenyon和Y.Rabani,聚类问题的近似方案,《第三十五届ACM计算理论研讨会论文集》(STOC'03),ACM,纽约,2003年,第50-58页·Zbl 1192.68894号
[22] P.D’haeseler,基因表达聚类是如何工作的?《自然生物技术》,23(2005),第1499-1502页。
[23] P.Drineas、A.Frieze、R.Kannan、S.Vempala和V.Vinay,基于奇异值分解的大型图聚类,马赫。学习。,56(2004),第9-33页·Zbl 1089.68090号
[24] J.Fakcharoenphol、S.Rao和K.Talwar,用树度量逼近任意度量的一个紧界,载于《美国计算机学会第三十五届年度计算理论研讨会论文集》(STOC'03),美国计算机学会,纽约,2003年,第448-455页·Zbl 1192.68977号
[25] D.Feldman、M.Monemizadeh和C.Sohler,基于弱核集的K-means聚类的PTAS,《第二十届计算几何年度研讨会论文集》(SoCG’07),SoCG‘07,ACM,纽约,2007年,第11-18页·Zbl 1209.68639号
[26] D.Feldman、M.Schmidt和C.Sohler,将大数据转化为小数据:K-means、PCA和投影聚类的恒定大小核心集,《第二十四届ACM-SIAM离散算法研讨会论文集》(SODA’13),SIAM,费城,2013年,第1434-1453页·Zbl 1421.68219号
[27] Z.Friggstad、M.Rezapour和M.R.Salavatipour,局部搜索为加倍度量中的k均值生成PTAS,在IEEE第57届计算机科学基础年度研讨会上,FOCS 20162016,新泽西州新不伦瑞克,IEEE,新泽西州皮斯卡塔韦,2016,第365-374页·Zbl 1422.68296号
[28] Z.Friggstad、M.Rezapour和M.R.Salavatipour,局部搜索产生加倍度量中k均值的PTAS,CoRR,abs/1603.089762016年·Zbl 1422.68296号
[29] A.Gupta和T.Tangwongsan,设施选址局部搜索算法的简单分析,预印本,arXiv:0809.25542008。
[30] S.Har-Peled和A.Kushal,K-median和K-means聚类的较小核集,《第二十届计算几何年度研讨会论文集》(SoCG'05),ACM,纽约,2005年,第126-134页·Zbl 1380.68398号
[31] S.Har-Peled和S.Mazumdar,关于K-means和K-median聚类的核集,《第三十六届ACM计算理论研讨会论文集》(STOC'04),ACM,纽约,2004年,第291-300页·Zbl 1192.68904号
[32] S.Har-Peled和B.Sadri,K-means方法有多快?《算法》,41(2005),第185-202页·Zbl 1069.68108号
[33] M.Hofree、J.P.Shen、H.Carter、A.Gross和T.Ideker,基于网络的肿瘤突变分层《自然方法》,10(2013),第1108-1115页。
[34] M.Inaba、N.Katoh和H.Imai,加权Voronoi图和随机化在基于方差的K聚类中的应用,载于《第十届计算几何年度研讨会论文集》(SoCG'94),美国计算机学会,纽约,1994年,第332-339页。
[35] A.K.Jain,数据聚类:超过K-means 50年,模式识别。莱特。,31(2010年),第651-666页。
[36] T.Kanungo、D.M.Mount、N.S.Netanyahu、C.D.Piatko、R.Silverman和A.Y.Wu,K-means聚类的局部搜索近似算法,计算。地理。,28(2004),第89-112页·Zbl 1077.68109号
[37] S.G.Kolliopoulos和S.Rao,欧氏kappa-median问题的近似线性时间近似格式《第七届欧洲算法年会论文集》(ESA’99),柏林斯普林格,1999年,第378-389页。
[38] A.Kumar和R.Kannan,谱范数聚类与K-means算法,《2010年IEEE第51届计算机科学基础年会(FOCS’10)会议记录》,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2010年,第299-308页。
[39] A.Kumar、Y.Sabharwal和S.Sen,任意维K-means聚类的简单线性时间近似算法,第45届IEEE计算机科学基础年会论文集(FOCS’04),IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2004年,第454-462页。
[40] A.Kumar、Y.Sabharwal和S.Sen,任意维聚类问题的线性时间近似格式,J.ACM,57(2010),5·Zbl 1327.68334号
[41] M.Langberg和L.J.Schulman,积分的通用逼近器,《第二十届ACM-SIAM离散算法年会论文集》(SODA'10),SIAM,费城,2010年,第598-607页·Zbl 1288.68142号
[42] S.Li,无容量设施选址问题的1.488近似,《第38届国际自动化、语言和编程年会(ICALP’11)会议记录》,纽约斯普林格,2011年,第45-58页·Zbl 1281.68236号
[43] S.Li和O.Svensson,基于伪逼近的K中值逼近,《第四十五届ACM计算机理论研讨会论文集》(STOC’13),ACM,纽约,2013年,第901-910页·Zbl 1293.90061号
[44] S.Lloyd,PCM中的最小二乘量化,IEEE传输。通知。《理论》,28(1982),第129-137页·Zbl 0504.94015号
[45] M.Mahajan、P.Nimbhorkar和K.Varadarajan,平面K-means问题是NP-hard《第三届算法与计算国际研讨会论文集》(WALCOM’09),柏林施普林格,2009年,第274-285页·Zbl 1211.68212号
[46] J.Matoušek,关于近似几何k聚类,离散计算。地理。,24(2000),第61-84页·Zbl 0959.68126号
[47] R.Ostrovsky和Y.Rabani,多项式的-几何最小和中值聚类的时间近似方案,J.ACM,49(2002),第139-156页·Zbl 1323.68574号
[48] R.Ostrovsky、Y.Rabani、L.J.Schulman和C.Swamy,Lloyd型方法对K-means问题的有效性,J.ACM,59(2013),28·Zbl 1281.68229号
[49] K.Talwar,绕过嵌入:低维度量的算法,《第三十六届ACM计算理论研讨会论文集》(STOC'04),ACM,纽约,2004年,第281-290页·Zbl 1192.68918号
[50] A.Vattani,平面上K-均值聚类的硬度,手稿·Zbl 1380.68204号
[51] A.Vattani,K(K)-即使在平面上,平均值也需要指数级多次迭代,即离散计算。地理。,45(2011年),第596-616页·Zbl 1218.68088号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。