研究论文

公共访问

k个-扰动弹性下的中心聚类

作者：
玛丽亚·福丽娜·巴尔坎

美国宾夕法尼亚州匹兹堡卡内基梅隆大学

美国宾夕法尼亚州匹兹堡卡内基梅隆大学
查看个人资料

,
尼卡·哈塔拉布

美国纽约州伊萨卡康奈尔大学

美国纽约州伊萨卡康奈尔大学
查看个人资料

,
科林·怀特

现实引擎。AI、CA、美国

现实引擎。AI、CA、美国
查看个人资料

作者信息和声明

ACM算法事务第16卷第2版条款编号：22第1-39页https://doi.org/10.1145/3381424

出版：2020年3月9日出版历史

ACM算法事务

摘要

这个k个-中心问题是一个典型的、长期研究的设施选址和聚类问题，有许多对称和非对称形式的应用。该问题的两个版本在最坏情况下都有严格的近似因子：对称的2-近似k个-中心和一个O（运行）（日志^*(k个))-不对称版本的近似值。因此，要提高这些比率，必须超越最坏的情况。

在这项工作中，我们采用了这种方法，并为不对称和对称的k个-自然输入稳定（承诺）条件下的中心问题α-扰动弹性[15] ，表明最优解在对输入距离的任何α因子扰动下都不会改变。我们提供了同时为稳定和不稳定实例提供强保证的算法：我们的算法总是继承聚类近似算法的最坏情况保证，并在输入具有2-扰动弹性时输出最优解。特别地，我们表明，如果输入仅对部分数据具有扰动弹性，我们的算法将从具有扰动弹性的数据区域返回最佳簇，同时对其余数据实现最佳最坏情况近似保证。此外，我们通过显示对称性证明了我们的结果是紧的k个-（2−ϵ）-扰动下的中心弹性很难，除非NP公司=RP公司.

我们的成果所产生的影响是多方面的。首先，据我们所知，不对称k个-中心问题是第一个在最坏情况下很难逼近任何常数因子的问题，但在α为常数的摄动弹性下可以在多项式时间内得到最优解。这也是在扰动弹性下任何问题的第一个严格结果，即，这是第一次发现问题从NP-hard转换为有效计算的精确α值。此外，我们的结果说明了对称和非对称之间令人惊讶的关系k个-扰动弹性下的中心实例。与近似比不同，近似比对称k个-中心很容易求解为因子2，但不对称k个-中心不能近似为任何常数因子，无论是对称的还是非对称的k个-中心可以在对2摄动的弹性下得到最优解。最后，我们保证在只有部分数据满足扰动弹性的情况下，这些算法更适用于实际实例。

工具书类

哈里斯·安吉利达基斯、康斯坦丁·马卡里切夫和尤里·马卡利切夫。2017.稳定和抗扰问题的算法。《计算机理论研讨会论文集》（STOC’17）。谷歌学者数字图书馆
亚伦·阿彻。2001.两个O（log^*k）非对称k中心问题的近似算法。在整数规划和组合优化中。斯普林格，1-14。谷歌学者
Sanjeev Arora、Rong Ge和Ankur Moitra。2012.学习主题模型——超越SVD。《计算机科学基础研讨会论文集》（FOCS’12）。1--10.谷歌学者数字图书馆
维杰·阿里亚（Vijay Arya）、纳文·加格（Naveen Garg）、罗希特·坎德卡尔（Rohit Khandekar）、亚当·梅尔森（Adam Meyerson）、卡梅什·穆纳加拉（Kamesh Munagala）和维纳亚卡·潘迪特（Vinayaka Pandit。2004.k-median和设施位置问题的本地搜索启发法。SIAM J.计算。33, 3 (2004), 544--562.谷歌学者数字图书馆
Pranjal Awasthi、Avrim Blum和Or Sheffet。2010年。稳定性产生了k中值和k均值聚类的PTAS。《计算机科学基础研讨会论文集》（FOCS’10）。309到318之间。谷歌学者数字图书馆
Pranjal Awasthi、Avrim Blum和Or Sheffet。2012.扰动稳定性下基于中心的聚类。信息处理。莱特。112, 1 (2012), 49--54.谷歌学者数字图书馆
Pranjal Awasthi和Or Sheffet。2012.改进了聚类的谱形界限。《近似、随机化和组合优化算法与技术国际研讨会论文集》（APPROX-RANDOM’12）。施普林格，37-49岁。谷歌学者交叉引用
玛丽亚·弗洛琳娜·巴尔坎、阿夫里姆·布鲁姆和阿努帕姆·古普塔。2013.近似稳定性下的聚类。J.ACM 60，2（2013），8。谷歌学者数字图书馆
玛丽亚·福丽娜·巴尔坎和马克·布拉弗曼。2009.发现低误差聚类。学习理论会议记录（COLT’09）。3--4.谷歌学者
玛丽亚·福丽娜·巴尔坎和马克·布拉弗曼。2017.扰动稳定博弈中的纳什均衡。西奥。计算。13, 13 (2017), 1--31.谷歌学者交叉引用
玛丽亚·弗洛里娜·巴尔坎（Maria Florina Balcan）和梁英玉（Yingyu Liang）。2016.扰动弹性下的集群。SIAM J.计算。45, 1 (2016), 102--155.谷歌学者交叉引用
玛丽亚·弗洛里娜·巴尔坎（Maria Florina Balcan）、海科·罗琳（Heiko Röglin）和尚华腾（Shang-Hua Teng）。2009年，《不可知聚类》，《算法学习理论国际会议论文集》。384--398.谷歌学者交叉引用
Shalev Ben-David和Lev Reyzin。2012.集群中的数据稳定性：仔细观察。算法学习理论。施普林格，184-198。谷歌学者
Yonatan Bilu、Amit Daniely、Nati Linial和Michael E.Saks。2013年，关于MAXCUT的实际有趣实例。第30届计算机科学理论方面国际研讨会论文集（STACS’13）。谷歌学者
约纳坦·比卢和内森·利尼尔。2012.稳定实例容易吗？组合探头。计算。21, 5 (2012), 643--660.谷歌学者数字图书馆
Jarosław Byrka、Thomas Pensyl、Bartosz Rybicki、Aravind Srinivasan和Khoa Trinh。2015年，改进了k中值的近似值，并与预算优化呈正相关。《离散算法研讨会论文集》（SODA'15）。737年至756年。谷歌学者交叉引用
Moses Charikar、Sudipto Guha、Eva Tardos和David B.Shmoys。1999.k中值问题的常数近似算法。《计算机理论研讨会论文集》（STOC'99）。1--10.谷歌学者
Moses Charikar、Samir Khuller、David M.Mount和Giri Narasimhan。2001.具有离群值的设施位置问题的算法。《离散算法研讨会论文集》（SODA'01）。642--651.谷歌学者
Chandra Chekuri和Shalmoli Gupta。2018.通过LP松弛的k-中心和相关问题的扰动弹性聚类。《近似、随机化和组合优化算法与技术国际研讨会论文集》（APPROX-RANDOM’18）。9:1--9:16.谷歌学者
柯晨。2008.带离群值的k-中值聚类的常数因子近似算法。《离散算法研讨会论文集》（SODA'08）。826--835.谷歌学者
朱莉娅·丘霍伊（Julia Chuzhoy）、苏迪普托·古哈（Sudipto Guha）、埃兰·哈尔佩林（Eran Halperin）、桑吉夫·坎纳（Sanjeev Khanna）、盖伊·科茨（Guy Kortsarz）、罗伯特·克劳查默（Robert Krauthgamer）和约瑟夫。2005.不对称k中心为对数^*n-难以近似。美国医学会期刊52，4（2005），538--551。谷歌学者数字图书馆
文森特·科恩·阿达德（Vincent Cohen-Addad）和克里斯·施维格尔肖恩（Chris Schwiegelshohn）。2017.关于稳定集群实例的本地结构。《计算机科学基础研讨会论文集》（FOCS’17）。49--60.谷歌学者交叉引用
Amit Deshpande、Anand Louis和Apoorv Vikram Singh。2019.关于欧几里德k均值聚类与α-中心邻近性。《国际人工智能与统计会议论文集》（AISTATS’19）。谷歌学者
马丁·戴尔（Martin E.Dyer）和阿兰·弗里兹（Alan M.Frieze）。1985.p中心问题的简单启发式。运营Res.Lett。3, 6 (1985), 285--288.谷歌学者数字图书馆
马丁·戴尔（Martin E.Dyer）和阿兰·弗里兹（Alan M.Frieze）。1986年。平面3DM为NP完成。J.阿尔戈。7, 2 (1986), 174--184.谷歌学者数字图书馆
Zachary Friggstad、Kamyar Khodamaradi和Mohammad R.Salavatipour。2019.欧几里德k-means稳定实例的精确算法和下限。《离散算法研讨会论文集》（SODA’19）。谷歌学者
Teofilo F.Gonzalez。1985.聚类以最小化最大簇间距离。理论。计算。科学。38 (1985), 293--306.谷歌学者交叉引用
Rishi Gupta、Tim Roughgarden和C.Seshadhri，2014年。三元语义图的分解。在《理论计算机科学创新会议论文集》（ITCS'14）中。471--482.谷歌学者
莫里茨·哈德和亚伦·罗斯。2013年，超越私有奇异向量计算中的最坏情况分析。《计算机理论研讨会论文集》（STOC'13）。331到340之间。谷歌学者数字图书馆
多里特·霍奇鲍姆（Dorit S.Hochbaum）和大卫·B·什莫伊斯（David B.Shmoys）。1985年。对k中心问题的最佳启发式。数学。Op.Res.10，2（1985），180--184。谷歌学者数字图书馆
哈里·B·亨特三世（Harry B.Hunt III）、马达夫·V·马拉特（Madhav V.Marathe）、文卡特斯·拉德哈克里希南（Venkatesh Radhakrishnan）和理查德·斯特恩斯（Richard E.Stearns）。平面计数问题的复杂性。SIAM J.计算。27, 4 (1998), 1142--1167.谷歌学者交叉引用
卡迈勒·贾恩、穆罕默德·马赫迪安和阿明·萨贝里，2002年。一种解决设施选址问题的新贪婪方法。《计算机理论研讨会论文集》（STOC'02）。731--740.谷歌学者数字图书馆
理查德·卡普（Richard M.Karp）。组合问题中的可约简性。在计算机计算的复杂性中。施普林格，85-103。谷歌学者
乔恩·克莱恩伯格（Jon Kleinberg）和伊娃·塔尔多斯（Eva Tardos）。2006.算法设计。培生教育。谷歌学者
阿米特·库马尔（Amit Kumar）和拉文德兰·坎南（Ravindran Kannan）。2010年，使用谱范数和k-means算法进行聚类。《计算机科学基础研讨会论文集》（FOCS’10）。299--308.谷歌学者数字图书馆
Amit Kumar、Yogish Sabharwal和Sandeep Sen.2004年。一种简单的线性时间（1+&epsiv；）近似算法，用于任意维的几何k均值聚类。《计算机科学基础研讨会论文集》（FOCS’04）。454--462.谷歌学者
亨特·朗（Hunter Lang）、大卫·桑塔格（David Sontag）和阿拉文丹·维贾亚拉哈万（Aravindan Vijayaraghavan）。2017年&alpha-扩展在稳定实例上是精确的。《国际人工智能与统计会议论文集》（AISTATS’17），第1050卷。6谷歌学者
尤文·李、梅兰妮·施密特和约翰·赖特。2017年，改进并简化了k-means的不可接近性。信息处理。莱特。120（2017），40-43。谷歌学者交叉引用
康斯坦丁·马卡里切夫、尤里·马卡利切夫、马克西姆·斯维里登科和贾斯汀·沃德。2016.双标准近似算法k个意味着。《近似、随机化和组合优化算法与技术国际研讨会论文集》（APPROX-RANDOM’16）。14时1分至14时20分。谷歌学者
康斯坦丁·马卡里切夫（Konstantin Makarychev）、尤里·马卡利切夫（Yury Makaryschev）和阿拉文丹·维贾亚拉哈万（Aravindan Vijayaraghavan）。2014.最大切割和最小多路切割的双临床稳定实例。《离散算法研讨会论文集》（SODA'14）。890--906.谷歌学者交叉引用
Bodo Manthey和Matthijs B.Tijink。2018年。设施位置问题的抗干扰能力。运营Res.Lett。46, 2 (2018), 215--218.谷歌学者数字图书馆
马图什·米哈拉克、马塞尔·施根斯、拉斯蒂斯拉夫·萨梅克和彼得·维德迈尔。2011年。关于稳定性考虑下的度量TSP的复杂性。摘自《SOFSEM：计算机科学的理论与实践》。施普林格，382--393。谷歌学者
拉斐尔·奥斯特罗夫斯基（Rafail Ostrovsky）、尤瓦尔·拉巴尼（Yuval Rabani）、伦纳德·J·舒尔曼（Leonard J.Schulman）和柴塔尼亚·斯瓦米（Chaitanya Swamy）。2012年，劳埃德型方法对k-means问题的有效性。J.ACM 59，6（2012），28。谷歌学者数字图书馆
蒂姆·拉夫加登（Tim Roughgarden）。2014年，超越最坏情况分析。检索自：网址：http://theory.stanford.edu/tim/f14/f14.html。谷歌学者
丹尼尔·斯皮尔曼和尚华腾。算法的平滑分析：为什么单纯形算法通常需要多项式时间。美国医学会期刊51，3（2004），385--463。谷歌学者数字图书馆
Leslie G.Valiant和Vijay V.Vazirani。1986年，NP就像检测独特的溶液一样简单。理论。计算。科学。47 (1986), 85--93.谷歌学者数字图书馆
Aravindan Vijayaraghavan、Abhratanu Dutta和Alex Wang。2017.聚类欧几里德k-means的稳定实例。《国际神经信息处理系统会议记录》（NIPS’17）。6503--6512.谷歌学者
桑达尔·维什瓦纳坦（Sundar Vishwanathan）。1996年An O（日志^*N）非对称P中心问题的近似算法。在离散算法研讨会论文集（SODA'96）中。1--5.谷歌学者
康斯坦丁·沃沃德斯基、玛丽亚·弗洛琳娜·巴尔坎、海科·罗琳、尚华腾和于霞。2011年。有限距离信息蛋白质序列的Min-sum聚类。《基于相似性的模式识别国际研讨会论文集》。192到206之间。谷歌学者交叉引用

索引术语

k个-扰动弹性下的中心聚类
1. 计算理论
  1. 算法的设计和分析
    1. 近似算法分析
      1. 设施位置和集群

建议

扰动弹性下的聚类
ICALP’12：第39届自动化、语言和编程国际学术讨论会会议记录——第一卷

由于现实世界中许多聚类实例中数据点之间的距离通常基于启发式度量，Bilu和Linial[6]提出了分析基于目标的聚类问题的假设，即最优的。。。
阅读更多
关于非均匀的扰动弹性k个-居中
摘要
非均匀性k个-中心（NUkC）问题最近由Chakrabarty等人提出[ICALP，2016；ACM Trans Algorithms 16（4）：46:1–46:192020]，作为经典问题的推广k个-中心聚类问题。在NUkC中，给定一组n个... $_{}_{}_{}$ $_{}$ $_{}$ $_{}$
阅读更多
扰动稳定性下基于中心的聚类

在大多数常用目标函数下的聚类是NP-hard，即使很好地近似，在最坏的情况下也不可能有效地求解。最近，Bilu和Linial（2010）[11]提出了一种旨在绕过这种计算的方法。。。
阅读更多

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于
ACM算法事务第16卷第2期
2020年4月
372页
国际标准编号：1549-6325
EISSN公司：1549-6333
内政部：10.1145/3386689
编辑：
阿拉文德·斯里尼瓦桑
美国马里兰大学
期刊目录
版权所有©2020所有者/作者
本作品根据Creative Commons Attribution International 4.0许可证授权。
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2020年3月9日
- 认可的：2019年12月1日
- 修订过的：2019年10月1日
- 收到：2019年1月1日
发布于滑石第16卷第2期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
超越最坏情况分析
群集
扰动恢复力
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 4
  引文总数
  查看引文
- 482
  总下载次数
- 下载次数（过去12个月）139
- 下载次数（最近6周）19
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

k个-扰动弹性下的中心聚类

ACM算法事务

摘要

工具书类

引用人

索引术语

建议

扰动弹性下的聚类

关于非均匀的扰动弹性k个-居中

扰动稳定性下基于中心的聚类

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

k个-扰动弹性下的中心聚类

ACM算法事务

摘要

工具书类

引用人

索引术语

建议

扰动弹性下的聚类

关于非均匀的扰动弹性k个-居中

扰动稳定性下基于中心的聚类

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享