Greedy Sampling for Approximate Clustering in the Presence of Outliers

Bhaskara, Aditya; Vadgama, Sharvaree; Xu, Hong

存在离群点的近似聚类贪婪抽样

的一部分神经信息处理系统进展32（NeurIPS 2019）

作者反馈 Biptex公司 MetaReview公司元数据纸类评论补充的

作者

Aditya Bhaskara、Sharvaree Vadgama、Hong Xu

摘要

贪婪的算法，如自适应采样（k-means++）和最远点遍历是聚类问题的常用选择。一方面，它们具有良好的理论近似保证，另一方面，它又快速且易于实现。然而，这些算法的一个主要问题是对数据中的噪声/离群值的敏感性。在这项工作中，我们表明，对于k均值和k中心聚类，对经过充分研究的贪婪算法进行简单修改，可以得到几乎相同的保证，同时对异常值具有鲁棒性。例如，在k-means++的情况下，我们证明了对距离进行简单的阈值化操作就足以获得目标的O（\log k）近似值。对于更简单的k-中心问题，我们得到了类似的结果。最后，我们通过实验证明了我们的算法易于实现，并且具有良好的可扩展性。我们还测量了它们识别添加到数据集中的噪声点的能力。

存在离群点的近似聚类贪婪抽样

作者

摘要

名称更改策略