存在离群点的近似聚类贪婪抽样

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

Aditya Bhaskara、Sharvaree Vadgama、Hong Xu

摘要

贪婪的算法,如自适应采样(k-means++)和最远点遍历是聚类问题的常用选择。一方面,它们具有良好的理论近似保证,另一方面,它又快速且易于实现。然而,这些算法的一个主要问题是对数据中的噪声/离群值的敏感性。在这项工作中,我们表明,对于k均值和k中心聚类,对经过充分研究的贪婪算法进行简单修改,可以得到几乎相同的保证,同时对异常值具有鲁棒性。例如,在k-means++的情况下,我们证明了对距离进行简单的阈值化操作就足以获得目标的O(\log k)近似值。对于更简单的k-中心问题,我们得到了类似的结果。最后,我们通过实验证明了我们的算法易于实现,并且具有良好的可扩展性。我们还测量了它们识别添加到数据集中的噪声点的能力。