的一部分神经信息处理系统进展32(NeurIPS 2019)
Aditya Bhaskara、Sharvaree Vadgama、Hong Xu
贪婪的算法,如自适应采样(k-means++)和最远点遍历是聚类问题的常用选择。一方面,它们具有良好的理论近似保证,另一方面,它又快速且易于实现。然而,这些算法的一个主要问题是对数据中的噪声/离群值的敏感性。在这项工作中,我们表明,对于k均值和k中心聚类,对经过充分研究的贪婪算法进行简单修改,可以得到几乎相同的保证,同时对异常值具有鲁棒性。例如,在k-means++的情况下,我们证明了对距离进行简单的阈值化操作就足以获得目标的O(\log k)近似值。对于更简单的k-中心问题,我们得到了类似的结果。最后,我们通过实验证明了我们的算法易于实现,并且具有良好的可扩展性。我们还测量了它们识别添加到数据集中的噪声点的能力。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。