数据聚类描述了探索性数据分析中常用的一组技术,用于提取数据中的“自然”组结构。需要对这些分组进行验证,以将数据中的信号与伪结构分离。在这种情况下,找到适当数量的集群是一个特别重要的模型选择问题。我们引入了一种簇稳定性度量来评估簇模型的有效性。该稳定性度量量化了第二个样本上聚类解决方案的再现性,可以解释为与聚类算法生成的类别标签相关的分类风险。最佳聚类数是通过将分类风险最小化作为聚类数的函数来确定的。在模拟数据集和基因表达数据集上获得了令人信服的结果。与其他方法的比较表明,我们的方法具有竞争性的性能,并且适合作为实际问题中聚类解决方案的通用验证工具。

此内容仅以PDF格式提供。
您当前没有访问此内容的权限。