×

基于最近邻的不平衡数据聚类算法。 (中文。英文摘要) Zbl 1474.62253号

摘要:聚类是数据挖掘领域的一项重要任务。大多数聚类算法都能有效地处理平衡数据集的聚类问题,但对不平衡数据集处理能力较弱。例如,经典的分区聚类算法“K均值”在处理不平衡数据集时往往会产生“一致效果”,即,当用小簇中的数据对象对不平衡数据集中进行聚类时,“K均值算法”通常会产生大小相对一致的簇大集群中的数据对象部分。这意味着不同集群中数据对象的数量和密度趋于相同。为了解决经典K均值算法在不平衡数据聚类中产生的“均匀效应”问题,提出了一种基于最近邻的聚类算法(CABON)。首先,对数据对象进行初始聚类以获得未确定的聚类集,该聚类集被定义为一个由数据对象组成的集,必须对这些数据对象所属的聚类进行进一步检查。然后,从集合的边缘到中心,使用最近邻方法将未确定簇集中的数据对象重新分配给其最近邻的簇。同时动态调整未确定聚类集以获得最终聚类结果,避免了“均匀效应”对聚类结果的影响。将该算法的聚类结果与K均值、多中心非平衡K均值聚类方法(MCIK)、非均匀数据变异系数聚类方法(CVCN)在合成数据集和实际数据集上的聚类结果进行了比较。实验结果表明,CABON算法有效地减少了K均值算法对不平衡数据产生的“均匀效应”,其聚类结果优于K均值、MC IK和CVCN算法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
第68页,共15页 数据库理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部