摘要

我们考虑确定集群数据结构的问题,而不需要事先知道集群的数量或关于其组成的任何其他信息。数据由混合模型表示,其中每个组件对应于不同的簇。通过具有不同参数化和跨簇约束的高斯分量,得到了具有不同几何性质的模型。噪声和异常值可以通过添加泊松过程组件来建模。分区由最大似然期望最大化(EM)算法确定,初始值来自凝聚层次聚类。模型使用基于贝叶斯信息准则(BIC)的贝叶斯因子近似值进行比较;与显著性测试不同,这允许同时比较两个以上的模型,并消除了被比较模型嵌套的限制。通过选择最佳模型,同时解决了聚类数的确定和聚类方法的问题。此外,EM结果提供了有关每个数据点相关分类的不确定性度量。给出的例子表明,这种方法可以提供比标准程序好得多的性能,标准程序通常无法识别重叠或大小和形状不同的组。

此内容仅以PDF格式提供。
您当前没有访问此文章的权限。