×

使用von Mises-Fisher分布在单位超球面上的聚类。 (英语) Zbl 1190.62116号

摘要:一些大规模数据挖掘应用程序,如文本分类和基因表达分析,涉及本质上也具有方向性的高维数据。通常,这样的数据被归一化,以便它们位于单位超球体的表面。诸如(多变量高斯的混合物)之类的流行模型不足以表征这些数据。本文提出了一种基于von Mises-Fisher(vMF)分布的生成性混合模型方法来聚类方向数据,这种分布对于分布在单位超球面上的数据来说是很自然的。
特别是,我们推导并分析了用于估计该混合物的平均值和浓度参数的期望最大化(EM)框架的两个变体。浓度参数的数值估计在高维中并不常见,因为它涉及贝塞尔函数比值的函数反演。我们还制定了两种与我们推导的EM变体相对应的聚类算法。我们的方法为信息检索界广泛使用的余弦相似性的使用提供了理论基础,并将球形k-均值算法(带余弦相似的k-均值)作为这两种变体的特例。基于混合vMF分布的高维文本和基因表达数据聚类的实证结果表明,能够估计每个vMF成分的浓度参数,这在现有方法中是不存在的,可以获得更好的结果,特别是对于高维空间中的困难聚类任务。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62H11型 定向数据;空间统计学
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 链接