文件Zbl 1190.62116-zbMATH打开

阿林达姆·班纳吉;迪尔隆（Dhillon，Inderjit S.）。;乔伊迪普·戈什;苏夫里特·斯拉

使用von Mises-Fisher分布在单位超球面上的聚类。（英语） Zbl 1190.62116号

J.马赫。学习。物件。 6, 1345-1382 (2005).

摘要：一些大规模数据挖掘应用程序，如文本分类和基因表达分析，涉及本质上也具有方向性的高维数据。通常，这样的数据被归一化，以便它们位于单位超球体的表面。诸如（多变量高斯的混合物）之类的流行模型不足以表征这些数据。本文提出了一种基于von Mises-Fisher（vMF）分布的生成性混合模型方法来聚类方向数据，这种分布对于分布在单位超球面上的数据来说是很自然的。
特别是，我们推导并分析了用于估计该混合物的平均值和浓度参数的期望最大化（EM）框架的两个变体。浓度参数的数值估计在高维中并不常见，因为它涉及贝塞尔函数比值的函数反演。我们还制定了两种与我们推导的EM变体相对应的聚类算法。我们的方法为信息检索界广泛使用的余弦相似性的使用提供了理论基础，并将球形k-均值算法（带余弦相似的k-均值）作为这两种变体的特例。基于混合vMF分布的高维文本和基因表达数据聚类的实证结果表明，能够估计每个vMF成分的浓度参数，这在现有方法中是不存在的，可以获得更好的结果，特别是对于高维空间中的困难聚类任务。

引用于2评论

引用于88文件

MSC公司：

62小时30分	分类和区分；聚类分析（统计方面）
62H11型	定向数据；空间统计学
65C60个	统计中的计算问题（MSC2010）

PDF格式 BibTeX公司 XML格式引用

全文：链接

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用von Mises-Fisher分布在单位超球面上的聚类。（英语） Zbl 1190.62116号

MSC公司：

示例

领域

操作员

使用von Mises-Fisher分布在单位超球面上的聚类。 （英语） Zbl 1190.62116号

MSC公司：

使用von Mises-Fisher分布在单位超球面上的聚类。（英语） Zbl 1190.62116号