亚尼斯·帕帕尼科劳;詹姆斯·R·福兹。;蒂莫西·鲁宾。;格里戈里奥斯·祖马卡斯 稀疏样本的密度分布:LDA的改进Gibbs采样参数估计。 (英语) Zbl 1434.68443号 J.马赫。学习。物件。 18(2017-2018),第62号论文,58页(2017). 小结:我们介绍了一种新的方法,通过利用潜在变量赋值上的完整条件分布来有效地平均多个样本,从坍塌吉布斯样本(CGS)估计潜在狄利克雷分配(LDA)参数,只需花费比绘制一个额外的坍塌吉布斯样本多一点的计算成本。我们的方法可以理解为将塌陷变分贝叶斯(CVB0)的软聚类方法应用于CGS参数估计,以获得这两种技术的最佳效果。我们的估计值可以直接应用于任何现有CGS实现的输出,包括现代加速变量。我们在无监督LDA和先验LDA的真实世界数据上对我们的估计量与标准折叠推理算法的估计量进行了广泛的经验比较,先验LDA是用于多标签分类的LDA的监督变体。我们的结果表明,在所有实验条件下,我们的方法都优于传统的CGS条件,并在大多数条件下超过CVB0推理。更广泛地说,我们的结果强调了在LDA参数估计中对多个样本进行平均的重要性,以及使用有效的计算技术来实现这一点。 引用于1文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 2015年1月62日 贝叶斯推断 62H30型 分类和区分;聚类分析(统计方面) 68单位15 文本处理的计算方法;数学排版 关键词:隐含狄利克雷分布;主题模型;无监督学习;多标签分类;文本挖掘;坍塌吉布斯采样;CVB0型;贝叶斯推断 PDF格式BibTeX公司 XML格式引用 \textit{Y.Papanikolaou}等人,J.Mach。学习。第18号决议,第62号论文,58页(2017年;Zbl 1434.68443) 全文: arXiv公司 链接