开放式访问
2020年8月 主题数未知的主题模型的一种具有极大极小最优保证的快速算法
新兵,佛罗伦蒂娜·布内亚,马丁·维坎普
伯努利 26(3): 1765-1796 (2020年8月)。 内政部:10.3150/19-BEJ1166

摘要

主题模型在分析由n个独立多项式观测值组成的数据集合时变得很流行,其中参数$n_{i}\in\mathbb{n}$和$\Pi_{i{in[0,1]^{p}$表示$i=1,\ldots,n$。该模型通过假设$\Pi$可以分解为[0,1]^{p\times K}$中的两个非负矩阵$a\和[0,1]|{K\times n}$中$W\的乘积,将在$p\次n$矩阵$\Pi$中收集的所有单元格概率联系起来。主题模型最初是在文本挖掘中开发的,当人们浏览$n$文档时,基于$p$单词的字典,涵盖$K$主题。在这个术语中,矩阵$A$被称为文字矩阵,是估计的主要目标。它可以被视为条件概率矩阵,在适当的可分性假设下,它是唯一定义的,本文对此进行了详细讨论。值得注意的是,唯一的$a$需要满足通常所说的锚词假设,其中$A$的行数未知,分别与$\mathbb{R}^{K}$中的规范基向量成比例。这类行的索引称为锚定词。最近的计算上可行的算法在理论上有保证,通过将锚定词集的估计与单纯形的$K$顶点的估计联系起来,建设性地利用了这个假设。$A$估算中的这一关键步骤需要$K$已知,并且当$K$未知时,无法轻易扩展到更现实的设置。

这项工作对锚词估计和$a$的估计持不同的观点。我们提出了一种新的主题模型估计方法,它不是现有单纯形搜索算法的变体,而是从观测数据中估计$K$。我们推导了$A$估计的新的有限样本极小极大下界,以及我们提出的估计的新上界。我们描述了我们的估计器是最小极大自适应的场景。我们的有限样本分析对任何$n、n_{i}、p$和$K$都有效,并且$p$和$K$都可以随着$n$的增加而增加,这种情况在以前的分析中没有得到很好的处理。

我们用详细的模拟研究来补充我们的理论结果。我们说明了新算法比当前算法更快、更准确,尽管我们一开始存在计算和理论上的缺点,即不知道正确的主题数$K$,而我们在仿真中提供了具有正确值的竞争方法。

引用

下载引文

辛兵。 弗洛伦蒂娜·布内亚。 马丁·维坎普(Marten Wegkamp)。 “对于主题数量未知的主题模型,具有极大极小最优保证的快速算法。” 伯努利 26 (3) 1765 - 1796, 2020年8月。 https://doi.org/10.3150/19-BEJ1166

问询处

收到日期:2018年5月1日;修订日期:2019年6月1日;发布时间:2020年8月
首次在欧几里得项目中提供:2020年4月27日

zbMATH公司:07193942
数学科学网:4091091万令吉
数字对象标识符:10.3150/19-BEJ1166

关键词:自适应估计,锚定词,高维估计,识别,潜在模型,极小极大估计,非负矩阵分解,重叠聚类,可分性,主题模型

权利:版权所有©2020伯努利数学统计与概率学会

第26卷•第3期•2020年8月
返回页首