摘要
主题模型在分析由n个独立多项式观测值组成的数据时变得很流行,参数为$n_{i}\in\mathbb{n}$和$\Pi_{i}\in[0,1]^{p}$,用于$i=1,\ldots,n$。该模型通过假设$\Pi$可以分解为[0,1]^{p\times K}$中的两个非负矩阵$a\和[0,1]|{K\times n}$中$W\的乘积,将在$p\次n$矩阵$\Pi$中收集的所有单元格概率联系起来。主题模型最初是在文本挖掘中开发的,当人们浏览$n$文档时,基于$p$单词的字典,涵盖$K$主题。在这个术语中,矩阵$A$被称为文字矩阵,是估计的主要目标。它可以被视为条件概率矩阵,在适当的可分性假设下,它是唯一定义的,本文对此进行了详细讨论。值得注意的是,唯一的$a$需要满足通常所说的锚词假设,其中$A$具有分别与$\mathbb{R}^{K}$中的正则基向量成比例的未知行数。这类行的索引称为锚定词。最近的计算上可行的算法在理论上有保证,通过将锚定词集的估计与单纯形的$K$顶点的估计联系起来,建设性地利用了这个假设。$A$估算中的这一关键步骤需要$K$已知,并且当$K$未知时,无法轻易扩展到更现实的设置。
这项工作对锚词估计和$a$的估计持不同的观点。我们提出了一种新的主题模型估计方法,它不是现有单纯形搜索算法的变体,而是从观测数据中估计$K$。我们推导了$A$估计的新的有限样本极小极大下界,以及我们提出的估计的新上界。我们描述了我们的估计器是最小极大自适应的场景。我们的有限样本分析对任何$n、n_{i}、p$和$K$都有效,并且$p$和$K$都可以随着$n$的增加而增加,这种情况在以前的分析中没有得到很好的处理。
我们用详细的模拟研究来补充我们的理论结果。我们说明了新算法比当前算法更快、更准确,尽管我们一开始存在计算和理论上的缺点,即不知道正确的主题数$K$,而我们在仿真中提供了具有正确值的竞争方法。
问询处
收到日期:2018年5月1日;修订日期:2019年6月1日;发布日期:2020年8月
欧几里德项目首次提供:2020年4月27日
数字对象标识符:10.3150/19-BEJ1166
关键词:自适应估计,锚定词,高维估计,识别,潜在模型,极小极大估计,非负矩阵分解,重叠聚类,可分性,主题模型
版权所有©2020伯努利数理统计与概率学会