A fast algorithm with minimax optimal guarantees for topic models with an unknown number of topics

Xin Bing; Florentina Bunea; Marten Wegkamp

doi:10.3150/19-BEJ1166

2020年8月主题数未知的主题模型的一种具有极大极小最优保证的快速算法

新兵,佛罗伦蒂娜·布内亚,马丁·维坎普

伯努利 26(3): 1765-1796 （2020年8月）。内政部：10.3150/19-BEJ1166

摘要

主题模型在分析由n个独立多项式观测值组成的数据集合时变得很流行，其中参数$n_{i}\in\mathbb{n}$和$\Pi_{i{in[0,1]^{p}$表示$i=1，\ldots，n$。该模型通过假设$\Pi$可以分解为[0,1]^{p\times K}$中的两个非负矩阵$a\和[0,1]|{K\times n}$中$W\的乘积，将在$p\次n$矩阵$\Pi$中收集的所有单元格概率联系起来。主题模型最初是在文本挖掘中开发的，当人们浏览$n$文档时，基于$p$单词的字典，涵盖$K$主题。在这个术语中，矩阵$A$被称为文字矩阵，是估计的主要目标。它可以被视为条件概率矩阵，在适当的可分性假设下，它是唯一定义的，本文对此进行了详细讨论。值得注意的是，唯一的$a$需要满足通常所说的锚词假设，其中$A$的行数未知，分别与$\mathbb{R}^{K}$中的规范基向量成比例。这类行的索引称为锚定词。最近的计算上可行的算法在理论上有保证，通过将锚定词集的估计与单纯形的$K$顶点的估计联系起来，建设性地利用了这个假设。$A$估算中的这一关键步骤需要$K$已知，并且当$K$未知时，无法轻易扩展到更现实的设置。

这项工作对锚词估计和$a$的估计持不同的观点。我们提出了一种新的主题模型估计方法，它不是现有单纯形搜索算法的变体，而是从观测数据中估计$K$。我们推导了$A$估计的新的有限样本极小极大下界，以及我们提出的估计的新上界。我们描述了我们的估计器是最小极大自适应的场景。我们的有限样本分析对任何$n、n_{i}、p$和$K$都有效，并且$p$和$K$都可以随着$n$的增加而增加，这种情况在以前的分析中没有得到很好的处理。

我们用详细的模拟研究来补充我们的理论结果。我们说明了新算法比当前算法更快、更准确，尽管我们一开始存在计算和理论上的缺点，即不知道正确的主题数$K$，而我们在仿真中提供了具有正确值的竞争方法。