×

针对主题数量未知的主题模型,提出了一种具有极大极小最优保证的快速算法。 (英语) 兹比尔1434.68396

摘要:主题模型已成为分析由独立多项式观测值组成的数据的常用模型,其参数为(i=1,\ldots,n)的(n_i\in\mathbb{n})和(Pi_i\in[0,1]^p\)。该模型通过假设(Pi)可以分解为两个非负矩阵(a在[0,1]^{p\times K}中)和(W在[0,1]^{K\times n}中的乘积,将收集到的所有单元格概率关联在一个(p\timesn)矩阵(Pi中)中。主题模型最初是在文本挖掘中开发的,当人们浏览文档时,基于单词词典,覆盖主题。在这个术语中,矩阵(A)被称为字对矩阵,是估计的主要目标。它可以被视为条件概率矩阵,并且在适当的可分性假设下,它是唯一定义的,本文对此进行了详细讨论。值得注意的是,唯一的(a)需要满足通常所称的锚词假设,在该假设下,\(a)具有未知行数,分别与\(\mathbb{R}^K\)中的规范基向量成比例。这类行的索引称为锚定词。最近的计算上可行的算法,在有理论保证的情况下,通过将锚词集的估计与单纯形的\(K\)顶点的估计联系起来,建设性地利用了这一假设。估计(A)的这一关键步骤需要知道(K),并且当(K)未知时,无法轻易扩展到更真实的设置。
这项工作对锚词估计和(a)的估计持不同的观点。我们提出了一种新的主题模型估计方法,它不是现有单纯形搜索算法的变体,而是根据观测数据估计(K)。我们导出了(A)估计的新的有限样本极小极大下界,以及我们提出的估计的新上界。我们描述了我们的估计器是最小极大自适应的场景。我们的有限样本分析对任何\(n,n_i,p\)和\(K\)都有效,并且允许\(p\)和和\(K \)随\(n\)增加,这是以前分析没有很好处理的情况。
我们用详细的模拟研究来补充我们的理论结果。我们说明了新算法比当前算法更快、更准确,尽管我们一开始就存在计算和理论上的缺点,即不知道正确的主题数(K),而我们在仿真中提供了具有正确值的竞争方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
15年23日 矩阵的因式分解
62H30型 分类和区分;聚类分析(统计方面)
68T50型 自然语言处理

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anandkumar,A.、Foster,D.P.、Hsu,D.J.、Kakade,S.M.和Liu,Y.(2012)。潜在Dirichlet分配的谱算法。神经信息处理系统进展25(F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger编辑)917-925。纽约州Red Hook:Curran Associates·Zbl 1311.68130号
[2] Arora,S.、Ge,R.、Halpern,Y.、Mimno,D.M.、Moitra,A.、Sontag,D.、Wu,Y.和Zhu,M.(2013)。具有可证明保证的主题建模实用算法。在ICML(2)280-288中。
[3] Arora,S.、Ge,R.和Moitra,A.(2012年)。学习主题模型——超越SVD。2012年IEEE第53届计算机科学基础年会——2012年第1-10届。加利福尼亚州洛斯阿拉米托斯:IEEE计算机协会。
[4] Bansal,T.、Bhattacharyya,C.和Kannan,R.(2014)。一种基于SVD的显性混合语料库主题学习算法。第27届神经信息处理系统国际会议论文集第2卷。NIPS’14 1997-2005年。马萨诸塞州剑桥:麻省理工学院出版社。
[5] Bing,X.、Bunea,F.和Wegkamp,M.(2019年)。补充“具有未知主题数的主题模型的最小最大最优保证的快速算法”。https://doi.org/10.3150/19-BEJ1166SUPP网站 ·Zbl 1434.68396号
[6] Bing,X.、Bunea,F.、Yang,N.和Wegkamp,M.(2017年)。具有纯变量的稀疏潜在因素模型用于重叠聚类。可在arXiv:1704.0697上获得。
[7] Bittorf,V.、Recht,B.、Re,C.和Tropp,J.A.(2012年)。用线性程序分解非负矩阵。可从arXiv:1206.1270获取。
[8] Blei,D.M.(2012)。概率主题模型简介。Commun公司。ACM 55 77-84。
[9] Blei,D.M.和Lafferty,J.D.(2007年)。科学的相关主题模型。附录申请。《法律总汇》第1卷第17-35页·Zbl 1129.62122号
[10] Blei,D.M.、Ng,A.Y.和Jordan,M.I.(2003年)。潜在Dirichlet分配。J.马赫。学习。第993-1022号决议·Zbl 1112.68379号
[11] Cox,D.R.和Reid,N.(1987年)。参数正交性和近似条件推理。J.罗伊。统计师。Soc.序列号。B 49 1-39·Zbl 0616.62006号
[12] Deerwester,S.、Dumais,S.T.、Furnas,G.W.、Landauer,T.K.和Harshman,R.(1990)。通过潜在语义分析进行索引。J.Amer。社会信息科学。41 391-407.
[13] Dheeru,D.和Karra Taniskidou,E.(2017年)。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。
[14] Ding,W.、Rohban,M.H.、Ishwar,P.和Saligrama,V.(2013)。通过数据相关和随机投影发现主题。《第30届机器学习国际会议论文集》(S.Dasgupta和D.McAllester编辑)。机器学习研究论文集28 1202-1210。佐治亚州亚特兰大:PMLR。
[15] Donoho,D.和Stodden,V.(2004)。非负矩阵分解在什么时候给出了正确的分解?《神经信息处理系统进展》16(S.Thrun,L.K.Saul和P.B.Schölkopf,eds.)1141-1148。马萨诸塞州剑桥:麻省理工学院出版社。
[16] Griffiths,T.L.和Steyvers,M.(2004)。寻找科学主题。程序。国家。阿卡德。科学。美国101 5228-5235。
[17] Hofmann,T.(1999)。概率潜在语义索引。在第二十二届SIGIR国际年会会议记录中。
[18] Ke,T.Z.和Wang,M.(2017)。一种新的SVD最优主题估计方法。可从arXiv:1704.07016获取。
[19] Li,W.和McCallum,A.(2006)。Pachinko分配:主题相关性的DAG结构混合模型。第23届机器学习国际会议论文集。ICML 2006 577-584。纽约:ACM。
[20] Papadimitriou,C.H.、Raghavan,P.、Tamaki,H.和Vempala,S.(2000年)。潜在语义索引:一种概率分析。J.计算。系统科学。61 217-235. ·Zbl 0963.68063号
[21] Papadimitriou,C.H.、Tamaki,H.、Raghavan,P.和Vempala,S.(1998年)。潜在语义索引:概率分析。第十七届ACM SIGACT-SIGMOD-SIGART数据库系统原理研讨会论文集。98年PODS 159-168。纽约:ACM·Zbl 0963.68063号
[22] Riddell,A.、Hopper,T.和Grivas,A.(2016)。lda:1.0.4。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。