×

DC-NMF:基于分治的非负矩阵分解,用于快速聚类和主题建模。 (英语) Zbl 1379.90025号

摘要:无监督聚类和主题建模的重要性得到了广泛认可,因为从众多来源获得的文本数据量不断增加。非负矩阵分解(NMF)已被证明是在未标记数据集中进行聚类和主题发现的一种成功方法。在本文中,我们提出了一种使用分治策略计算NMF的快速算法,称为DC-NMF公司给定一个输入矩阵,其中列表示数据项,我们使用最近提出的计算秩-2 NMF的高效算法构建数据项的二叉树结构,然后从树中收集信息以初始化秩-(k)NMF,该NMF只需几次迭代即可获得所需解。我们还研究了在生长树时选择要分割的节点的各种标准。通过与其他常用的最新算法的比较,我们证明了我们算法计算一般秩NMF的可扩展性,以及它在大规模文本数据集的聚类和主题建模中的有效性。该方法的价值在于高效、准确的秩初始化方法-k个NMF和从算法的分治方法中获得的可扩展性以及等级为2的NMF的特性。总之,我们提供了分析大规模数据集的有效工具,以及可以推广到许多其他数据分析问题领域的技术,以及一个名为SmallK公司.

MSC公司:

90C26型 非凸规划,全局优化
15年23日 矩阵的因式分解
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arora,S.,Ge,R.,Halpern,Y.,Mimno,D.M.,Moitra,A.,Sontag,D.,Wu,Y.Zhu,M.:具有可证明保证的主题建模实用算法。In:ICML’13:第30届机器学习国际会议记录(2013)
[2] Arora,S.、Ge,R.、Kannan,R.和Moitra,A.:计算非负矩阵因式分解。收录于:STOC’12:44届计算理论研讨会论文集,第145-162页(2012)·兹比尔1286.15014
[3] Bertsekas,D.P.:非线性规划。雅典娜科学,贝尔蒙特(1999)·Zbl 1015.90077号
[4] Bittorf,V.,Recht,B.,Re,C.,Tropp,J.:用线性程序分解非负矩阵。In:Advances In Neural Information Processing Systems 25,NIPS’12,pp.1214-1222(2012)
[5] Blei,D.M.,Griffiths,T.L.,Jordan,M.I.,Tenenbaum,J.B.:分层主题模型和嵌套式中国餐厅流程。In:神经信息处理系统进展16,(2003)
[6] Blei,D.M.,Ng,A.Y.,Jordan,M.I.:潜在dirichlet分配。J.马赫。学习。第3号决议,993-1022(2003)·兹比尔1112.68379
[7] 海狸,A.,德雷克,B.,博伊德,R.,帕克,H.:https://smallk.github.io2016年6月
[8] Cai,D.,He,X.,Han,J.,Huang,T.S.:用于数据表示的图正则化非负矩阵因式分解。IEEE传输。模式分析。马赫。智力。33, 1548-1560 (2011) ·doi:10.1109/TPAMI.2010.231
[9] Chu,M.T.,Lin,M.M.:低维多面体近似及其在非负矩阵因式分解中的应用。SIAM J.科学。计算。30, 1131-1155 (2008) ·Zbl 1168.65019号 ·数字对象标识代码:10.1137/070680436
[10] Cichocki,A.,Anh Huy,P.H.A.N.:大规模非负矩阵和张量分解的快速局部算法。IEICE传输。芬达姆。电子。Commun公司。计算。科学。E92A,708-721(2009)·doi:10.1587/转移。E92.A.708型
[11] Cohen,J.E.,Rothblum,U.G.:非负矩阵的非负秩、分解和因式分解。线性代数应用190149-168(1993)·Zbl 0784.15001号 ·doi:10.1016/0024-3795(93)90224-C
[12] Cover,T.M.,Thomas,J.A.:《信息理论要素》,第二版。霍博肯·威利(2006)·Zbl 1140.94001号
[13] Drake,B.,Kim,J.,Mallick,M.,Park,H.:基于非负秩亏最小二乘法的监督拉曼光谱估计。摘自:第13届信息融合国际会议论文集。英国爱丁堡(2010)·Zbl 1369.68285号
[14] Gillis,N。;Suykens,JAK(编辑);Signoretto,M.(编辑);Argyriou,A.(编辑),非负矩阵分解的原因和方法,257-291(2014),伦敦
[15] Gillis,N.,Glineur,F.:非负矩阵因式分解的加速乘法更新和层次als算法。神经计算机。24, 1085-1105 (2012) ·doi:10.1162/NECO_a_00256
[16] Gillis,N.,Kuang,D.,Park,H.:使用二级非负矩阵分解对高光谱图像进行分层聚类。IEEE传输。地质科学。遥感器53,2066-2078(2015)·doi:10.1109/TGRS.2014.2352857
[17] Globerson,A.,Chechik,G.,Pereira,F.,Tishby,N.:共现数据的欧几里得嵌入。J.马赫。学习。第8号决议,2265-2295(2007年)·Zbl 1222.68203号
[18] Golub,G.H.,Van Loan,C.F.:《矩阵计算》,第4版。约翰·霍普金斯大学出版社,巴尔的摩(2013)·Zbl 1268.65037号
[19] Grippo,L.,Sciandone,M.:凸约束下块非线性Gauss-Seidel方法的收敛性。操作。Res.Lett公司。26, 127-136 (2000) ·Zbl 0955.90128号 ·doi:10.1016/S0167-6377(99)00074-7
[20] Ho,N.-D.:非负矩阵分解。算法和应用。卢万天主教大学博士论文(2008年)
[21] Hofmann,T.:概率潜在语义索引。In:SIGIR’99:第22届国际ACM信息检索研究与开发会议记录(1999)·Zbl 1222.68203号
[22] Hofree,M.,Shen,J.P.,Carter,H.,Gross,A.,Ideker,T.:肿瘤突变的网络分层。自然方法10,1108-1115(2013)·doi:10.1038/nmeth.2651
[23] Horn,R.A.,Johnson,C.R.(编辑):矩阵分析。剑桥大学出版社,纽约(1986)
[24] Xieh,C.-J.,Dhillon,I.S.:非负矩阵因式分解的带变量选择的快速坐标下降法。摘自:第17届ACM SIGKDD知识发现和数据挖掘会议(KDD’11),第1064-1072页(2011)
[25] Jain,A.K.:数据聚类:超过K-means 50年。模式识别。莱特。31, 651-666 (2010). (第19届国际模式识别会议(ICPR)获奖论文)·doi:10.1016/j.patrec.2009.09.011
[26] Kim,H.,Park,H.:通过交替非负约束最小二乘法对微阵列数据进行稀疏非负矩阵分解。生物信息学231495-1502(2007)·doi:10.1093/bioinformatics/btm134
[27] Kim,H.,Park,H.:基于交替非负约束最小二乘法和活动集方法的非负矩阵因式分解。SIAM J.矩阵分析。申请。30, 713-730 (2008) ·Zbl 1162.65354号 ·doi:10.1137/07069239X
[28] Kim,J.,He,Y.,Park,H.:非负矩阵和张量分解算法:基于块坐标下降框架的统一视图。J.Glob。最佳方案。58, 285-319 (2014) ·Zbl 1321.90129号 ·doi:10.1007/s10898-013-0035-4
[29] Kim,J.,Park,H.:聚类的稀疏非负矩阵分解。技术报告,佐治亚理工学院(2008)
[30] Kim,J.,Park,H.:迈向更快的非负矩阵分解:一种新算法和比较。在:ICDM’08:第8届IEEE国际数据挖掘会议论文集,第353-362页(2008)·Zbl 0955.90128号
[31] Kim,J.,Park,H.:快速非负矩阵因式分解:一种类似活动集的方法和比较。SIAM J.科学。计算。33, 3261-3281 (2011) ·Zbl 1232.65068号 ·数字对象标识代码:10.1137/10821172
[32] Kuang,D.,Park,H.:分层文档聚类的快速秩-2非负矩阵分解。第19届ACM SIGKDD知识发现和数据挖掘会议(KDD’13),第739-747页(2013)·Zbl 1173.90583号
[33] Kuang,D.,Yun,S.,Park,H.:SymNMF:用于图聚类的相似矩阵的非负低秩近似。全球。最佳方案。62, 545-574 (2015) ·Zbl 1326.90080号 ·doi:10.1007/s10898-014-0247-2
[34] Kumar,A.,Sindhwani,V.,Kambadur,P.:用于近可分离非负矩阵分解的快速圆锥壳算法。In:ICML’13:第30届机器学习国际会议记录(2013)
[35] Lee,D.D.,Seung,H.S.:通过非负矩阵分解学习对象的各个部分。《自然》401,788-791(1999)·Zbl 1369.68285号 ·doi:10.1038/44565
[36] Lee,D.D.,Seung,H.S.:非负矩阵分解算法。摘自:神经信息处理系统进展14,NIPS’01,pp.556-562(2001)
[37] Lewis,D.D.,Yang,Y.,Rose,T.G.,Li,F.:Rcv1:文本分类研究的新基准集合。J.马赫。学习。第5号决议,361-397(2004)
[38] Li,L.,Lebanon,G.,Park,H.:使用泰勒展开和坐标下降的快速Bregman散度NMF。摘自:第18届ACM SIGKDD知识发现和数据挖掘国际会议记录,KDD’12,第307-315页。ACM,纽约(2012)·兹比尔1112.68379
[39] Lin,C.-J.:关于非负矩阵分解的乘法更新算法的收敛性。IEEE传输。神经网络。18, 1589-1596 (2007) ·doi:10.1109/TNN.2007.891185
[40] Lin,C.-J.:非负矩阵分解的投影梯度法。神经计算机。19, 2756-2779 (2007) ·Zbl 1173.90583号 ·doi:10.1162/neco.2007.19.10.2756
[41] Manning,C.D.,Raghavan,P.,Schütze,H.:信息检索导论。剑桥大学出版社,纽约(2008)·兹比尔1160.68008 ·doi:10.1017/CBO9780511809071
[42] McCallum,A.K.,Nigam,K.,Rennie,J.,Seymore,K.:使用机器学习自动构建互联网门户。Inf.Retr.(信息回收)。3127-163(2000年)·doi:10.1023/A:1009953814988
[43] Ozerov,A.,Févotte,C.:用于音频源分离的卷积混合中的多通道非负矩阵分解。IEEE传输。音频语音语言处理。18, 550-563 (2010) ·doi:10.1109/TASL.2009.2031510
[44] Paatero,P.,Tapper,U.:正矩阵因式分解:最佳利用数据值误差估计的非负因子模型。环境计量学511-126(1994)·doi:10.1002/env.3170050203
[45] Van Benthem,M.H.,Keenan,M.R.:求解大规模非负约束最小二乘问题的快速算法。《化学杂志》。18, 441-450 (2004) ·doi:10.1002/cem.889
[46] Xu,W.,Liu,X.,Gong,Y.:基于非负矩阵分解的文档聚类。收录于:SIGIR'03:第26届ACM信息检索研究与发展国际会议论文集,第267-273页(2003)·Zbl 0955.90128号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。