×

基于内容和连接结构的联合非负矩阵分解混合聚类。 (英语) Zbl 1434.15011号

摘要:提出了一种称为JointNMF的混合方法,用于从包含文本内容和连接结构信息的数据集中发现潜在信息。新方法联合优化了一个综合目标函数,该目标函数由两部分组成:用于处理文本内容的非负矩阵分解(NMF)目标函数和用于处理网络结构信息的对称NMF目标函数。为了利用块坐标下降框架的有效方法,提出了一种联合NMF目标函数的有效算法。提出的混合方法可以同时发现内容关联和相关的潜在联系,而不需要额外的聚类后处理。JointNMF的另一个功能是预测未知网络信息,该功能使用几个现实世界问题进行说明,例如论文的引用建议和组织中的领导者检测。该方法也适用于用特征空间向量和两两相似度表示的一般数据,并可扩展到具有多个特征空间或多个相似性度量的情况。我们的实验结果表明,当数据中的内容和连接结构信息都可用时,该混合方法具有多种优势,可以获得更高质量的聚类结果和发现新信息,例如未知链接预测。

MSC公司:

15A23型 矩阵的因式分解
90C27型 组合优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bertsekas,D.:非线性规划。雅典娜科学,贝尔蒙特(1999)·Zbl 1015.90077号
[2] Chang,J.,Blei,D.M.:文档网络的层次关系模型。附录申请。《统计》第4(1)卷,第124-150页(2010年)·Zbl 1189.62191号 ·doi:10.1214/09-AOAS309
[3] Choo,J.,Lee,C.,Reddy,C.K.,Park,H.:乌托邦:基于交互式非负矩阵分解的用户驱动主题建模。IEEE传输。视觉。计算。图表。19(12),1992-2001(2013)。doi:10.1109/TVCG.2013.212·doi:10.1109/TVCG.2013.212
[4] 科恩,DA;霍夫曼,T。;Leen,TK(编辑);Dietterich,TG(编辑);Tresp,V.(编辑),《缺失的链接——文档内容和超文本连接的概率模型》,第13期,430-436(2001),剑桥
[5] Cruz,J.、Bothorel,C.、Poulet,F.:增强社交网络中基于熵的社区检测。2011年社会网络计算方面国际会议(CASoN),第163-168页(2011年)。doi:10.1109/CASON.2011.6085937
[6] Drake,B.,Kim,J.,Mallick,M.,Park,H.:基于非负秩亏最小二乘法的监督拉曼光谱估计。摘自:《第13届信息融合国际会议论文集》,英国爱丁堡(2010)
[7] Drake,B.,Lee-Urban,S.,Park,H.:Smallk是一个C++/Python高性能软件库,用于非负矩阵因式分解(nmf)以及使用nmf的层次和平面聚类;当前版本1.6.2。http://smallk.github.io/ (2017)
[8] Elhadi,H.,Agam,G.:结构和属性社区检测:复合、集成和选择方法的比较分析。摘自:《第七届社交网络挖掘与分析研讨会论文集》,SNAKDD’13,第10:1-10:7页。ACM,美国纽约州纽约市(2013年)。doi:10.1145/2501025.2501034
[9] Erosheva,E.,Fienberg,S.,Lafferty,J.:科学出版物的混合成员模型。程序。国家。阿卡德。科学。101(补充1),5220-5227(2004)。doi:10.1073/pnas.0307760101·doi:10.1073/pnas.0307760101
[10] Gruber,A.,Rosen-Zvi,M.,Weiss,Y.:超文本的潜在主题模型。摘自:《第二十四届人工智能不确定性年会论文集》(UAI-08),第230-239页。俄勒冈州科瓦利斯AUAI出版社(2008)
[11] Jin,D.,Gabris,B.,Dang,J.:用于在复杂网络中查找重叠社区的组合节点和链接分区方法。《科学报告5》(2015年)。doi:10.1038/srep08600
[12] Kannan,R。;Ishteva,M。;德雷克,B。;帕克,H。;Naik,GR(编辑),有界矩阵低秩近似,89-118(2016),Springer·Zbl 1338.65113号 ·doi:10.1007/978-3-662-48331-24
[13] Kannan,R.,Ishteva,M.,Park,H.:推荐系统的有界矩阵分解。知识。信息系统。39(3), 491-511 (2014) ·doi:10.1007/s10115-013-0710-2
[14] Kim,J.,He,Y.,Park,H.:非负矩阵和张量分解算法:基于块坐标下降框架的统一视图。J.Glob。最佳方案。58(2), 285-319 (2014). doi:10.1007/s10898-013-0035-4·Zbl 1321.90129号 ·doi:10.1007/s10898-013-0035-4
[15] Kim,J.,Park,H.:快速非负矩阵因式分解:一种类似活动集的方法和比较。SIAM科学杂志。计算。33(6), 3261-3281 (2011) ·Zbl 1232.65068号 ·数字对象标识代码:10.1137/10821172
[16] Kuang,D。;Choo,J。;帕克,H。;Celebi,ME(编辑),交互式主题建模和文档聚类的非负矩阵分解,215-243(2015),柏林·doi:10.1007/978-3-319-09259-1_7
[17] Kuang,D.,Park,H.:分层文档聚类的快速秩-2非负矩阵分解。摘自:第19届ACM SIGKDD国际知识发现和数据挖掘会议论文集,第739-747页。ACM(2013)
[18] Kuang,D.,Park,H.,Ding,C.H.:图聚类的对称非负矩阵因式分解。摘自:SDM,第12卷,第106-117页。SIAM(2012年)
[19] Kuang,D.,Yun,S.,Park,H.:SymNMF:用于图聚类的相似矩阵的非负低秩近似。环球杂志。最佳方案。62(3), 545-574 (2015). doi:10.1007/s10898-014-0247-2·Zbl 1326.90080号 ·doi:10.1007/s10898-014-0247-2
[20] Leskovec,J.,Krevl,A.:SNAP数据集:斯坦福大学大型网络数据集收集。http://snap.stanford.edu/data (2014)
[21] Liu,J.、Wang,C.、Gao,J.和Han,J.:通过联合非负矩阵分解进行多视图聚类。摘自:《2013年SIAM数据挖掘国际会议论文集》,第252-260页。工业和应用数学学会(2013)
[22] Liu,Y.,Niculescu-Mizil,A.,Gryc,W.:主题链接LDA:主题和作者社区的联合模型。摘自:《第26届国际机器学习年会论文集》,ICML'09,第665-672页。ACM,美国纽约州纽约市(2009年)。doi:10.1145/1553374.1553460
[23] Manning,C.D.,Raghavan,P.,Schütze,H.:信息检索导论。剑桥大学出版社,纽约(2008)·兹比尔1160.68008 ·doi:10.1017/CBO9780511809071
[24] 梅(Mei,Q.)、蔡(Cai,D.)、张(Zhang,D.)和翟(Zhai,C.):网络正则化的主题建模。摘自:第17届万维网国际会议记录,WWW’08,第101-110页。ACM,美国纽约州纽约市(2008年)。doi:10.1145/1367497.1367512
[25] Nallapati,R.M.,Ahmed,A.,Xing,E.P.,Cohen,W.W.:文本和引文的联合潜在主题模型。摘自:第14届ACM SIGKDD知识发现和数据挖掘国际会议记录,KDD’08,第542-550页。ACM,美国纽约州纽约市(2008年)。数字对象标识代码:10.1145/1401890.1401957
[26] Ruan,Y.,Fuhry,D.,Parthasarathy,S.:使用内容和链接在大型网络中进行高效社区检测。摘自:《第22届万维网国际会议论文集》,WWW’13,第1089-1098页。瑞士日内瓦共和国和州国际万维网会议指导委员会(2013年)
[27] Strehl,A.,Ghosh,J.:集群集合——用于组合多个分区的知识重用框架。J.马赫。学习。第3号决议,583-617(2003年)。doi:10.1162/153244303321897735·Zbl 1084.68759号 ·doi:10.1162/153244303321897735
[28] Sun,Y.,Aggarwal,C.C.,Han,J.:具有不完全属性的异构信息网络的关系强度感知聚类。程序。荷兰VLDB。5(5), 394-405 (2012). doi:10.14778/2140436.2140437·doi:10.14778/2140436.2140437
[29] Tang,J.,Wang,X.,Liu,H.:整合社交媒体数据进行社区检测。摘自:《2011年通用社交媒体建模与挖掘国际会议论文集》,MSM’11,第1-20页。施普林格,柏林,海德堡(2012)。doi:10.1007/978-3-642-33684-3
[30] Wang,X.,Tang,L.,Gao,H.,Liu,H.:发现社交媒体中的重叠群体。2010年IEEE数据挖掘国际会议,第569-578页(2010年)。doi:10.1109/ICDM.2010.48
[31] Wang,X.,Tang,L.,Liu,H.,Wang,L.:通过多分辨率重叠社区学习。知识。信息系统。36(2), 517-535 (2013). doi:10.1007/s10115-012-0555-0·doi:10.1007/s10115-012-0555-0
[32] Xu,Y.,Yin,W.,Wen,Z.,Zhang,Y.:非负因子矩阵补全的交替方向算法。前面。数学。中国7(2),365-384(2012)。doi:10.1007/s11464-012-0194-5·Zbl 1323.65044号 ·doi:10.1007/s11464-012-0194-5
[33] Yang,J.,Leskovec,J.:规模上的重叠社区检测:一种非负矩阵分解方法。摘自:第六届ACM网络搜索和数据挖掘国际会议记录,第587-596页。ACM(2013)
[34] Yang,T.,Jin,R.,Chi,Y.,Zhu,S.:结合链接和内容进行社区检测:一种歧视性方法。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议记录,KDD’09,第927-936页。ACM,美国纽约州纽约市(2009年)。数字对象标识代码:10.1145/1557019.1557120
[35] 周,D。;黄,J。;Schölkopf,B。;Schölkopf,B.(编辑);Platt,JC(编辑);Hoffman,T.(编辑),《超图学习:聚类、分类和嵌入》,第19期,1601-1608(2007),剑桥
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。