×

文本交互数据联合聚类的潜在主题块模型。 (英语) Zbl 1507.62011年

摘要:考虑了涉及两组不相交的个体/对象的文本交互数据。网络平台(如亚马逊、TripAdvisor等)上的评论给出了此类数据的一个例子,买家在这些平台上评论他们购买的产品/服务。开发了一种新的生成模型,即潜在主题块模型(LTBM),以及一种推理算法,用于同时划分每个集合的元素,以解释文本信息。模型参数的估计是通过期望最大化(EM)算法的变分版本进行的。形式化地获得了一个模型选择准则来估计分区数。对模拟数据进行了数值实验,以突出估计过程的主要特征。最后使用了两个实际数据集来证明该方法的有效性。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)

软件:

JGibbLDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] 阿南德库马尔,A。;福斯特,D.P。;徐德杰。;卡卡德,S.M。;Liu,Y.-K.,潜在dirichlet分配的谱算法,(神经信息处理系统进展(2012)),917-925
[2] Banerjee,A。;迪尔隆,I。;Ghosh,J。;Merugu,S。;Modha,D.S.,bregman联合聚类和矩阵近似的广义最大熵方法,J.Mach。学习。决议,1919-1986年8月8日(2007年)·Zbl 1222.68139号
[3] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。智力。,7, 719-725 (2000)
[4] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值,以获得多元高斯混合模型中的最大似然,计算。统计师。数据分析。,41, 3, 561-575 (2003) ·Zbl 1429.62235号
[5] 布莱,D。;Lafferty,J.,相关主题模型,高级神经信息处理。系统。,18, 147 (2006)
[6] 布莱,D.M。;Ng,A.Y.先生。;Jordan,M.I.,《潜在dirichlet分配》,J.Mach。学习。决议,3,993-1022(2003)·Zbl 1112.68379号
[7] Bouveyron,C。;拉图什,P。;Zreik,R.,带文本边网络中顶点聚类的随机主题块模型,统计计算。(2016),网址https://hal.archives-ouvertes.fr/hal-01299161 ·Zbl 1505.62078号
[8] Brault,V.,Channarond,A.,潜在区块模型的快速一致算法,2016。arXiv预打印arXiv:1610.09005;Brault,V.,Channarond,A.,《潜在区块模型的快速一致算法》,2016年。arXiv预打印arXiv:1610.09005
[9] Celeux,G。;Govaert,G.,聚类的分类em算法和两个随机版本,研究报告RR-1364(1991),INRIA,URLhttps://hal.inia.fr/inia-00075196、Projet CLOREC公司
[10] 科特迪瓦,E。;Randriamanamihaga,A。;Oukhellou,L。;Aknin,P.,使用潜在dirichlet分配对动态原始目的地数据进行时空分析。应用于vélib?巴黎的自行车共享系统,(《交通研究委员会第93届年会会议记录》(2014))
[11] Deerwester,S.公司。;Dumais,S。;Furnas,G。;Landauer,T。;Harshman,R.,《潜在语义分析索引》,美国社会科学杂志。,41, 6, 391 (1990)
[12] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,通过em算法从不完整数据中获得最大似然,J.R.Stat.Soc.B,1-38(1977)·Zbl 0364.62022号
[13] 乔治·T。;Merugu,S.,基于协同聚类的可扩展协作过滤框架,(数据挖掘,第五届IEEE国际会议(2005),IEEE),4
[14] 戈瓦特,G。;Nadif,M.,用块混合模型聚类,模式识别。,36, 2, 463-473 (2003)
[15] 戈瓦特,G。;Nadif,M.,使用伯努利混合模型的块聚类:不同方法的比较,Comput。统计师。数据分析。,52, 6, 3233-3245 (2008) ·Zbl 1452.62444号
[16] 戈瓦特,G。;Nadif,M.,列联表的潜在块模型。统计中的通信?,理论方法,39,3,416-425(2010)·Zbl 1187.62117号
[17] Hathaway,R.J.,混合分布em算法的另一种解释,Stat.&Probab。莱特。,4, 2, 53-56 (1986) ·Zbl 0585.62052号
[18] Hofmann,T.,概率潜在语义索引,(第22届ACM SIGIR国际信息检索研究与开发年会论文集(1999),ACM),50-57
[19] Jacques,J.,Biernacki,C.,有序数据的基于模型的联合聚类,2017年。;Jacques,J.,Biernacki,C.,有序数据的基于模型的联合聚类,2017年·Zbl 1469.62086号
[20] 克里宾,C。;Brault,V。;Celeux,G。;Govaert,G.,分类数据上潜在块模型的估计和选择,统计计算。,25, 6, 1201-1216 (2015) ·Zbl 1331.62149号
[21] 克里宾,C。;Brault,V。;Celeux,G。;Govaert,G.,二元潜在区块模型的模型选择,(COMPSTAT会议记录,2012年(2012))
[22] 克里宾,C。;Celeux,G。;Valérie,R.,《潜在块模型:高维数据的有用模型》(ISI 2017-61届世界统计大会(2017)),1-6
[23] 库马尔,S。;高,X。;Welch,I.,双主题模型的协同聚类,(澳大利亚人工智能联合会议(2016),Springer),390-402
[24] 拉泽布尼克,S。;施密德,C。;Ponce,J.,Beyond bags of features:spatial pyramid matching for recognize natural scene categories,(计算机视觉和模式识别,2006 IEEE Computer Society Conference on,第2卷(2006),IEEE),2169-2178
[25] Lomet,A.,《分类方法选择》(2012年),Compiègne,(博士论文)
[26] von Luxburg,U.,《光谱聚类教程》,《统计计算》。,17、4、395-416(2007),网址http://dx.doi.org/10.1007/s11222-007-9033-z
[27] Nigam,K。;McCallum,A。;特隆,S。;Mitchell,T.,使用em,Mach对标记和未标记文档进行文本分类。学习。,39, 2-3, 103-134 (2000) ·Zbl 0949.68162号
[28] Papadimitriou,C。;拉加万,P。;Tamaki,H。;Vempala,S.,《潜在语义索引:概率分析》(第十届ACM PODS会议论文集(1998),ACM),159-168
[29] 潘,X.-H。;Nguyen,L.-M。;Horiguchi,S.,《学习从大规模数据收集中对具有隐藏主题的短文本和稀疏文本及web进行分类》(第17届万维网国际会议论文集(2008),ACM),91-100
[30] Podosinnikova,A。;巴赫,F。;Lacoste-Julien,S.,《重新思考lda:离散ica的矩匹配》,(神经信息处理系统进展(2015)),514-522
[31] Rand,W.M.,《聚类方法评估的客观标准》,J.Am.Statist。协会,66,336,846-850(1971)
[32] Schwarz,G.,估算模型的维数,《Ann.Stat.》,6,2,461-464(1978)·Zbl 0379.62005年
[33] Scrucca,L.,基于模型聚类中子集选择的遗传算法,(无监督学习算法(2016),Springer),55-70
[34] Shafiei,M.M。;Milios,E.E.,《潜在的dirichlet联合聚类》(数据挖掘,2006年)。2006年ICDM。第六届国际会议(2006年),IEEE,542-551
[35] Teh,Y。;纽曼,D。;Welling,M.,潜在Dirichlet分配的折叠变分贝叶斯推理算法,高级神经信息处理。系统。,18, 1353-1360 (2006)
[36] Than,K。;Ho,T.B.,《完全稀疏主题模型》(数据库中机器学习和知识发现联合欧洲会议(2012),斯普林格),490-505
[37] 王,P。;多梅尼科尼,C。;Laskey,K.B.,潜在的dirichlet贝叶斯联合聚类,(数据库中机器学习和知识发现联合欧洲会议(2009),Springer),522-537
[38] 王,S。;Huang,A.,联合聚类的惩罚非负矩阵三因子化,专家系统。申请。,78,64-73(2017)
[39] Wyse,J。;Friel,N.,具有折叠潜在块模型的块聚类,统计计算。,22, 2, 415-428 (2012) ·Zbl 1322.62046号
[40] Wyse,J。;弗里尔,N。;Latouche,P.,使用潜在块模型和精确icl推断二部网络中的结构,Netw。科学。,5, 1, 45-69 (2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。