×

用于潜在主题和语义聚类的无监督联合分析的分层贝叶斯文本建模。 (英语) Zbl 07554491号

摘要:主题建模可以与文档聚类协同统一。在本文中,我们提出了两种创新的无监督方法,用于组合建模和相互关联地完成这两项任务。这两种方法都依赖于文本语料库中主题、内容和簇的各自贝叶斯生成模型。此类模型将主题和簇视为文档措辞中的关联潜在因素。特别是,在第二种方法的生成模型下,文本文档的特征是主题分布,允许主题分布围绕其成员簇的主题分布而变化。在设计的模型中,设计了算法来实现Rao-Blackwellized Gibbs采样和参数估计。这些是从数学上推导出来的,用于以同时且相互关联的方式使用文档聚类进行主题建模。
一项比较实证评估表明,相对于不同系列的最先进的竞争对手,所提出的方法在聚类真实世界基准文本集合以及揭示其潜在语义方面的有效性。此外,还开发了一个案例研究,作为对现实世界文本语料库结果的深入定性分析。

MSC公司:

68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿拉赫亚里,M。;Pouriyeh,S。;阿塞菲,M。;萨法伊,S。;特里普,E。;古铁雷斯,J。;Kochut,K.,《文本挖掘的简要调查:分类、聚类和提取技术》(2017),arXiv预印本
[2] 科斯塔·G。;Ortale,R.,《文档聚类与单词嵌入的主题建模》(SIAM国际数据挖掘会议论文集(2020)),244-252
[3] 科斯塔·G。;Ortale,R.,使用词向量在文本语料库中联合建模并同时发现主题和簇,Inf.Sci。,563, 226-240 (2021) ·兹伯利07763273
[4] 科斯塔·G。;Ortale,R.,《贝叶斯非参数文档聚类和嵌入topic建模的有效相互关系》,Knowl-基于系统。,234,第107591条pp.(2021)
[5] Bishop,C.M.,模式识别和机器学习(2006),Springer·Zbl 1107.68072号
[6] 科勒,D。;弗里德曼,N.,概率图形模型。《原理与技术》(2009),麻省理工学院出版社·兹比尔1183.68483
[7] Murphy,K.,《机器学习:概率视角》(2012),麻省理工学院出版社·Zbl 1295.68003号
[8] 科斯塔·G。;Ortale,R.,《文档聚类和主题建模:统一的贝叶斯概率观点》(IEEE人工智能工具国际会议论文集(2019)),278-285
[9] Gelman,A。;Carlin,J。;斯特恩,H。;鲁宾,D。;Dunson,D.,贝叶斯数据分析(2013),Chapman和Hall/CRC
[10] 哈斯蒂,T。;蒂布希拉尼,R。;Friedman,J.,《统计学习的要素》(2009),Springer-Verlag:Springer-Verlag纽约·Zbl 1273.62005年
[11] Winkler,R.,《贝叶斯推理和决策导论》(2003),概率出版
[12] 斯泰弗斯,M。;Griffiths,T.,《潜在语义分析:意义之路》,第三章概率主题模型,427-448(2007),Lawrence Erlbaum
[13] 布莱,D。;Lafferty,J.,《文本挖掘:分类、聚类和应用》,Ch.Topic Models,Chapman&Hall/CRC数据挖掘和知识发现系列,71-94(2009)·Zbl 1177.68175号
[14] Chang,J。;Boyd-Graber,J。;Gerrish,S。;王,C。;Blei,D.,《阅读茶叶:人类如何解释主题模型》(神经信息处理系统国际会议论文集(2009)),288-296
[15] Blei,D.,概率主题模型,Commun。ACM,55,4,77-84(2012)
[16] 布莱,D。;Ng,A。;Jordan,M.,《潜在迪里克莱分配》,J.Mach。学习。决议,3,993-1022(2003)·兹比尔1112.68379
[17] 迪茨,L。;Bickel,S.公司。;Scheffer,T.,《引用影响的无监督预测》,(机器学习国际会议论文集(2007)),233-240
[18] Cha,Y。;Cho,J.,使用主题模型进行社会网络分析,(国际ACM SIGIR信息检索研究与开发会议论文集(2012)),565-574
[19] 罗,W。;斯坦格,B。;X.赵。;Kim,T.-K.,多目标跟踪的自动主题发现,(AAAI人工智能会议论文集(2015)),3820-3826
[20] Boyd-Graber,J。;胡,Y。;Mimno,D.,主题模型的应用,发现。趋势信息检索。,143-296年11月2日至3日(2017年)
[21] Deerwester,S.公司。;Dumais,S。;Landauer,T。;Furnas,G。;Harshman,R.,《潜在语义分析索引》,美国社会科学杂志。,41, 6, 391-407 (1990)
[22] Hofmann,T.,概率潜在语义索引,(国际ACM SIGIR信息检索研究与开发会议论文集(1999),50-57
[23] 布莱,D。;Lafferty,J.,相关主题模型,(神经信息处理系统进展论文集(2005)),147-154
[24] 布莱,D。;Lafferty,J.,动态主题模型,(机器学习国际会议论文集(2006)),113-120
[25] Wallach,H.,Topic modeling:beyond bagof-words,(机器学习国际会议论文集(2006)),977-984
[26] Y.本吉奥。;杜恰姆,R。;文森特,P。;Janvin,C.,神经概率语言模型,J.Mach。学习。第31137-1155号决议(2003年)·Zbl 1061.68157号
[27] Mikolov,T。;Sutskever,I。;Chen,K。;Corrado,G。;Dean,J.,单词和短语的分布式表示及其组合,(神经信息处理系统国际会议论文集(2013),3111-3119
[28] 达斯·R。;Zaheer,M。;Dyer,C.,Gaussian lda for topic models with word embedding,(计算语言学协会会议记录(2015)),795-804
[29] 刘,Y。;刘,Z。;蔡美儿。;Sun,M.,主题词嵌入,(AAAI人工智能会议论文集(2015)),2418-2424
[30] 李,S。;蔡美儿。;朱,J。;Miao,C.,生成性主题嵌入:文档的连续呈现,(计算语言学协会会议记录(2016)),666-675
[31] 荀,G。;李毅。;赵伟。;高,J。;Zhang,A.,使用单词嵌入的相关主题模型,(国际人工智能联合会议(2017)论文集),4207-4213
[32] 阿加瓦尔,C。;翟,C.,文本聚类算法的调查,(Aggarwal,C.;翟,C,Mining text Data(2012),Springer:Springer Boston,MA),77-128
[33] Sahoo,N。;凯伦,J。;Krishnan,R。;邓肯,G。;Padman,R.,《文本文档的增量层次聚类》(ACM信息和知识管理国际会议论文集(2006)),357-366
[34] (Celebi,M.,《分区聚类算法》(2015),施普林格国际出版公司)·Zbl 1305.68010号
[35] Ng,A。;乔丹,M。;Weiss,Y.,《关于谱聚类:分析和算法》(神经信息处理系统国际会议论文集(2001)),849-856
[36] 徐伟(Xu,W.)。;Gong,Y.,通过概念分解进行文档聚类,(国际ACM SIGIR信息检索研究与开发会议论文集(2004)),202-209
[37] 徐伟(Xu,W.)。;刘,X。;龚毅,基于非负矩阵分解的文档聚类,(2003年国际ACM SIGIR信息检索研究与开发会议论文集),267-273
[38] 卢,Y。;梅,Q。;翟,C.,《概率主题模型的任务绩效研究:plsa和lda的实证研究》,Inf.Ret。,178-203年2月14日(2011年)
[39] 德夫林,J。;Chang,M.-W。;Lee,K。;Toutanova Bert,K.,用于语言理解的深度双向变换器的预训练,(计算语言学协会北美分会会议记录:人类语言技术,第1卷(2019年)),4171-4186
[40] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;A.戈麦斯。;凯撒,L。;Polosukhin,I.,《注意力是你所需要的一切》(《神经信息处理系统进展》,第30卷(2017)),5998-6008
[41] 坎佩罗,R.J.G.B。;Moulavi,D。;Sander,J.,基于层次密度估计的基于密度的聚类,(亚太知识发现和数据挖掘会议论文集(2013)),160-172
[42] 麦克因斯,L。;希利,J。;Melville,J.,Umap:统一流形近似和降维投影(2018)
[43] 谢鹏。;Xing,E.,《整合文档聚类和主题建模》(2013年国际人工智能不确定性会议论文集),694-703
[44] Andrieu,C。;新墨西哥州弗雷塔斯。;Doucet,A。;Jordan,M.,机器学习mcmc简介,马赫。学习。,50,1-2,5-43(2003)·兹比尔1033.68081
[45] 罗伯特·C。;Casella,G.,蒙特卡洛统计方法(2004),施普林格·Zbl 1096.62003年
[46] Heinrich,G.,文本分析的参数估计(2008),莱比锡大学,网址:
[47] 蔡,D。;何,X。;Han,J.,文档聚类的局部一致概念分解,IEEE Trans。知识。数据工程,23,6,902-913(2011)
[48] Ramachandran,K。;Tsokos,C.,《数理统计及其应用》(2009),学术出版社·Zbl 1204.62001年
[49] Mimno博士。;瓦拉赫,H。;E.塔利。;M.Leenders。;McCallum,A.,优化主题模型中的语义连贯,(自然语言处理实证方法会议论文集(2011)),262-272
[50] 科斯塔·G。;Manco,G。;Ortale,R.,《基于层次模型的高维数据联合聚类方法》(ACM应用计算研讨会论文集(2008)),886-890
[51] 萨拉赫,A。;Rogovschi,N。;Nadif,M.,高维稀疏数据的基于模型的联合聚类,(《国际人工智能与统计会议论文集》(2016),866-874
[52] 侯赛因,S.F。;Haris,M.,《稀疏高维数据的基于k均值的联合聚类(kcc)算法》,专家系统。申请。,118, 20-34 (2019)
[53] 萨拉赫,A。;M.Ailem。;Nadif,M.,用于文本数据联合聚类的单词共现正则化非负矩阵三因子化,(AAAI人工智能会议论文集(2018)),3992-3999
[54] 徐,D。;Cheng,W。;Zong,B。;Ni,J。;宋,D。;于伟(Yu,W.)。;陈,Y。;陈,H。;Zhang,X.,深度联合聚类,(SIAM国际数据挖掘会议论文集(2019)),414-422
[55] 林·R。;王,S。;Guo,W.,《通过矩阵分解实现联合聚类概述》,IEEE Access,73341-33493(2019)
[56] 胡,S。;严,X。;Ye,Y.,动态加权多视图联合聚类,模式识别。,99,第107101条pp.(2020)
[57] Affeldt,S。;拉比奥德,L。;Nadif,M.,Ensemble块联合聚类:文本数据的统一框架,(ACM信息与知识管理国际会议(2020年)论文集),5-14
[58] 布莱,D。;Kucukelbir,A。;McAuliffe,J.,《变分推断:统计学家评论》,美国统计协会,112,518,859-877(2017)
[59] 乔丹,M。;加赫拉马尼,Z。;Jaakkola,T。;Saul,L.,图形模型的变分方法简介,马赫。学习。,37, 2, 183-233 (1999) ·Zbl 0945.68164号
[60] 麦凯博士,《信息理论、推理和学习算法》(2002),剑桥大学出版社
[61] 科斯塔·G。;Ortale,R.,《基于模型的签约社交评级网络合作个性化推荐》,ACM Trans。互联网技术。,16、3、第20条pp.(2016)
[62] 刘,C。;王,X。;卢·T。;朱伟。;Sun,J。;Hoi,S.C.H.,离散社会推荐,(AAAI人工智能会议(2019)论文集),208-215
[63] 王,M。;郑,X。;Yang,Y。;Zhang,K.,《社交曝光的协同过滤:社会推荐的模块化方法》,(AAAI人工智能会议论文集(2018)),2516-2523
[64] Song,W。;肖,Z。;Wang,Y。;查林,L。;张,M。;Tang,J.,通过动态图注意力网络进行基于会话的社交推荐,(ACM网络搜索和数据挖掘国际会议论文集(2019)),555-563
[65] X孟。;王,S。;Shu,K。;Li,J.等人。;陈,B。;刘,H。;张勇,《个性化隐私保护社会推荐》,(AAAI人工智能会议论文集(2018)),3796-3803
[66] 科斯塔·G。;Ortale,R.,《网络中社区和内部角色的概率分析:贝叶斯生成模型和近似推理》,Soc.Netw。分析。最小值,3,4,1015-1038(2013)
[67] 科斯塔·G。;Ortale,R.,通过贝叶斯混合成员模型挖掘具有上下文相关交互的重叠社区和内部角色分配,ACM Trans。知识。发现。数据,12,2,第18条pp.(2018)
[68] 科斯塔·G。;Ortale,R.,《整合重叠社区发现和角色分析:贝叶斯概率生成模型和平均场变分推理》,《工程应用》。Artif公司。智力。,89,第103437条pp.(2020)
[69] 斯泰弗斯,M。;Smyth,P。;Rosen-Zvi,M。;Griffiths,T.,信息发现的概率作者-主题模型(ACM SIGKDD知识发现和数据挖掘国际会议论文集(2004)),306-315
[70] 麦卡勒姆,A。;王,X。;Corrada-Emmanuel,A.,《社交网络中的主题和角色发现与安然和学术电子邮件实验》,J.Artif。智力。研究,30,1,249-272(2007)
[71] 刘,Y。;尼古列斯库·马齐尔(Niculescu-Mizil),A。;Gryc,W.,《主题链接lda:主题和作者社区的联合模型》,(机器学习国际会议论文集(2009)),665-672
[72] Rosen-Zvi,M。;Chemudugunta,C。;格里菲斯,T。;Smyth,P。;Steyvers,M.,从文本语料库学习作者-图片模型,ACM Trans。信息系统。,28,1,第4条pp.(2010)
[73] 李,C。;Wang,H。;张,Z。;Sun,A。;Ma,Z.,带辅助词嵌入的短文本主题建模,(国际ACM SIGIR信息检索研究与开发会议论文集(2016)),165-174
[74] Zuo,Y。;吴杰。;张,H。;Lin,H。;Wang,F。;Xu,K。;Xiong,H.,短文本的主题建模:一种伪文档观点,(ACM SIGKDD知识发现和数据挖掘国际会议论文集(2016)),2105-2114
[75] 强,J。;陈,P。;王,T。;Wu,X.,通过合并单词嵌入对短文本进行主题建模,(太平洋亚洲知识发现和数据挖掘会议论文集(2017)),363-374
[76] 李,C。;Duan,Y。;Wang,H。;张,Z。;Sun,A。;马忠,用辅助词嵌入增强短文本的主题建模,ACM Trans。信息系统。,36,2,第11条第(2017)页
[77] Shi,T。;Kang,K。;Choo,J。;Reddy,C.,通过非负矩阵因式分解丰富了局部词与文本相关性的短文本主题建模,(万维网会议论文集(2018)),1105-1114
[78] Yang,S。;Huang,G.等人。;Cai,B.,发现短文本聚类的主题代表术语,IEEE Access,792037-92047(2019)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。