×

基于主题建模的文档中主题流行度的新度量和测试。 (英语) Zbl 07710399号

摘要:目的是引入一种量度来量化文本中特定主题的相关性,并开发一种方法来测试各种书面文件中的相关性是否相同。提出的指标可用于跟踪一系列文档中主题的演变,或测量给定文本在相关文献中的影响。为此,创新性地将文本挖掘工具与贝叶斯统计方法和频率统计方法相结合。首先,建议使用基于最新技术的主题建模来识别相关主题。通过使用贝叶斯技术,导出的模型用于量化通过给定的一组术语或关键词定义的主题的相对重要性。然后,提出了一个双样本检验统计量来比较两组文献中受试者的患病率。鉴于所涉及的参数分布的复杂性,建议使用无分布引导方法。将确定该方法的基本原理。通过仿真分析了该测试的正确性和一致性。该方法用于通过项目评估欧盟投资对相关科学生产的影响,并用于情绪分析。

MSC公司:

68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aiello,L.M。;佩特科斯,G。;马丁·C。;科尼·D·。;帕帕佐普洛斯,S。;斯科拉巴,R。;Göker,A。;Kompatsiaris,I。;Jaimes,A.,《感知推特中的趋势主题》,IEEE Trans。多媒体。,15, 6, 1268-1282 (2013)
[2] Amer,A.A。;Abdalla,H.I.,《基于集合论的文本聚类和分类相似性度量》,《大数据杂志》,第7、1、1-43页(2020年)
[3] Baccouche,A。;艾哈迈德,S。;Sierra-Sosa,D。;Elmaghraby,A.,《恶意文本识别:从公众评论和电子邮件中深度学习》,《信息》,第11、6、312页(2020年)
[4] 布莱,D.M。;Ng,A.Y。;Jordan,M.I.,《潜在迪里克莱分配》,J.Mach。学习。决议,3,993-1022(2003)·Zbl 1112.68379号
[5] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号
[6] Carretero Campos,C.公司。;Bernaola-Galván,P。;科罗拉多,A。;Carpena,P.,《改进短文本中的统计关键词检测:熵和聚类方法》,Physica A,392,61481-1492(2013)
[7] 切里夫·阿卜杜拉蒂夫(Chérief-Abdellatif),B.-E。;Alquier,P.,混合估计和模型选择的变分贝叶斯推理的一致性,电子。《美国法律总汇》第12、2、2995-3035页(2018)·Zbl 1403.62035号
[8] 科斯塔·G。;Ortale,R.,《潜在主题和语义簇的无监督联合分析的分层贝叶斯文本建模》,《国际期刊近似推理》。(2022) ·Zbl 07554491号
[9] De Campos,L.M。;Romero,A.E.,《同义词库分层文本分类的贝叶斯网络模型》,《国际期刊近似推理》。,50, 7, 932-944 (2009)
[10] Deerwester,S.公司。;杜马斯,S.T。;Furnas,G.W。;Landauer,T.K。;Harshman,R.,《潜在语义分析索引》,美国社会科学杂志。,41, 6, 391-407 (1990)
[11] DiMaggio,P。;Nag,M。;布莱,D.,《利用主题建模与文化社会学视角之间的密切关系:美国政府艺术基金在报纸报道中的应用》,《诗学》,41,6,570-606(2013)
[12] Efron,B.,《贝叶斯主义者、频率学家和科学家》,《美国统计协会期刊》,100,469,1-5(2005)·Zbl 1117.62325号
[13] Efron,B.,贝叶斯估计的频繁精确度,J.R.Stat.Soc.,Ser。B、 统计方法。,77, 3, 617-646 (2015) ·Zbl 1414.62089号
[14] 费拉罗,M.B。;Giordani,P.,软聚类,Wiley Interdiscip。版本:计算。Stat.,12,1,第1480条pp.(2020)
[15] 加巴普,V。;Bodapati,P.,《使用圣经数据对潜在语义分析和潜在Dirichlet分配主题建模方法的比较分析》,《印度科学杂志》。技术。,13, 44, 4474-4482 (2020)
[16] Gentzkow,M。;凯利,B。;Taddy,M.,《文本作为数据》,J.Econ。升。,57, 3 (2019)
[17] 戈尔巴尼,B。;贾瓦迪,H。;Montanari,A.,主题模型变分推理的不稳定性,(机器学习国际会议(2019),PMLR),2221-2231
[18] González-Rodríguez,G。;科卢比,A。;Gil,M.á。,模糊数据作为功能数据处理:单向方差分析测试方法,计算。统计数据分析。,56, 4, 943-955 (2012) ·Zbl 1243.62104号
[19] Griffiths,T.L。;Steyvers,M.,《寻找科学主题》,Proc。国家。阿卡德。科学。,101,补编1,5228-5235(2004)
[20] 哈桑,M。;拉赫曼,A。;卡里姆·M·R。;M.S.I.Khan。;Islam,M.J.,在潜在Dirichlet分配(lda)中找到最佳主题数的标准化方法,(计算与认知工程趋势国际会议论文集(2021),Springer),341-354
[21] Hofmann,T.,概率潜在语义索引,(第22届国际ACM SIGIR信息检索研究与开发会议论文集(1999)),50-57
[22] 胡,M。;Liu,B.,挖掘和总结客户评论,(第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集(2004)),168-177
[23] Huang,A.,文本文档聚类的相似性度量,(第六届新西兰计算机科学研究学生会议论文集(NZCSRSC2008),新西兰基督城,第4卷(2008)),9-56
[24] Jentsch,C。;Lee,E.R。;Mammen,E.,政治文本数据分析的时间依赖泊松降秩模型,计算。统计数据分析。,142,第106813条pp.(2020)·Zbl 1507.62084号
[25] Kaiser,H.F.,《因子分析中分析旋转的方差最大标准》,《心理测量学》,23,3,187-200(1958)·Zbl 0095.33603号
[26] 卡拉马拉,E。;特雷尔,A。;Redl,C。;卡佩塔尼奥斯,G。;Kapadia,S.,《让文本发挥作用:利用报纸文本进行经济预测》,J.Appl。经济。,37, 5, 896-919 (2022)
[27] Kalepalli,Y。;塔斯尼姆,S。;Teja,P.D.P。;Manne,S.,《lda与lsa在主题建模方面的有效比较》,(2020年第四届智能计算与控制系统国际会议(ICICCS)(2020年),IEEE),1245-1250
[28] 凯利,B。;帕帕尼科劳,D。;塞鲁,A。;Taddy,M.,《衡量长期技术创新》(2018),国家经济研究局,技术报告
[29] Kim,D。;Seo,D。;Cho,S。;Kang,P.,使用各种文档表示进行文档分类的多重训练:Tf-idf、lda和doc2vec,Inf.Sci。,477, 15-29 (2019)
[30] 克莱纳。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,《海量数据的可扩展引导》,J.R.Stat.Soc.,Ser。B、 《美国统计年鉴》。,76, 4, 795-816 (2014) ·Zbl 07555464号
[31] Kowsari,K。;Jafari Meimandi,K。;Heidarysafa,M。;Mendu,S。;巴恩斯,L。;Brown,D.,《文本分类算法:调查》,Information,10,4,150(2019)
[32] Lau,J.H。;Baldwin,T.,《利用对文档嵌入生成的实际见解对doc2vec进行实证评估》(2016年),arXiv预印本
[33] Le,Q。;Mikolov,T.,句子和文档的分布式表示,(机器学习国际会议(2014),PMLR),1188-1196
[34] Lenz,D。;Winker,P.,《用段落向量主题模型衡量创新的扩散》,《公共科学图书馆·综合》,第15卷,第1期,文章e0226685页(2020年)
[35] 刘,B。;胡,M。;Cheng,J.,《意见观察家:分析和比较网络上的意见》,(第十四届万维网国际会议论文集(2005)),342-351
[36] Lüdering,J。;Winker,P.,向前看还是向后看?经济话语和观察到的现实,贾尔布。Natl.ökon。统计,236,4,483-515(2016)
[37] Maier,D。;瓦尔德尔,A。;米尔特纳,P。;魏德曼,G。;Niekler,A。;Keinert,A。;Pfetsch,B。;海耶,G。;Reber,美国。;Häussler,T.,《将lda主题建模应用于传播研究:走向有效可靠的方法论》,Commun。方法测量。,12, 2-3, 93-118 (2018)
[38] Mathaisel,D.F。;Comm,C.L.,《政治营销与数据分析》,J.Market。分析。,9, 1, 56-64 (2021)
[39] 奥南,A。;Korukoğlu,S。;Bulut,H.,文本分类中关键词提取方法和分类器的集成,专家系统。申请。,57, 232-247 (2016)
[40] Porter,K.,使用lda主题建模分析暗网市场子编辑工具和趋势的演变,Digit。投资。,26,S87-S97(2018)
[41] Qomariyah,S。;北爱尔兰湾。;Fithriasari,K.,《使用潜在Dirichlet分配和潜在语义分析对推特数据进行主题建模》(AIP Conference Proceedings,vol.2194(2019),AIP Publishing LLC),第020093页。
[42] Rebholz-Schhmann,D。;奥利希,A。;Hoehndorf,R.,《生物医学研究的文本管理解决方案:实现综合生物学》,《自然评论遗传学》。,13, 12, 829-839 (2012)
[43] Reynolds,D.A.,高斯混合模型,(生物统计学百科全书,第741卷(2009)),659-663
[44] 罗伯茨,M.E。;B.M.斯图尔特。;Tingley,D.,Stm:结构主题模型的r包,J.Stat.Softw。,91, 1, 1-40 (2019)
[45] Salton,G。;Buckley,C.,自动文本检索中的术语加权方法,Inf.Process。管理。,24, 5, 513-523 (1988)
[46] Sbalchiero,S。;Eder,M.,主题建模,长文本和最佳主题数。一些问题和解决方案,Qual。数量。,54, 4 (2020)
[47] 索里亚诺,J。;金、钍。;Banks,D.,《计算广告中的文本挖掘》,《统计分析》。数据最低ASA数据科学。J.,6,4,273-285(2013)·Zbl 07260368号
[48] Sun,W。;蔡,Z。;李,Y。;刘,F。;方,S。;Wang,G.,《电子病历的数据处理和文本挖掘技术:综述》,J.Healthc。工程,2018(2018)
[49] 洛杉矶托斯鲁德(Thorsrud,L.A.),《单词是新的数字:商业周期的新闻重合指数》(J.Bus)。经济。统计,38,2393-409(2020年)
[50] 瓦扬斯基,I。;Kumar,S.A.,《主题建模方法综述》,《信息科学》。,94,第101582条pp.(2020)
[51] Vrbanec,T。;Meštrović,A.,基于语料库的复述检测实验与综述,《信息》,第11、5、241页(2020年)
[52] Wang,Y。;Blei,D.M.,变分贝叶斯的频繁一致性,美国统计协会,114,527,1147-1161(2019)·Zbl 1428.62119号
[53] 魏,X。;Croft,W.B.,基于Lda-的特别检索文档模型,(第29届国际ACM SIGIR信息检索研究与开发会议论文集(2006)),178-185
[54] Winker,P.,《计量经济学中的文本挖掘》(最终CRoNoS春季课程(2019年),利马索尔)
[55] 夏,W。;Doss,H.,潜在Dirichlet分配的可缩放超参数选择,J.Compute。图表。统计,29,4,875-895(2020年)·Zbl 07500363号
[56] 尹,J。;Wang,J.,基于Dirichlet多项式混合模型的短文本聚类方法,(第20届ACM SIGKDD国际知识发现和数据挖掘会议论文集(2014)),233-242
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。