×

使用混合贝叶斯模型检测主题变化点。 (英语) Zbl 1494.68266号

摘要:动态文本文档,包括新闻文章、用户评论和博客,现在在许多领域都很常见。因此,文本流的主题也会随着时间而变化。为了掌握文本文档不断积累中的主题变化,非常需要开发自动文本分析模型来发现主题的关键变化。为此,本研究提出了一种主题变化点检测(topic-CD)模型。与以往的研究不同,我们从与主题词分布相关的超参数的角度来定义主题的变化点。这允许模型检测整个主题集的更改点。在这个定义下,主题建模和变化点检测结合在一个统一的框架中,然后使用马尔可夫链蒙特卡罗算法同时执行。此外,Topic-CD模型不需要预先设置更改点的数量,这使得它更便于实际使用。我们使用合成数据和三个实际数据集对Topic-CD模型的性能进行了数值研究。结果表明,与几种先进的方法相比,Topic-CD模型能够很好地识别主题中的变化点。

MSC公司:

68T50型 自然语言处理
62英尺15英寸 贝叶斯推断
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmed A,Xing EP(2008)动态非参数混合模型和递归中餐厅过程:应用于进化聚类。摘自:SIAM数据挖掘国际会议论文集。第219-230页
[2] Ahmed A,Xing EP(2010)Timeline:一种动态分层Dirichlet过程模型,用于恢复文本流中主题的生/死和演化。摘自:第二十六届人工智能不确定性会议论文集。第20-29页
[3] AlSumait L,BarbaráD,Domeniconi C(2008)《在线LDA:挖掘文本流的自适应主题模型》,以及主题检测和跟踪应用程序。摘自:第八届IEEE数据挖掘国际会议论文集。第3-12页
[4] Bai,J.,多元回归模型中变化点的估计,Rev Econ Statist,79,4,551-563(1997)·doi:10.1162/003465397557132
[5] 比弗曼,D。;伯杰,A。;Lafferty,J.,《文本分割的统计模型》,《马赫学习》,34,1-3,177-210(1999)·Zbl 0917.68171号 ·doi:10.1023/A:1007506220214
[6] Blei,DM,概率主题模型,Commun ACM,55,4,77-84(2012)·doi:10.1145/2133806.2133826
[7] Blei DM,Lafferty JD(2006)动态主题模型。摘自:第二十三届机器学习国际会议论文集。第113-120页
[8] 布莱,D。;Mcauliffe,JD,监管主题模型,Adv Neural Inf Process Syst,3,327-332(2008)
[9] 布莱,DM;Ng、AY;Jordan,MI,潜在狄利克雷分配,《马赫学习研究杂志》,31993-1022(2003)·Zbl 1112.68379号
[10] Bruggermann D、Hermey Y、Orth C、Schneider D、Selzer S、Spanakis G(2016)使用动态潜在Dirichlet分配进行故事线检测和跟踪。摘自:第二届计算机新闻故事情节研讨会论文集(CNS 2016)。第9-19页
[11] Chae J、Thom D、Bosch H、Yun J、Maciejewski R、Ebert DS、Ertl T(2012)使用季节趋势分解进行异常事件检测和检查的时空社交媒体分析。参加:IEEE视觉分析科学与技术会议。第143-152页
[12] Chib,S.,《多变化点模型的估计和比较》,《经济杂志》,86,2,221-241(1998)·Zbl 1045.62510号 ·doi:10.1016/S0304-4076(97)00115-2
[13] Dieng AB、Ruiz F、Blei DM(2019)动态嵌入主题模型。arXiv:1907.05545
[14] Dubey A、Hefny A、Williamson S、Xing EP(2013)一种随时间变化的主题建模非参数混合模型。摘自:SIAM数据挖掘国际会议论文集。第530-538页
[15] Greene,D。;Cross,JP,使用动态主题建模方法探索欧洲议会的政治议程,《政治分析》,25,1,77-94(2016)·doi:10.1017/pan.2016.7
[16] 郭,X。;Xiang,Y。;陈,Q。;黄,Z。;Hao,Y.,使用张量因子分解的基于LDA的在线主题检测,J Inf Sci,39,4,459-469(2013)·doi:10.1177/0165551512473066
[17] 哈桑,M。;马萨诸塞州奥尔根;Schwitter,R.,《Twitter数据流实时事件检测调查》,《信息科学杂志》,44,4,443-463(2017)·doi:10.1177/0165551517698564
[18] He,J。;陈,X。;杜,M。;Jiang,H.,基于改进的在线LDA模型的主题演变分析,中南大学(科技),46,2,547-553(2015)
[19] Hoffman MD、Blei DM、Bach FR(2010)潜在Dirichlet分配的在线学习。参加:神经信息处理系统国际会议。第1-9页
[20] Holz F,Teresniak S(2010)《主题变化的自动检测和跟踪》。第十一届计算语言学和智能文本处理国际会议。第327-339页
[21] Ishwaran,H。;James,LF,Gibbs《破胶前期取样方法》,美国统计协会杂志,96,453,161-173(2001)·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[22] Kawamae N(2011)趋势分析模型:趋势由时间词、主题和时间戳组成。收录:第四届ACM网络搜索和数据挖掘国际会议论文集。第317-326页
[23] Ko、SIM卡;Chong,TTL;Ghosh,P.,Dirichlet过程隐马尔可夫多变点模型,贝叶斯分析,10,2,275-296(2015)·Zbl 1335.62052号 ·doi:10.1214/14-BA910
[24] Lan D、Buntine W、Johnson M(2013)《结构化主题模型的主题分割》。收录:计算语言学协会北美分会:人类语言技术(NAACL-HLT)年会论文集。第190-200页
[25] Lau J,Collier N,Baldwin T(2012)《在线趋势分析与主题模型:推特趋势检测在线主题模型》。摘自:第24届计算语言学国际会议论文集。第1519-1534页
[26] Lin C,He Y(2009)情绪分析的联合情绪/主题模型。摘自:第18届ACM信息和知识管理会议记录。第375-384页
[27] Mohamad S,Bouchachia A(2019)在线高斯LDA,用于从公用设施使用数据进行无监督模式挖掘。arXiv:1910.11599
[28] Nallapati RM、Ditmore S、Lafferty JD、Ung K(2007)多尺度主题断层成像。参加:知识发现和数据挖掘国际会议。第520-529页
[29] 佩夫兹纳,L。;Hearst,M.,《文本分割评估指标的批判与改进》,《计算语言学》,28,1-19(2002)·doi:10.1162/089120102317341756
[30] Pozdnoukhov A,Kaiser C(2011)流文本中主题的时空动态。参加:ACM Sigspatial基于位置的社交网络国际研讨会。第1-8页
[31] Ramage D,Hall D,Nallapati R,Manning CD(2009)标签LDA:多标签语料库中信用归因的监督主题模型。摘自:2009年自然语言处理实证方法会议记录。第248-256页
[32] Sasaki K、Yoshikawa T、Furuhashi T(2014)推特在线主题模型,考虑了用户兴趣和主题趋势的动态。在:自然语言处理中的经验方法会议记录。第1977-1985页
[33] Teh,YW;密歇根州约旦;比尔,MJ;Blei,DM,《分层Dirichlet过程》,美国统计学会杂志,101,476,1566-1581(2006)·Zbl 1171.62349号 ·doi:10.1198/016214500000302
[34] Truong,C。;奥德雷。;Vayatis,N.,离线变化点检测方法的选择性审查,信号处理,167107299(2020)·doi:10.1016/j.sigpro.2019.107299
[35] Vavliakis KN、Tzima FA、Mitkas PA(2012),通过LDA进行2012年中期SED任务的事件检测。In:MediaEval 2012研讨会会议记录
[36] Wang Y,Goutte C(2018)使用在线主题模型的实时变化点检测。摘自:第27届计算语言学国际会议论文集。第2505-2515页
[37] Wang X,Mccallum A(2006)《随时间变化的主题:主题趋势的非马尔可夫连续时间模型》。摘自:ACM SIGKDD知识发现和数据挖掘国际会议论文集。第424-433页
[38] Wang C,Blei D,Heckerman D(2015)连续时间动态主题模型。arXiv:1206.3298
[39] 吴琼。;张,C。;洪,Q。;Chen,L.,基于LDA和HMM的主题进化及其在干细胞研究中的应用,《信息科学杂志》,40,5,611-620(2014)·doi:10.1177/0165551514540565
[40] Zhang,Y。;陈,H。;卢,J。;Zhang,G.,《检测和预测知识型系统的主题变化:1991年至2016年基于主题的文献计量分析》,《基于知识的系统》,133255-268(2017)·doi:10.1016/j.knosys.2017.07.011
[41] 钟,N。;Schweidel,DA,捕捉社交媒体内容的变化:一个多潜在的变化点主题模型,Mark Sci,39,42827-846(2020)·doi:10.1287/mksc.2019.1212
[42] 周,X。;Chen,L.,Twitter社交媒体流事件检测,VLDB J,23,3,381-400(2014)·doi:10.1007/s00778-013-0320-3
[43] 周,H。;Yu,H。;Hu,R.,基于概率主题模型的主题演化:综述,前沿计算科学,11,5,786-802(2017)·doi:10.1007/s11704-016-5442-5
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。