×

用于建模时间数据中非线性演化轨迹的分层演化Dirichlet过程。 (英语) Zbl 1416.62365号

摘要:聚类分析旨在将一组相似的数据对象分组到同一个集群中。主题模型属于软聚类方法,是发现大数据集背后潜在聚类/主题的有力工具。由于时态数据的动态特性,簇通常表现出复杂的模式,例如出生、分支和死亡然而,大多数现有的时间聚类模型都假设簇是以线性链的形式演化的,它们不能建模和检测簇的分支。在本文中,我们提出了演化Dirichlet过程(简称EDP)来建模时序数据背后的非线性演化轨迹,特别是对于时序文本集合。在EDP的背景下,时间集合被划分为不同的时代。为了对随时间变化的集群分支进行建模,EDP允许一个时代中的每个集群形成Dirichlet进程(DP),并使用特定于集群的DP的组合作为下一个时代集群分布的优先级。为分层时间建模我们提出了一类新的演化层次Dirichlet过程(简称EHDP),它扩展了层次Diricwlet过程(HDP)来建模演化的时态数据。我们设计了一个基于Gibbs抽样的在线学习框架来推断集群随时间的演化轨迹。在实验中,我们验证了EDP和EHDP能够在合成和真实文本集合上捕获簇的非线性演化轨迹,并且比同类算法获得更好的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62米10 统计学中的时间序列、自相关、回归等(GARCH)
60克10 平稳随机过程

软件:

贝叶斯DA
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmed A,Ho Q,Teo C,Eisenstein J,Smola A,Xing E(2011)《无限集群模型的在线推断:流文本的故事情节》。摘自:第14届人工智能与统计会议(AISTATS)会议记录,第101-109页
[2] Ahmed A、Hong L、Smola A(2013)《嵌套中餐厅特许经营流程:用户跟踪和文档建模应用》。摘自:第30届机器学习国际会议(ICML-13)论文集,第1426-1434页
[3] Ahmed A,Xing E(2008)动态非参数混合模型和递归中餐厅过程:在进化聚类中的应用。摘自:2008年SIAM数据挖掘国际会议论文集。SIAM,第219-230页
[4] Ahmed A,Xing EP(2010)Timeline:一个动态分层狄利克雷过程模型,用于恢复文本流中主题的出生/死亡和演变。摘自:《第26届人工智能不确定性会议录》,UAI’10,第20-29页
[5] Antoniak CE等人(1974)dirichlet过程与贝叶斯非参数问题应用的混合。Ann统计2(6):1152-1174·Zbl 0335.60034号
[6] Banerjee A,Basu S(2007),文本流主题模型:批处理和在线无监督学习研究。在:传感和诊断模块。SIAM,第7卷,第437-442页
[7] Blei DM,Frazier PI(2011),距离依赖型中国餐厅流程。J Mach学习研究12:2461-2488·Zbl 1280.68157号
[8] Blei DM,Frazier PI(2011),距离依赖型中国餐厅流程。J Mach学习研究12:2461-2488·Zbl 1280.68157号
[9] Blei DM,Jordan MI等人(2006),dirichlet工艺混合物的变分推断。贝叶斯分析1(1):121-143·Zbl 1331.62259号
[10] Blei DM,Lafferty JD(2006)动态主题模型。摘自:第23届机器学习国际会议论文集。ACM,第113-120页
[11] Blei DM、Ng AY、Jordan MI(2003)《潜在的dirichlet分配》。J Mach学习研究3:993-1022·Zbl 1112.68379号
[12] 波义耳,L。;Welling,M.,《分层聚类的时间边缘化融合先验》,2969-2977(2012),伦敦
[13] Chakrabarti D、Kumar R、Tomkins A(2006)《进化聚类》。摘自:第12届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’06。ACM,纽约,第554-560页
[14] Chen C,Ding N,Buntine W(2012)动态主题建模的依赖层次归一化随机度量。arXiv预打印arXiv:1206.4671第8页
[15] Chi Y,Song X,Zhou D,Hino K,Tseng BL(2007)结合时间平滑度的进化谱聚类。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第153-162页
[16] De Smet W,Moens MF(2013)《多文档事件聚类的表示》。《数据最小知识发现》26(3):533-558。doi:10.1007/s10618-012-0270-1·Zbl 1267.68179号 ·doi:10.1007/s10618-012-0270-1
[17] 刁Q,江J,朱峰,林恩平(2012)从微博中发现突发性话题。收录:计算语言学协会第50届年会会议记录:长篇论文——第1卷。计算语言学协会,第536-544页
[18] Gao Z,Song Y,Liu S,Wang H,Wei H,Chen Y,Cui W(2011)通过增量层次dirichlet过程跟踪和连接主题。2011年IEEE第11届数据挖掘国际会议(ICDM)。IEEE,第1056-1061页
[19] Gelman A、Carlin JB、Stern HS、Dunson DB、Vehtari A、Rubin DB(2013)贝叶斯数据分析。博卡拉顿CRC出版社·Zbl 1279.62004号
[20] Gordon N,Ristic B,Arulampalam S(2004)《卡尔曼滤波器之外:跟踪应用的粒子滤波器》。Artech House,伦敦·Zbl 1092.93041号
[21] Griffin JE,Steel MJ(2006),基于订单的依赖性dirichlet工艺。美国统计协会期刊101(473):179-194·Zbl 1118.62360号
[22] Griffiths TL、Steyvers M(2004)《寻找科学主题》。国家科学院学报101(增刊1):5228-5235
[23] Griffiths DMBTL,Tenenbaum MIJJB(2004)层次主题模型和嵌套式中餐厅流程。高级神经信息处理系统16:17
[24] Kawamae N(2011)趋势分析模型:趋势由时间词、主题和时间戳组成。收录:第四届ACM网络搜索和数据挖掘国际会议论文集。ACM,第317-326页
[25] Kawamae N(2012)主题编年史模型:编年史由每个主题的时间戳和主题词组成。摘自:第21届ACM信息和知识管理国际会议记录,CIKM’12。ACM,纽约,第2065-2069页
[26] Kingman JF(1982a)关于大种群的系谱。应用概率杂志19:27-43·Zbl 0516.92011号
[27] Kingman JFC(1982b)《合并》。Stoch过程应用程序13(3):235-248·Zbl 0491.60076号
[28] Leskovec J、Backstrom L、Kleinberg J(2009)《Meme-tracking and the dynamics of the news cycle》。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第497-506页
[29] Li AQ,Ahmed A,Ravi S,Smola AJ(2014)降低主题模型的采样复杂性。摘自:第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第891-900页
[30] Lin D,Grimson E,Fisher III JW(2010)基于泊松过程的依赖dirichlet过程的构造。神经信息处理系统第1396-1404页
[31] MacEachern SN(2000)依赖dirichlet进程。俄亥俄州立大学统计系未出版手稿,第1-40页
[32] Neal RM(2000)dirichlet过程混合模型的马尔可夫链抽样方法。J计算图统计9(2):249-265
[33] Neal RM(2003)使用狄利克雷扩散树的密度建模和聚类。贝叶斯统计7:619-629
[34] Ren L,Dunson DB,Carin L(2008)动态分层dirichlet过程。收录于:第25届机器学习国际会议论文集。ACM,第824-831页
[35] Shahaf D,Yang J,Suen C,Jacobs J,Wang H,Leskovec J(2013)《信息制图:创建可缩放的大规模信息地图》。在:第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第1097-1105页
[36] 孙毅,唐杰,韩杰,陈C,古普塔M(2013)动态星网络中多类型对象的协同进化。IEEE Trans Knowl数据工程99:1
[37] Teh YW(2006)基于pitman-y过程的分层贝叶斯语言模型。摘自:第21届计算语言学国际会议记录和计算语言学协会第44届年会。计算语言学协会,第985-992页
[38] Teh YW、Jordan MI、Beal MJ、Blei DM(2006)《分层Dirichlet过程》。美国统计协会期刊101(476):1566-1581·Zbl 1171.62349号
[39] Teh,YW;Kurihara,K。;Welling,M.,《HDP的坍塌变分推断》,1481-1488(2008),伦敦
[40] Thibaux R,Jordan MI(2007)分层测试过程和印度自助餐过程。摘自:国际人工智能与统计会议,第564-571页
[41] Wallach HM、Murray I、Salakhutdinov R、Mimno D(2009)主题模型评估方法。摘自:第26届机器学习国际年会论文集。ACM,第1105-1112页
[42] Wang C,Paisley JW,Blei DM(2011)分层dirichlet过程的在线变分推理。摘自:国际人工智能和统计会议,第752-760页
[43] Wang X,Ma X,Grimson WEL(2009)使用分层贝叶斯模型在拥挤和复杂场景中的非监督活动感知。IEEE Trans-Pattern Ana Mach Intell公司31(3):539-555
[44] Wang X,McCallum A(2006)《随时间变化的主题:主题趋势的非马尔可夫连续时间模型》。摘自:第12届ACM SIGKDD知识发现和数据挖掘国际会议记录,第424-433页。ACM公司
[45] Xu K,Kliger M,Hero A III(2014)自适应进化聚类。数据最小知识发现28(2):304-336。文件编号:10.1007/s10618-012-0302-x·Zbl 1281.68200号 ·文件编号:10.1007/s10618-012-0302-x
[46] Xu MEKJ(1996)一种基于密度的算法,用于发现带有噪声的大型空间数据库中的簇。摘自:第二届知识发现和数据挖掘国际会议论文集(KDD-96)。AAAI,第226-231页
[47] Yang T,Chi Y,Zhu S,Gong Y,Jin R(2011)利用贝叶斯方法检测动态社会网络中的社区及其演变。马赫数学习82(2):157-189·兹比尔1237.91189
[48] Yao L,Mimno D,McCallum A(2009)流式文档集主题模型推理的有效方法。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第937-946页
[49] Zhang J,Song Y,Zhang C,Liu S(2010)多相关时变语料库的进化层次dirichlet过程。摘自:第16届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第1079-1088页
[50] Zhang P,Gao BJ,Liu P,Shi Y,Guo L(2012)应用驱动的数据流分类框架。神经计算92:170-182
[51] Zhang P,Zhou C,Wang P,Gao BJ,Zhu X,Guo L(2015)E-tree:数据流集合模型的高效索引结构。IEEE Trans Knowl Data Eng 27(2):461-474
[52] Zhang W,Li R,Feng D,Chernikov A,Chrisochoides N,Osgood C,Ji S(2015)《进化软联合聚类:公式、算法和应用》。数据最小知识发现29(3):765-791·Zbl 1405.62087号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。