×

用于文本分类的联机多标签依赖主题模型。 (英语) Zbl 1458.68159号

摘要:多标签文本分类是一个越来越重要的领域,因为有大量的文本数据可用,提取相关信息在许多应用环境中都很重要。概率生成模型是许多流行的文本挖掘方法的基础,例如朴素贝叶斯(Naive Bayes)或潜在狄利克雷分配(Latent Dirichlet Allocation)。然而,用于多标签文本分类的贝叶斯模型往往过于复杂,无法解释标签依赖性和标签频率倾斜,同时又防止过拟合。为了解决这个问题,我们采用了近年来促成深度学习成功的相同技术:贪婪的分层培训。在监督设置中应用此技术可以防止过拟合,并提高分类精度。这种方法背后的直觉是首先学习标签,然后添加一个更抽象的层来表示标签之间的依赖关系。这允许使用相对简单的分层主题模型可以轻松适应在线设置。我们表明,我们的方法成功地为具有多个标签的大规模多标签数据集在线建模依赖关系,并且比不建模依赖关系的基线方法有所改进。同样的策略,分层贪婪训练,也使批处理变量与现有的更复杂的多标签主题模型竞争。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68单位15 文本处理的计算方法;数学排版
68周27 在线算法;流式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] AlSumait,L.、Barbar,D.和Domeniconi,C.(2008)。在线lda:用于挖掘文本流的自适应主题模型,并应用于主题检测和跟踪。2008年IEEE第八届数据挖掘国际会议(第3-12页)·Zbl 1243.68248号
[2] Asuncion,A.、Welling,M.、Smyth,P.和Teh,Y.W.(2009年)。主题模型的平滑和推理。2009年UAI第25届人工智能不确定性会议记录(第27-34页)。美国弗吉尼亚州阿灵顿:AUAI出版社。
[3] 本吉奥,Y;兰姆林,P;波波维奇,D;拉罗谢尔,H;等。,深度网络的贪婪分层训练,神经信息处理系统进展,19,153,(2007)
[4] Bishop,C.M.(2006年)。模式识别和机器学习(信息科学和统计)纽约:Springer·Zbl 1107.68072号
[5] Canini,K.R.,Shi,L.,&Griffiths,T.L.(2009)。具有潜在dirichlet分配的主题的在线推理。人工智能和统计国际会议记录(第65-72页)。
[6] 封口盖,O;Moulines,E,潜在数据模型的在线期望最大化算法,英国皇家统计学会期刊B辑,71,593-613,(2009)·Zbl 1250.62015年 ·文件编号:10.1111/j.1467-9868.2009.00698.x
[7] Foulds,J.、Boyles,L.、DuBois,C.、Smyth,P.和Welling,M.(2013)。潜在dirichlet分配的随机坍塌变分贝叶斯推断。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’13(第446-454页)。美国纽约:ACM。
[8] Ghamrawi,N.和McCallum,A.(2005年)。集体多标签分类。第14届ACM信息和知识管理国际会议记录(第195-200页)。纽约:ACM。
[9] Gouk,H.、Pfahringer,B.和Cree,M.J.(2016)。学习多标签分类的距离度量。第八届亚洲机器学习会议(第63卷,第318-333页)·兹伯利1317.68163
[10] Griffiths,T.L.和Steyvers,M.(2004)。寻找科学主题。美国国家科学院院刊(第101卷,第5228-5235页)。美国国家科学院。
[11] 通用电气公司Hinton;奥辛德罗,S;Teh,YW,深度信念网络的快速学习算法,神经计算,181527-1554,(2006)·Zbl 1106.68094号 ·doi:10.1162/neco.2006.18.7.1527
[12] Hoffman,M.、Bach,F.R.和Blei,D.M.(2010年)。潜在dirichlet分配的在线学习。神经信息处理系统的研究进展(第856-864页)·Zbl 1106.68094号
[13] 医学博士霍夫曼;布莱,DM;王,C;佩斯利,J,《随机变分推理》,《机器学习研究杂志》,第14期,第1303-1347页,(2013)·兹伯利1317.68163
[14] Huang,S.J.,&Zhou,Z.H.(2012)。利用局部标签相关性进行多标签学习。第二十六届AAAI人工智能会议记录(第949-955页)。加拿大安大略省多伦多:AAAI出版社。
[15] 刘易斯,DD;杨,Y;罗斯,TG;Li,F,Rcv1:文本分类研究的新基准集合,《机器学习研究杂志》,5361-397,(2004)
[16] Li,W.和McCallum,A.(2006)。Pachinko分配:主题相关性的Dag结构混合模型。第23届机器学习国际会议记录(第577-584页)。纽约:ACM。
[17] Li,A.Q.、Ahmed,A.、Ravi,S.和Smola,A.J.(2014)。降低主题模型的采样复杂性。2014年第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第891-900页)。美国纽约州纽约市:ACM。
[18] Loza Mencía,E.和Fürnkranz,J.(2010)。法律领域中大规模问题的高效多标签分类算法。在E.Francesconi、S.Montemagni、W.Peters和D.Tibriscia(编辑)中,法律文本的语义处理——人工智能中的课堂讲稿(第1版,第6036卷,第192-215页)。柏林:斯普林格。
[19] Nam,J.、Kim,J..、Loza Mencía,E.、Gurevych,I.和Fürnkranz,J.(2014)。大规模多标签文本分类-证据神经网络。在T.Calders、F.Esposito、E.Hüllermier和R.Meo(编辑)中,ECML-PKDD程序,第二部分(第437-452页)。柏林,海德堡:施普林格。
[20] Papanikolaou,Y.、Foulds,J.R.、Rubin,T.N.和Tsoumakas,G.(2015)。稀疏样本的稠密分布:LDA的改进吉布斯采样参数估计。ArXiv电子打印·Zbl 1434.68443号
[21] Prabhu,Y.和Varma,M.(2014)。Fastxml:用于极端多标签学习的快速、准确和稳定的树分类器。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD'14(第263-272页)。美国纽约:ACM。
[22] Ramage,D.、Hall,D.、Nallapati,R.和Manning,C.D.(2009年)。标签lda:多标签语料库中信用归因的监督主题模型。2009年自然语言处理实证方法会议记录:第1卷,EMNLP’09(第248-256页)。美国斯特劳德斯堡:计算语言学协会。
[23] 里德,J;普法林格,B;霍姆斯,G;Frank,E,多标签分类的分类器链,机器学习,85,333-359,(2011)·doi:10.1007/s10994-011-5256-5
[24] Rosen-Zvi,M.、Griffiths,T.、Steyvers,M.和Smyth,P.(2004)。作者和文档的作者-图片模型。2004年UAI第20届人工智能不确定性会议记录(第487-494页)。美国弗吉尼亚州阿灵顿:AUAI出版社。
[25] 鲁宾,T;钱伯斯,A;Smyth,P;Steyvers,M,多标签文档分类的统计主题模型,机器学习,88,157-208,(2012)·Zbl 1243.68248号 ·doi:10.1007/s10994-011-5272-5
[26] Teh,YW;密歇根州约旦;比尔,MJ;Blei,DM,层次Dirichlet过程,美国统计协会杂志,1011566-1581,(2006)·Zbl 1171.62349号 ·doi:10.19198/0162114506000000302
[27] Teh,Y.W.、Newman,D.和Welling,M.(2006)。一种用于潜在dirichlet分配的折叠变分贝叶斯推理算法。神经信息处理系统的研究进展(第1353-1360页)。
[28] Tsoumakas,G;Katakis,I,《多标签分类:概述》,《国际数据仓库与挖掘杂志》,2007,1-13,(2007)·doi:10.4018/jdwm.2007070101
[29] Tsoumakas,G.和Vlahavas,I.(2007年)。随机k标签集:多标签分类的集成方法。在J.N.Kok、J.Koronacki、R.L.d.Mantaras、S.Matwin、d.Mladinič和A.Skowron(编辑)中,ECML会议记录(第406-417页)。波兰华沙:斯普林格。
[30] Wallach,H.M.、Mimno,D.M.和McCallum,A.(2009年)。重新思考lda:为什么前科很重要。在Y.Bengio、D.Schuurmans、J.Lafferty、C.Williams、A.Culotta(编辑)中,神经信息处理系统的进展22(第1973-1981页)。Curran Associates公司。
[31] Wicker,J.、Pfahringer,B.和Kramer,S.(2012年)。使用布尔矩阵分解的多标签分类。2012年SAC第27届ACM应用计算研讨会会议记录(第179-186页)。美国纽约:ACM。
[32] Wicker,J.、Tyukin,A.和Kramer,S.(2016年)。基于自编码器的非线性标签压缩与变换多标签分类方法(第328-340页)。查姆:斯普林格国际出版公司。
[33] Yen,I.E.H.,Huang,X.,Ravikumar,P.,Zhong,K.,&Dhillon,I.(2016)。Pd-sparse:一种用于极端多类和多标签分类的原始和双重稀疏方法。第33届机器学习国际会议记录(第3069-3077页)。纽约:ACM。
[34] 张,L;沙阿,S;Kakadiaris,I,使用完全关联集成学习的分层多标签分类,模式识别,70,89-103,(2017)·doi:10.1016/j.patcog.2017.05.007
[35] Zhang,M.L.和Zhang、K.(2010年)。利用标签依赖进行多标签学习。第16届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’10(第999-1008页)。美国哥伦比亚特区华盛顿:ACM·Zbl 1171.62349号
[36] 张,ML;周,ZH,多标签学习算法综述,IEEE知识与数据工程汇刊,261819-1837,(2014)·doi:10.1109/TKDE.2013.39
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。