×

多标签文档分类的统计主题模型。 (英语) Zbl 1243.68248号

摘要:迄今为止,多标签文档分类的机器学习方法在很大程度上依赖于区分建模技术,如支持向量机。这些方法的一个缺点是,随着标签总数和每个文档的标签数的增加,性能会迅速下降。当标签频率呈现出在真实数据集中经常观察到的高度偏斜分布类型时,这个问题就更加严重了。本文研究了一类多标签文档的生成性统计主题模型,该模型将单个单词标记与不同标签相关联。我们研究了这种方法相对于区分模型的优势,特别是对于涉及大量相对罕见标签的分类问题。我们比较了生成性方法和区分性方法在文档标记任务中的性能,从数千个标签的数据集到数十个标签的数据库。实验结果表明,概率生成模型与判别方法相比,能够实现具有竞争力的多标签分类性能,并且对于标签数量多、标签频率偏大的数据集具有优势。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] EUR-Lex存储库,2010年6月。统一资源定位地址http://www.ke.tu-darmstadt.de/resources/eurlex/eurlex.html。
[2] Allwein,E.L.、Schapire,R.E.和Singer,Y.(2001)。将多类简化为二进制:边缘分类器的统一方法。机器学习研究杂志,113-141·Zbl 1013.68175号
[3] 布莱,D。;McAuliffe,J。;Platt,J.C.(编辑);Koller,D.(编辑);辛格,Y.(编辑);Roweis,S.(编辑),监管主题模型,121-128(2008),剑桥
[4] 布莱,D.M。;Lafferty,J.D.,相关主题模型(2005)
[5] Blei,D.M.、Ng,A.Y.和Jordan,M.I.(2003年)。潜在Dirichlet分配。机器学习研究杂志,3,993-1022·Zbl 1112.68379号
[6] Blei,D.M.、Griffiths,T.L.和Jordan,M.I.(2010年)。嵌套中餐厅过程和主题层次的贝叶斯非参数推断。美国医学会杂志,57,7:1-7:30·Zbl 1327.68187号 ·doi:10.1145/1667053.1667056
[7] 曹,L。;Fei-Fei,L.,并行对象分割和分类的空间相干潜在主题模型(2007)
[8] Crammer,K.和Singer,Y.(2003年)。一系列用于类别排名的在线累加算法。机器学习研究杂志,3,1025-1058·Zbl 1061.68543号
[9] Davis,J。;Goadrich,M.,《精度重新调用和roc曲线之间的关系》,233-240(2006),纽约·doi:10.1145/1143844.1143874
[10] 卡瓦略,A.C.P.L.F。;Freitas,A.A.,《多标签分类技术教程》,第5期,177-195(2009),柏林
[11] Dekel,O.和Shamir,O.(2010年)。多类别多标签分类,类别多于示例。机器学习研究进展跟踪杂志,9,137-144。
[12] Druck,G。;Pal,C。;麦卡勒姆,A。;Zhu,X.,用混合生成/鉴别方法进行半监督分类,280-289(2007),纽约·doi:10.1145/1281192.1281225
[13] Eyheramendy,S.、Genkin,A.、Ju,W.-H.、Lewis,D.D.和Madigan,D.(2003)。文本分类的稀疏贝叶斯分类器(技术报告)。智能社区研究与发展杂志。
[14] Fan,R.-E.和Lin,C.-J.(2007)。多标签分类阈值选择研究(技术报告)。国立台湾大学。
[15] Fan,R.-E.,Chang,K.-W.,Xieh,C.-J.,Wang,X.-R.,&Lin,C.-J(2008)。LIBLINEAR:大型线性分类库。机器学习研究杂志,91871-1874·Zbl 1225.68175号
[16] Forman,G.(2003)。文本分类中特征选择度量的广泛实证研究。机器学习研究杂志,31289-1305·Zbl 1102.68553号
[17] Fürnkranz,J.、Hüllermeier,E.、Mencía,E.L.和Brinker,K.(2008)。通过校准标签排名进行多标签分类。机器学习,73(2),133-153·Zbl 1470.68108号 ·doi:10.1007/s10994-008-5064-8
[18] 北加姆拉维。;McCallum,A.,《集体多标签分类》,195-200(2005),纽约·doi:10.1145/1099554.1099591
[19] Griffiths,T.L.和Steyvers,M.(2004)。寻找科学主题。《美利坚合众国国家科学院院刊》,101(增刊1),5228-5235·doi:10.1073/pnas.0307752101
[20] Har-Peled,S.、Roth,D.和Zimak,D.(2002年)。约束分类:一种新的多类分类和排序方法(技术报告)。美国伊利诺伊州香槟市·Zbl 1024.68081号
[21] Hersh,W。;巴克利,C。;Leone,T.J。;Hickam,D.,OHSUMED:交互式检索评估和新的大型研究测试集,192-201(1994),纽约
[22] Ioannou,M。;萨克斯,G。;Tsoumakas,G。;Vlahavas,I.,《从多标签分类的得分向量中获取双分割》,409-416(2010),华盛顿·doi:10.1109/ICTAI.2010.65
[23] Japkowicz,N.和Stephen,S.(2002年)。阶级失衡问题:一项系统研究。智能数据分析,6(5),429-449·兹比尔1085.68628
[24] 季S。;Tang,L。;于斯。;Ye,J.,提取共享子空间进行多标签分类,381-389(2008),纽约·数字对象标识代码:10.1145/1401890.1401939
[25] 鳄鱼朱利安,S。;沙·F。;Jordan,M.I.,DiscLDA:区分学习用于降维和分类,897-904(2008)
[26] Lewis,D.D.、Yang,Y.、Rose,T.G.和Li,F.(2004年)。RCV1:文本分类研究的新基准集合。机器学习研究杂志,5361-397。
[27] Liu,T.-Y.,Yang,Y.,Wan,H.,Zeng,H.-J.,Chen,Z.,&Ma,W.-Y.(2005)。支持大规模分类的向量机分类。SIGKDD探索新闻稿,7(1),36-43·doi:10.1145/1089815.1089821
[28] Loza Mencía,E。;Fürnkranz,J.,《法律领域大规模问题的有效成对多标签分类》,50-65(2008),柏林·doi:10.1007/978-3-540-87481-2_4
[29] Loza Mencía,E。;Fürnkranz,J.,法律领域大规模问题的高效多标签分类算法(2008)
[30] McCallum,A.K.,EM训练的混合模型的多标签文本分类(1999)
[31] 米姆诺,D。;McCallum,A.,利用Dirichlet-多项式回归对任意特征进行条件化的主题模型(2008)
[32] 米姆诺,D。;李伟(Li,W.)。;McCallum,A.,《等级主题与弹琴分配的混合》,633-640(2007),纽约·数字对象标识代码:10.1145/1273496.1273576
[33] 瑞克,R。;库根,L。;Reformat,M.,来自美国华盛顿特区medline的医疗文档的多标签关联分类·doi:10.1109/CIMLA.2005.47
[34] Ramage,D。;霍尔,D。;纳拉帕蒂,R。;Manning,C.D.,《标签LDA:多标签语料库中信用归因的监督主题模型》,新加坡,2009年8月
[35] 里德·J。;普法林格,B。;霍姆斯,G。;Frank,E.,多标签分类的分类器链,254-269(2009)
[36] Rifkin,R.和Klautau,A.(2004)。为一对一分类辩护。机器学习研究杂志,51532-4435·Zbl 1222.68287号
[37] Rosen-Zvi,M。;格里菲斯,T。;Steyvers,M。;Smyth,P.,《作者和文档的作者-图片模型》,487-494(2004),阿灵顿
[38] Sandhaus,E.(2008)。《纽约时报》注释语料库。语言数据联盟。费城。
[39] Schneider,K.-M.,《关于朴素贝叶斯文本分类中的词频信息和负面证据》(2004)
[40] Sebastiani,F.(2002)。自动文本分类中的机器学习。ACM计算调查,34(1),1-47·doi:10.1145/505282.505283
[41] Teh,Y.W.、Jordan,M.I.、Beal,M.J.和Blei,D.M.(2004)。分层Dirichlet过程。美国统计协会杂志,1011566-1581·Zbl 1171.62349号 ·doi:10.1198/016214500000302
[42] Tsoumakas,G.和Katakis,I.(2007年)。多标签分类:概述。国际数据仓库与挖掘杂志,3(3),1-13·doi:10.4018/jdwm.2007070101
[43] Tsoumakas,G.、Katakis,I.和Vlahavas,I.(2009年)。数据挖掘和知识发现手册。挖掘多标签数据。柏林:斯普林格。
[44] Ueda,N。;Saito,K.,多标签文本的参数混合模型,721-728(2002)
[45] 王,Y。;Sabzmeydani,P。;Mori,G.,《半对数Dirichlet分配:人类行为识别的层次模型》,240-254(2007),柏林·数字对象标识代码:10.1007/978-3-540-75703-017
[46] Yang,Y.(1999)。文本分类统计方法的评估。信息检索,1(1-2),69-90·doi:10.1023/A:1009982220290
[47] Yang,Y.,文本分类的阈值策略研究,137-145(2001),纽约·数字对象标识代码:10.1145/383952.383975
[48] 杨,Y。;张杰。;Kisiel,B.,文本分类中分类器的可伸缩性分析,96-103(2003),纽约
[49] 张,M.-L。;Zhang,K.,利用标签依赖进行多标签学习,999-1008(2010),纽约·数字对象标识代码:10.1145/1835804.1835930
[50] Zhang,M.-L.、Peña,J.M.和Robles,V.(2009年)。多标签朴素贝叶斯分类的特征选择。信息科学,179(19),3218-3229·Zbl 1193.68219号 ·doi:10.1016/j.ins.2009.06.010
[51] 朱,J。;艾哈迈德,A。;Xing,E.P.,MedLDA:回归和分类的最大边际监督主题模型,1257-1264(2009),纽约
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。