×

学习文档分类的基本原理。 (英语) Zbl 1458.68180号

摘要:我们提出了一种简单而有效的文档分类方法,将从注释者那里获得的基本原理融入到任何现成分类器的训练中。我们在几个文档分类数据集上的经验表明,我们的分类器无关方法(不假设底层分类器)可以有效地将理性纳入多项式朴素贝叶斯、逻辑回归和支持向量机的训练中。除了与分类器无关之外,我们还表明,我们的方法与以前为合并原理和特征注释而开发的特定于分类器的方法相比,具有相当的性能。此外,我们还提出并评估了一种针对基本原理框架学习的主动学习方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Attenberg,J.、Melville,P.和Provost,F.(2010年)。对标签特征和示例进行主动双重监督的统一方法。欧洲数据库中的机器学习和知识发现会议第40-55页。
[2] Chapelle,O.、Schölkopf,B.和Zien,A.(编辑)。(2006).半监督学习马萨诸塞州剑桥:麻省理工学院出版社。
[3] 克利夫兰,WS;德夫林,SJ,局部加权回归:用局部拟合进行回归分析的方法,美国统计协会杂志,83,596-610,(1988)·Zbl 1248.62054号 ·doi:10.1080/01621459.1988.10478639
[4] Das,S;摩尔,T;Wong,WK;Stumpf,S型;Oberst,我;麦金托什,K;Burnett,M,《最终用户特征标记:基于局部加权逻辑回归的监督和半监督方法》,《人工智能》,204,56-74,(2013)·Zbl 1334.68181号 ·doi:10.1016/j.artint.2013.08.003
[5] Donahue,J.和Grauman,K.(2011年)。视觉识别的注解原理。2011年IEEE国际计算机视觉会议(ICCV)第1395-1402页。
[6] Druck,G.、Settles,B.和McCallum,A.(2009年)。通过标记特征进行主动学习。2009年自然语言处理实证方法会议记录:第一卷第一卷第81-90页。
[7] Fawcett,T,ROC分析简介,模式识别快报,27861-874,(2006)·doi:10.1016/j.patrec.2005.10.010
[8] Fung,G.M.、Mangasarian,O.L.和Shavlik,J.W.(2002)。基于知识的支持向量机分类器。神经信息处理系统研究进展第521-528页。
[9] Girosi,F.和Chan,N.T.(1995年)。rbf网络的先验知识和虚拟示例的创建。用于信号处理的神经网络[1995]V.1995年IEEE研讨会论文集第201-210页·Zbl 1248.62054号
[10] Guyon,I.(2011)。主动学习挑战的结果·Zbl 0938.68774号
[11] Lewis,D.和Catlett,J.(1994年)。监督学习的异构不确定性采样。第十一届机器学习国际会议记录第148-156页。
[12] Lewis,D.D.和Gale,W.A.(1994年)。用于训练文本分类器的序列算法。ACM SIGIR信息检索研究与开发会议第3-12页。
[13] Maas,A.L.、Daly,R.E.、Pham,P.T.、Huang,D.、Ng,A.Y.和Potts,C.(2011)。学习情感分析的词向量。计算语言学协会第49届年会论文集:人类语言技术-第1卷第142-150页。
[14] Melville,P.、Gryc,W.和Lawrence,R.D.(2009年)。将词汇知识与文本分类相结合对博客的情感分析。第15届ACM SIGKDD知识发现和数据挖掘国际会议记录ACM,第1275-1284页。
[15] Melville,P.和Sindhwani,V.(2009年)。主动双重监督:减少注释示例和功能的成本。NAACL HLT 2009自然语言处理主动学习研讨会会议记录第49-57页。
[16] Parikh,D.和Grauman,K.(2011年)。相对属性。2011年IEEE计算机视觉国际会议(ICCV)IEEE,第503-510页。
[17] Parkash,A.和Parikh,D.(2012年)。分类器反馈的属性。计算机愿景——ECCV 2012《施普林格》,第354-368页·Zbl 1009.68131号
[18] 佩德雷戈萨,F;瓦罗佐,G;Gramfort,A;米歇尔,V;蒂里昂,B;格里塞尔,O;布隆德尔,M;普雷滕霍弗,P;韦斯,R;杜堡,V;范德普拉斯,J;帕索斯,A;库纳波,D;布鲁彻,M;佩罗,M;Duchesnay,E,Scikit-learn:机器学习在蟒蛇中的应用,《机器学习研究杂志》,第12期,第2825-2830页,(2011年)·Zbl 1280.68189号
[19] Raghavan,H.和Allan,J.(2007)。一种交互式算法,用于请求特征反馈并将其合并到支持向量机中。第30届ACM SIGIR信息检索研究与开发国际年会会议记录第79-86页。
[20] 拉加万,H;马达尼,O;Jones,R,Parkash:eccv2012,机器学习研究杂志,7,1655-1686,(2006)·Zbl 1222.68283号
[21] Ramirez-Loaiza,M.E.、Sharma,M.、Kumar,G.和Bilgic,M.(2016年)。主动学习:对共同基线的实证研究。数据挖掘与知识发现, 1-27. https://doi.org/10.1007/s10618-016-0469-7。
[22] Roy,N.和McCallum,A.(2001年)。通过误差减少的抽样估计实现最优主动学习。机器学习国际会议第441-448页。
[23] Segal,R.、Markowitz,T.和Arnold,W.(2006年)。标记大型电子邮件语料库的快速不确定性采样。电子邮件和反垃圾邮件会议.
[24] Settles,B.(2012年)。积极学习。人工智能与机器学习综合讲座圣拉斐尔:摩根克莱普尔·Zbl 1270.68006号
[25] Seung,H.S.、Opper,M.和Sompolinsky,H.(1992年)。委员会质询。ACM计算学习理论年度研讨会第287-294页。
[26] Sharma,M.和Bilgic,M.(2013年)。最纯粹与最不确定。IEEE第13届数据挖掘国际会议,第667-676页。
[27] Sharma,M.、Zhuang,D.和Bilgic,M.(2015)。基于文本分类原理的主动学习。计算语言学人类语言技术协会北美分会第441-451页。
[28] Sindhwani,V.、Melville,P.和Lawrence,R.D.(2009年)。主动双重监督的不确定性采样和传导实验设计。机器学习国际会议记录第953-960页。
[29] Small,K.、Wallace,B.、Trikalinos,T.和Brodley,C.E.(2011年)。约束权重空间支持向量机:利用排序特征进行学习。第28届机器学习国际会议(ICML-11)会议记录第865-872页。
[30] Stumpf,S.、Rajaram,V.、Li,L.、Burnett,M.、Dietterich,T.、Sullivan,E.等人(2007年)。利用用户反馈进行机器学习。第十二届智能用户界面国际会议记录第82-91页。
[31] Stumpf,S型;拉贾拉姆,V;李,L;Wong,WK;伯内特,M;饮食疗法,T;沙利文,E;Herlocker,J,《与机器学习系统进行有意义的交互:三个实验》,《国际人类计算机研究杂志》,67,639-662,(2009)·doi:10.1016/j.ijhcs.2009.03.004
[32] 大钳,S;Koller,D,支持向量机主动学习及其在文本分类中的应用,机器学习研究杂志,245-66,(2001)·Zbl 1009.68131号
[33] 毛巾,GG;Shavlik,JW,基于知识的人工神经网络,人工智能,70,119-165,(1994)·Zbl 0938.68774号 ·doi:10.1016/0004-3702(94)90105-8
[34] Towell,G.G.、Shavlik,J.W.和Noordewier,M.(1990年)。基于知识的神经网络对近似领域理论的改进。第八届全国人工智能会议记录第861-866页。
[35] Zaidan,O.、Eisner,J.和Piatko,C.D.(2007年)。使用“注释器原理”来改进文本分类的机器学习。HLT-NAACL公司第260-267页。
[36] Zaidan,O.F.、Eisner,J.和Piatko,C.(2008)。使用注释器原理进行机器学习以降低注释成本。NIPS*2008成本敏感学习研讨会会议记录.
[37] Zhu,J.和Hovy,E.(2007)。积极学习词义消歧,解决班级不平衡问题。2007年自然语言处理和计算自然语言学习实证方法联合会议记录第783-790页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。