×

优化概率主动学习(OPAL)。用于快速、非近视、成本敏感的主动分类。 (英语) Zbl 1341.68160号

摘要:与自动生成的数据量不断增加相比,人工注释能力仍然有限。因此,允许有效分配注释工作的快速主动学习方法变得越来越重要。此外,成本敏感的应用,如欺诈检测,带来了类别之间不同的错误分类成本的额外挑战。不幸的是,现有的少数成本敏感的主动学习方法依赖于耗时的步骤,例如对样本进行自我标记或冗长的评估。我们提出了一种快速、非近视、成本敏感的概率主动学习方法来进行二进制分类。我们的方法计算标签候选邻域中误分类损失的预期减少。我们推导并使用了此期望的封闭式解,该解考虑了候选人位置上正类真实后验的可能值、其可能的标签实现以及给定的标签预算。由此产生的近视算法与不确定性采样在相同的线性渐近时间内运行,而其非近视算法需要预算大小中的额外因子\(O(m\cdot\log m)\)。在成本敏感和成本不敏感的环境中,对几个合成和真实数据集的实验评估表明,与基于不确定性采样和错误减少的主动学习策略相比,分类性能和运行时间具有竞争力或更好。

MSC公司:

68T05型 人工智能中的学习和自适应系统
2015年1月62日 贝叶斯推断
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Asuncion,A.和Newman,D.J.(2013年)。UCI机器学习库。http://archive.ics.uci.edu/ml/
[2] Attenberg,J.和Ertekin,S.(2013)。《不平衡学习:基础、算法和应用》,第101-150页。电气与电子工程师协会。
[3] Chapelle,O.(2005)。parzen窗口分类器的主动学习。第十届人工智能和统计国际研讨会论文集,第49-56页。
[4] Chapelle,O.、Schölkopf,B.和Zien,A.(编辑)。(2006). 半监督学习。剑桥:麻省理工学院出版社。
[5] Chawla,N.V.、Bowyer,K.W.、Hall,L.O.和Kegelmeyer,W.P.(2002)。烟熏:合成少数人过采样技术。《人工智能研究杂志》(JAIR),16,321-357·Zbl 0994.68128号
[6] 科恩,D。;Sammut,C.(编辑);Webb,GI(编辑),《主动学习》,10-14(2010),柏林
[7] Cohn,D.A.、Ghahramani,Z和Jordan,M.I.(1996年)。使用统计模型进行主动学习。《人工智能研究杂志》,4129-145·Zbl 0900.68366号
[8] Domingos,P.(1999)。Metacost:使分类器具有成本敏感性的通用方法。在U.M.Fayyad、S.Chaudhuri和D.Madigan(编辑)第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD,美国加利福尼亚州圣地亚哥,1999年8月15日至18日,第155-164页。ACM公司。
[9] Elkan,C.(2001)。成本敏感学习的基础。B.Nebel(Ed.)《第十七届国际人工智能联合会议论文集》,IJCAI 2001。美国华盛顿州西雅图,2001年8月4日至10日,第973-978页。摩根·考夫曼。
[10] Ferdowsi,Z.、Ghani,R.和Kumar,M.(2011年)。安全主动学习的在线策略。在ICML研讨会上,结合学习策略以降低标签成本。
[11] Freytag,A.、Rodner,E.、Bodesheim,P.和Denzler,J.(2013)。标注重要示例:基于相关性的高斯过程主动学习。德国计算机视觉会议(GCPR),第282-291页。
[12] Fu,Y.,Zhu,X.,&Li,B.(2012)。关于主动学习实例选择的调查。知识与信息系统,35(2),249-283·doi:10.1007/s10115-012-0507-8
[13] Gantz,J.和Reinsel,D.(2012年)。2020年的数字世界:大数据,更大的数字阴影,以及远东地区最大的增长。http://estonia.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
[14] Garnett,R.、Krishnamurthy,Y.、X.熊、J.G.和R.曼恩(2012)。贝叶斯最优主动搜索和测量。第29届机器学习国际会议论文集(ICML 2012)。icml.cc/Omnipress·Zbl 0994.68128号
[15] Gopalkrishnan,V.、Steier,D.、Lewis,H.和Guszcza,J.(2012)。大数据,大企业:弥合差距。《第一届大数据国际研讨会论文集》(第7-11页)。流和异构源挖掘:算法、系统、编程模型和应用,BigMine’12 New York,NY:ACM·Zbl 0900.68366号
[16] Hand,D.J.(2009)。衡量分级机性能:roc曲线下面积的一致替代方法。机器学习,77(1),103-123·兹比尔1470.62085 ·doi:10.1007/s10994-009-5119-5
[17] He,H.,&Ma,Y.(编辑)(2013年)。非平衡学习:基础、算法和应用。电气与电子工程师协会·兹比尔1272.68022
[18] Krempl,G.、Kottke,D.和Spiliopoulou,M.(2014a)。概率主动学习:一个简短的命题。2014年8月18日至22日,《第21届欧洲人工智能会议论文集》(ECAI2014)。布拉格:IOS出版社。
[19] Krempl,G.、Kottke,D.和Spiliopoulou,M.(2014b)。概率主动学习:将多功能性、优化性和效率结合起来。在第17届发现科学国际会议论文集,Bled,计算机科学讲义。斯普林格。
[20] Krempl,G.,Zlioboit,I.,Brzeziñski,D.,Hüllermier,E.,Last,M.,Lemaire,V.,Noack,T.,Shaker,A.,Sievi,S.,Spiliopoulou,M.和Stefanowski,J.(2014)。数据流挖掘研究面临的挑战。SIGKDD探索。大数据专刊(即将出版)。
[21] Lewis,D.D.和Gale,W.A.(1994年)。用于训练文本分类器的序列算法。在第17届ACM SIGIR信息检索研究与开发国际年会的会议记录中(第3-12页)。SIGIR’94纽约:施普林格。
[22] Liu,A.、Jun,G.和Ghosh,J.(2009)。成本敏感不确定性抽样的自培训方法。机器学习,76,257-270·Zbl 1470.68136号 ·doi:10.1007/s10994-009-5131-9
[23] Liu,A.、Jun,G.和Ghosh,J.(2009)。空间成本敏感的主动学习。2009年4月30日至5月2日,美国内华达州斯帕克斯,《SIAM数据挖掘国际会议论文集》,第814-825页。暹罗
[24] Liu,A.Y.C.(2009)。在成本敏感的环境中积极学习。德克萨斯大学电气与计算机工程博士论文
[25] Marginantu,D.D.(2005)。积极的成本敏感性学习。《第19届国际人工智能联合会议论文集》,IJCAI'05,第1622-1623页。摩根考夫曼出版公司。
[26] Ng,A.Y.和Jordan,M.I.(2001)。区分性分类器与生成性分类器:逻辑回归与朴素贝叶斯的比较。《神经信息处理系统进展》,14841-848。
[27] Parker,C.(2011)。二元分类器的性能度量分析。在第11届IEEE数据挖掘国际会议(ICDM2011)的会议记录中,第517-526页。电气与电子工程师协会。
[28] Press,W.H.、Flannery,B.P.、Teukolsky,S.A.和Vetterling,W.T.(1992)。Fortran 77中的数字配方:科学计算的艺术(第二版)。剑桥:剑桥大学出版社·Zbl 0778.65002号
[29] Roy,N.和McCallum,A.(2001年)。通过误差减少的抽样估计实现最优主动学习。《第18届国际机器学习会议论文集》,ICML 2001,美国马萨诸塞州威廉斯敦,ICML'01,第441-448页。摩根考夫曼出版公司。
[30] Schein,A.I.和Ungar,L.H.(2007)。逻辑回归的主动学习:一项评估。机器学习,68(3),235-265·Zbl 1035.33004号 ·doi:10.1007/s10994-007-5019-5
[31] Settles,B.(2009年)。主动学习文献调查。美国威斯康星州麦迪逊市威斯康星大学计算机科学技术报告1648。http://pages.cs.wisc.edu/bsettles/pub/settles.activelearning.pdf ·Zbl 1270.68006号
[32] Settles,B.(2012年)。积极学习。在人工智能和机器学习综合讲座中排名第18。圣拉斐尔:摩根和克莱普尔出版社·Zbl 0877.94039号
[33] Tomanek,K.和Hahn,U.(2009年)。减少命名实体注释主动学习期间的类不平衡。Y.Gil和N.Fridman Noy(编辑)《第五届知识获取国际会议论文集》(K-CAP 2009),2009年9月1日至4日,美国加利福尼亚州雷东多海滩,第105-112页。ACM公司。
[34] Vijayanarasimhan,S.、Jain,P.和Grauman,K.(2010年)。基于图像和视频识别预算的远程主动学习。《IEEE计算机视觉和模式识别会议论文集》,CVPR,2010年6月13日至18日,加利福尼亚州旧金山,第3035-3042页。电气与电子工程师协会。
[35] 赵毅、杨刚、徐旭、季庆(2012)。一种近最优的非近视主动学习方法。《第21届模式识别国际会议论文集》,ICPR 2012,日本筑波,2012年11月11日至15日,第1715-1718页。电气与电子工程师协会。
[36] Zhu,J.,Wang,H.,Tsou,B.K.,&Ma,M.Y.(2010)。通过不确定性和密度抽样进行数据注释的主动学习。IEEE音频、语音和语言处理汇刊,18(6),1323-1331·doi:10.10109/TALS.2009.2033421
[37] Zliobití,I.、Bifet,A.、Pfahringer,B.和Holmes,G.(2013年)。使用漂移流数据进行主动学习。IEEE神经网络和学习系统汇刊,25(1),27-39·Zbl 1222.68184号 ·doi:10.1109/TNNLS.2012.2236570
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。