文件Zbl 1341.68160-zbMATH Open

优化概率主动学习（OPAL）。用于快速、非近视、成本敏感的主动分类。（英语） Zbl 1341.68160号

机器。学习。 100，编号2-3，449-476（2015）.

摘要：与自动生成的数据量不断增加相比，人工注释能力仍然有限。因此，允许有效分配注释工作的快速主动学习方法变得越来越重要。此外，成本敏感的应用，如欺诈检测，带来了类别之间不同的错误分类成本的额外挑战。不幸的是，现有的少数成本敏感的主动学习方法依赖于耗时的步骤，例如对样本进行自我标记或冗长的评估。我们提出了一种快速、非近视、成本敏感的概率主动学习方法来进行二进制分类。我们的方法计算标签候选邻域中误分类损失的预期减少。我们推导并使用了此期望的封闭式解，该解考虑了候选人位置上正类真实后验的可能值、其可能的标签实现以及给定的标签预算。由此产生的近视算法与不确定性采样在相同的线性渐近时间内运行，而其非近视算法需要预算大小中的额外因子\（O（m\cdot\log m）\）。在成本敏感和成本不敏感的环境中，对几个合成和真实数据集的实验评估表明，与基于不确定性采样和错误减少的主动学习策略相比，分类性能和运行时间具有竞争力或更好。

引用于4文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
2015年1月62日	贝叶斯推断
62H30型	分类和区分；聚类分析（统计方面）

关键词：

主动学习;非近视;成本敏感型;不等误分类成本;误分类损失;不平衡数据;不确定度抽样;减少误差

软件：

SMOTE公司;UCI-毫升

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Asuncion，A.和Newman，D.J.（2013年）。UCI机器学习库。http://archive.ics.uci.edu/ml/
[2]	Attenberg，J.和Ertekin，S.（2013）。《不平衡学习：基础、算法和应用》，第101-150页。电气与电子工程师协会。
[3]	Chapelle，O.（2005）。parzen窗口分类器的主动学习。第十届人工智能和统计国际研讨会论文集，第49-56页。
[4]	Chapelle，O.、Schölkopf，B.和Zien，A.（编辑）。(2006). 半监督学习。剑桥：麻省理工学院出版社。
[5]	Chawla，N.V.、Bowyer，K.W.、Hall，L.O.和Kegelmeyer，W.P.（2002）。烟熏：合成少数人过采样技术。《人工智能研究杂志》（JAIR），16，321-357·Zbl 0994.68128号
[6]	科恩，D。；Sammut，C.（编辑）；Webb，GI（编辑），《主动学习》，10-14（2010），柏林
[7]	Cohn，D.A.、Ghahramani，Z和Jordan，M.I.（1996年）。使用统计模型进行主动学习。《人工智能研究杂志》，4129-145·Zbl 0900.68366号
[8]	Domingos，P.（1999）。Metacost：使分类器具有成本敏感性的通用方法。在U.M.Fayyad、S.Chaudhuri和D.Madigan（编辑）第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集，KDD，美国加利福尼亚州圣地亚哥，1999年8月15日至18日，第155-164页。ACM公司。
[9]	Elkan，C.（2001）。成本敏感学习的基础。B.Nebel（Ed.）《第十七届国际人工智能联合会议论文集》，IJCAI 2001。美国华盛顿州西雅图，2001年8月4日至10日，第973-978页。摩根·考夫曼。
[10]	Ferdowsi，Z.、Ghani，R.和Kumar，M.（2011年）。安全主动学习的在线策略。在ICML研讨会上，结合学习策略以降低标签成本。
[11]	Freytag，A.、Rodner，E.、Bodesheim，P.和Denzler，J.（2013）。标注重要示例：基于相关性的高斯过程主动学习。德国计算机视觉会议（GCPR），第282-291页。
[12]	Fu，Y.，Zhu，X.，&Li，B.（2012）。关于主动学习实例选择的调查。知识与信息系统，35（2），249-283·doi:10.1007/s10115-012-0507-8
[13]	Gantz，J.和Reinsel，D.（2012年）。2020年的数字世界：大数据，更大的数字阴影，以及远东地区最大的增长。http://estonia.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
[14]	Garnett，R.、Krishnamurthy，Y.、X.熊、J.G.和R.曼恩（2012）。贝叶斯最优主动搜索和测量。第29届机器学习国际会议论文集（ICML 2012）。icml.cc/Omnipress·Zbl 0994.68128号
[15]	Gopalkrishnan，V.、Steier，D.、Lewis，H.和Guszcza，J.（2012）。大数据，大企业：弥合差距。《第一届大数据国际研讨会论文集》（第7-11页）。流和异构源挖掘：算法、系统、编程模型和应用，BigMine’12 New York，NY:ACM·Zbl 0900.68366号
[16]	Hand，D.J.（2009）。衡量分级机性能：roc曲线下面积的一致替代方法。机器学习，77（1），103-123·兹比尔1470.62085 ·doi:10.1007/s10994-009-5119-5
[17]	He，H.，&Ma，Y.（编辑）（2013年）。非平衡学习：基础、算法和应用。电气与电子工程师协会·兹比尔1272.68022
[18]	Krempl，G.、Kottke，D.和Spiliopoulou，M.（2014a）。概率主动学习：一个简短的命题。2014年8月18日至22日，《第21届欧洲人工智能会议论文集》（ECAI2014）。布拉格：IOS出版社。
[19]	Krempl，G.、Kottke，D.和Spiliopoulou，M.（2014b）。概率主动学习：将多功能性、优化性和效率结合起来。在第17届发现科学国际会议论文集，Bled，计算机科学讲义。斯普林格。
[20]	Krempl，G.，Zlioboit，I.，Brzeziñski，D.，Hüllermier，E.，Last，M.，Lemaire，V.，Noack，T.，Shaker，A.，Sievi，S.，Spiliopoulou，M.和Stefanowski，J.（2014）。数据流挖掘研究面临的挑战。SIGKDD探索。大数据专刊（即将出版）。
[21]	Lewis，D.D.和Gale，W.A.（1994年）。用于训练文本分类器的序列算法。在第17届ACM SIGIR信息检索研究与开发国际年会的会议记录中（第3-12页）。SIGIR’94纽约：施普林格。
[22]	Liu，A.、Jun，G.和Ghosh，J.（2009）。成本敏感不确定性抽样的自培训方法。机器学习，76，257-270·Zbl 1470.68136号 ·doi:10.1007/s10994-009-5131-9
[23]	Liu，A.、Jun，G.和Ghosh，J.（2009）。空间成本敏感的主动学习。2009年4月30日至5月2日，美国内华达州斯帕克斯，《SIAM数据挖掘国际会议论文集》，第814-825页。暹罗
[24]	Liu，A.Y.C.（2009）。在成本敏感的环境中积极学习。德克萨斯大学电气与计算机工程博士论文
[25]	Marginantu，D.D.（2005）。积极的成本敏感性学习。《第19届国际人工智能联合会议论文集》，IJCAI'05，第1622-1623页。摩根考夫曼出版公司。
[26]	Ng，A.Y.和Jordan，M.I.（2001）。区分性分类器与生成性分类器：逻辑回归与朴素贝叶斯的比较。《神经信息处理系统进展》，14841-848。
[27]	Parker，C.（2011）。二元分类器的性能度量分析。在第11届IEEE数据挖掘国际会议（ICDM2011）的会议记录中，第517-526页。电气与电子工程师协会。
[28]	Press，W.H.、Flannery，B.P.、Teukolsky，S.A.和Vetterling，W.T.（1992）。Fortran 77中的数字配方：科学计算的艺术（第二版）。剑桥：剑桥大学出版社·Zbl 0778.65002号
[29]	Roy，N.和McCallum，A.（2001年）。通过误差减少的抽样估计实现最优主动学习。《第18届国际机器学习会议论文集》，ICML 2001，美国马萨诸塞州威廉斯敦，ICML'01，第441-448页。摩根考夫曼出版公司。
[30]	Schein，A.I.和Ungar，L.H.（2007）。逻辑回归的主动学习：一项评估。机器学习，68（3），235-265·Zbl 1035.33004号 ·doi:10.1007/s10994-007-5019-5
[31]	Settles，B.（2009年）。主动学习文献调查。美国威斯康星州麦迪逊市威斯康星大学计算机科学技术报告1648。http://pages.cs.wisc.edu/bsettles/pub/settles.activelearning.pdf ·Zbl 1270.68006号
[32]	Settles，B.（2012年）。积极学习。在人工智能和机器学习综合讲座中排名第18。圣拉斐尔：摩根和克莱普尔出版社·Zbl 0877.94039号
[33]	Tomanek，K.和Hahn，U.（2009年）。减少命名实体注释主动学习期间的类不平衡。Y.Gil和N.Fridman Noy（编辑）《第五届知识获取国际会议论文集》（K-CAP 2009），2009年9月1日至4日，美国加利福尼亚州雷东多海滩，第105-112页。ACM公司。
[34]	Vijayanarasimhan，S.、Jain，P.和Grauman，K.（2010年）。基于图像和视频识别预算的远程主动学习。《IEEE计算机视觉和模式识别会议论文集》，CVPR，2010年6月13日至18日，加利福尼亚州旧金山，第3035-3042页。电气与电子工程师协会。
[35]	赵毅、杨刚、徐旭、季庆（2012）。一种近最优的非近视主动学习方法。《第21届模式识别国际会议论文集》，ICPR 2012，日本筑波，2012年11月11日至15日，第1715-1718页。电气与电子工程师协会。
[36]	Zhu，J.，Wang，H.，Tsou，B.K.，&Ma，M.Y.（2010）。通过不确定性和密度抽样进行数据注释的主动学习。IEEE音频、语音和语言处理汇刊，18（6），1323-1331·doi:10.10109/TALS.2009.2033421
[37]	Zliobití，I.、Bifet，A.、Pfahringer，B.和Holmes，G.（2013年）。使用漂移流数据进行主动学习。IEEE神经网络和学习系统汇刊，25（1），27-39·Zbl 1222.68184号 ·doi:10.1109/TNNLS.2012.2236570

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

优化概率主动学习（OPAL）。用于快速、非近视、成本敏感的主动分类。（英语） Zbl 1341.68160号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

优化概率主动学习（OPAL）。用于快速、非近视、成本敏感的主动分类。 （英语） Zbl 1341.68160号

MSC公司：

关键词：

软件：

参考文献：

优化概率主动学习（OPAL）。用于快速、非近视、成本敏感的主动分类。（英语） Zbl 1341.68160号