×

验证延迟影响下滑动窗口的流式主动学习。 (英语) Zbl 07570151号

小结:基于流的主动学习(AL)策略通过查询能够最大程度提高分类器性能的标签来最小化标记工作。到目前为止,这些策略忽略了一个事实,即预言家或专家需要时间来提供查询标签。我们表明,在这种验证延迟的影响下,现有的AL方法恶化甚至失败。这些方法的问题是,它们在当前可用的标记数据上估计标签的效用。然而,当这个标签到达时,一些当前数据可能已经过时,新标签已经到达。在本文中,我们建议模拟标签到达时的可用数据。因此,我们的方法忘记并模拟(FS)会忘记过时的信息,并模拟延迟标签以获得更真实的效用估计。我们假设先验地知道标签的到达日期,并且分类器的训练数据以滑动窗口为界。我们的大量实验表明,FS在恒定和可变验证延迟的设置中改进了基于流的AL策略。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Babcock,B.、Babu,S.、Datar,M.、Motwani,R.和Widom,J.(2002)。数据流系统中的模型和问题。美国纽约州纽约市ACM SIGMOD-SIGACT-SIGART,PODS 02,第1-16页。
[2] Bondu,A.、Lemaire,V.和Boulle,M.(2010年)。主动学习中的探索与开发:贝叶斯方法。在IJCNN,IEEE,第1-7页。
[3] Chapelle,O.(2005)。parzen窗口分类器的主动学习。在AISTATS中,Max-Planck-Gesellschaft,第49-56页。
[4] Chaudhuri,A.、Kakde,D.、Sadek,C.、Gonzalez,L.和Kong,S.(2017年)。支持向量数据描述的核带宽选择的平均值和中值标准。ICDM研讨会,第842-849页。
[5] 科恩,DA;科恩,JD;Tesauro,G。;Alspert,J.,《使用优化实验设计进行神经网络探索》,NIPS,679-686(1993),伯灵顿:摩根·考夫曼
[6] 科恩,D。;Sammut,C。;Webb,GI,主动学习,机器学习百科全书,10-14(2010),纽约:Springer,纽约
[7] dos Reis,D.M.、Flach,P.、Matwin,S.和Batista,G.(2016)。使用增量Kolmogorov-Smirnov检验进行快速无监督在线漂移检测。美国纽约州纽约市ACM SIGKDD,KDD 16,第1545-1554页。
[8] 染料,KB;卡波(Capo,R.)。;Polikar,R.,Compose:初始标记非平稳流数据的半监督学习框架,TNNLS,25,1,12-26(2014)
[9] Frederickson,C.和Polikar,R.(2018年)。在类不平衡的极端验证延迟下重新采样学习技术。在IJCNN,IEEE,第1-8页。
[10] Gama,J.、Sebastiáo,R.和Rodrigues,P.(2009)。流学习算法评估中的问题。SIGKDD,计算机协会,第329-338页。
[11] 贾马,J。;伊利奥贝特。;Bifet,A。;Pechenizkiy,M。;Bouchachia,A.,概念漂移适应调查,CSUR,46,4,1-44(2014)·Zbl 1305.68141号 ·doi:10.145/2523813
[12] Grzenda,M.、Gomes,H.M.和Bifet,A.(2019年)。数据流的延迟标记评估。数据挖掘和知识发现·Zbl 1455.68167号
[13] Hammodi,M.、Stahl,F.和Tennant,M.(2016)。面向在线概念漂移检测和数据流分类的特征选择。ECAI,《人工智能和应用前沿》,第285卷,第1549-1550页。
[14] 霍弗,V。;Krempl,G.,《数据漂移挖掘:解决分类漂移的框架》,CSDA,57,1,377-391(2013)·Zbl 1365.62239号
[15] Ienco,D.、Bifet,A.、Zliobaite,I.和Pfahringer,B.(2013)。针对不断发展的数据流的基于聚类的主动学习。J.Fürnkranz、E.Hüllermier和T.Higuchi(编辑),《发现科学》。人工智能课堂讲稿(第8140卷,第79-93页)。斯普林格。
[16] Ienco,D.、Pfahringer,B.和Zliobaitï,I.(2014)。针对不断演变的流数据进行主动学习的高密度不确定性采样。SIGKDD BigMine,第133-148页。
[17] Kelly,M.G.、Hand,D.J.和Adams,N.M.(1999)。种群变化对分类器性能的影响。在SIGKDD中,第367-371页。
[18] Klinkenberg,R.和Renz,I.(1998年)。自适应信息过滤:在概念漂移的情况下学习。在AAAI-98/ICML-98研讨会学习文本分类的研讨会笔记中,AAAI出版社,第33-40页。
[19] Kottke,D.、Herde,M.、Minh,T.P.、Benz,A.、Mergard,P.、Roghman,A.、Sandrock,C.和Sick,B.(2021a)。scikit-activeml:一个用于主动学习算法的库和工具箱。预印本,2021030194。
[20] Kottke,D.、Krempl,G.和Spiliopoulou,M.(2015)。数据流中的概率主动学习。在埃及。Fromont,T.D.Bie,&M.van Leeuwen(编辑),IDA,《计算机科学讲义》(第9385卷,第145-157页)。斯普林格。
[21] 科特克,D。;Herde,M。;砂岩,C。;Huseljic,D。;Krempl,G。;Sick,B.,《使用贝叶斯方法实现最优概率主动学习》,机器学习,1101199-1231(2021)·Zbl 1491.68161号 ·doi:10.1007/s10994-021-05986-9
[22] Krempl,G.(2011年)。该算法易于同时进行延迟和漂移分类。在IDA,Springer,第222-233页。
[23] Krempl,G.和Hofer,V.(2011年)。存在漂移和潜伏期时的分类。M.Spiliopoulou、H.Wang、D.Cook、J.Pei、W.Wang、O.Zaiane和X.Wu(编辑),ICDM研讨会。电气与电子工程师协会。
[24] Krempl,G.、Lang,D.和Hofer,V.(2019年)。使用动态基方法进行时间密度外推。数据挖掘与知识发现,33(5),1323-1356。ECML/PKDD 2019期刊跟踪特刊。
[25] Krempl,G。;Ha,TC;Spiliopoulou,M。;贾普科维奇,N。;Matwin,S.,基于聚类的优化概率主动学习(COPAL),《发现科学》,101-115(2015),纽约:Springer,New York·doi:10.1007/978-3-319-24282-810
[26] Krempl,G。;科特克,D。;Lemaire,V.,用于快速、非近视、成本敏感主动分类的优化概率主动学习(OPAL),机器学习,100,2(2015)·Zbl 1341.68160号 ·doi:10.1007/s10994-015-5504-1
[27] 库马尔,P。;Gupta,A.,《分类、回归和聚类的主动学习查询策略:调查》,JCST,35,4,913-945(2020)
[28] Kuncheva,L.I.(2008)。用于检测流数据中概念变化的分类器集成:概述和观点。O.Okun和G.Valentini(编辑),SUEMA。计算智能研究,(第245卷,第5-10页)。斯普林格。
[29] Kuncheva,L.I.和Sánchez,J.S.(2008年)。最近邻分类器用于延迟标记的流数据。在ICDM中,第869-874页。
[30] Lewis,D.D.和Gale,W.A.(1994年)。用于训练文本分类器的序列算法。在SIGIR,Springer,New York,NY,USA,SIGIR 94,第3-12页。
[31] Loy,C.C.、Hospedales,T.M.、Xiang,T.和Gong,S.(2012年)。基于流的联合探索-开发主动学习。在CVPR中,IEEE第1560-1567页。
[32] Marrs,G.、Hickey,R.和Black,M.(2010年)。延迟对概念漂移在线分类学习的影响。KSEM Y.Bi&M.A.Williams(编辑)。计算机科学课堂讲稿(第6291卷,第459-469页)。斯普林格。
[33] Murphy,KP,《机器学习:概率观点》(2012),剑桥:麻省理工学院出版社,剑桥·Zbl 1295.68003号
[34] Parreira,P.和Prati,R.(2019年)。Aprenizagem ativa em fluxo de dados com latência intermediaária。ENIAC,SBC,第365-376页
[35] Pham,M.T.、Kottke,D.、Tsarenko,A.、Gruhl,C.和Sick,B.(2020年)。通过主动学习提高多传感器活动识别的自适应能力。在IJCNN中。
[36] Plasse,J.和Adams,N.(2016年)。处理时间演变数据流中的延迟标签。IEEE BigData,第2416-2424页。
[37] Razavi-Far,R。;哈拉吉,E。;塞义夫,M。;Ditzler,G.,非平稳环境下的新颖检测器和极端验证延迟模型,IEEE TIE,66,1,561-570(2019)
[38] Roy,N.和McCallum,A.(2001年)。通过误差减少的抽样估计实现最优主动学习。ICML(第441-448页)。美国加利福尼亚州旧金山:Morgan Kaufmann。
[39] Schlimmer,J.C.和Granger,R.H.(1986年)。超越增量处理:跟踪概念漂移。AAAI,第502-507页。
[40] Settles,B.(2012年)。积极学习。Morgan和Claypool出版社《人工智能和机器学习综合讲座》第18名·Zbl 1270.68006号
[41] Shaker,A。;Hüllermier,E.,《非平稳数据流自适应学习的恢复分析》,《智能系统和计算的进展》,226289-298(2013)·doi:10.1007/978-3-319-00969-828
[42] Souza,V.、Pinho,T.和Batista,G.(2018)。使用延迟标签信息评估流分类器。BRACIS,第408-413页。
[43] Umer,M.(2017)。使用重要性权重快速学习极限验证延迟:Fast compose和level_iw。罗文大学博士论文。
[44] Umer,M.和Polikar,R.(2020年)。极端验证延迟学习算法的比较分析。arXiv:2011.4917年。
[45] Zhu,X.,Zhang,P.,Lin,X.&Shi,Y.(2007)。从数据流中主动学习。在ICDM中,IEEE计算机协会,美国华盛顿特区,ICDM 07,第757-762页。
[46] 《狮子座》,I.(2010)。延迟标记的变化:什么时候可以检测到?ICDM研讨会,第843-850页。
[47] 伊利奥贝特。;Bifet,A。;普法林格,B。;Holmes,G.,利用漂移流数据进行主动学习,TNNLS,25,27-39(2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。