×

Kappa更新了漂移数据流挖掘集成。 (英语) Zbl 1440.68203号

摘要:在概念漂移的情况下从数据流中学习是当代机器学习的最大挑战之一。为此类场景设计的算法必须考虑数据的潜在无限大小、其不断变化的性质以及实时处理的要求。数据流挖掘的集成方法由于其高预测能力和缓解概念漂移的有效机制而得到了广泛的应用。本文提出了一种新的集成方法,称为Kappa更新集成(KUE)。它是在线集成方法和基于块的集成方法的组合,使用Kappa统计来动态加权和选择基本分类器。为了在基础学习者中实现更高的多样性,每个学习者都使用不同的特征子集进行训练,并根据泊松分布以给定概率更新新实例。此外,只有当新分类器对集成质量的提高做出积极贡献时,我们才使用新分类器更新集成。最后,KUE中的每个基分类器都能够弃权以参与投票,从而提高了KUE的整体鲁棒性。一项广泛的实验研究表明,KUE在标准和不平衡漂移数据流上的性能优于最先进的集合,同时具有较低的计算复杂度。此外,我们分析了使用Kappa与准确性来驱动选择和更新分类器的标准、弃权机制的贡献、分类器多样化的贡献以及混合体系结构对在线更新分类器的贡献。

理学硕士:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68周27 在线算法;流式算法

软件:

农业部
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdulsalam,H。;斯基利科恩,DB;Martin,P.,《使用流随机森林进行分类》,IEEE Transactios on Knowledge and Data Engineering,23,1,22-36(2011)·doi:10.1109/TKDE.2010.36
[2] Almeida,P.、Oliveira,L.、de Souza,A.和Sabourin,R.(2016)。使用分类器的动态选择处理概念漂移。在IEEE人工智能工具国际会议上(第989-995页)。
[3] Balle,B。;卡斯特罗,J。;Gavaldá,R.,从数据流自适应学习概率确定性自动机,机器学习,96,1,99-127(2014)·Zbl 1317.68089号 ·doi:10.1007/s10994-013-5408-x
[4] 巴达尔,JP;埃恩布雷克,F。;HM戈麦斯;Bifet,A。;Pfahringer,B.,数据流动态特征选择的增强决策树桩,信息系统,83,13-29(2019)·doi:10.1016/j.is.2019.02.003
[5] 巴达尔,JP;Enembreck,F。;HM戈麦斯;Bifet,A。;Pfahringer,B.,数据流的性能导向动态特征选择过滤器,应用专家系统,116227-242(2019)·doi:10.1016/j.eswa.2018.09.031
[6] 巴达尔,JP;HM戈麦斯;Enembreck,F。;Pfahringer,B.,《特征漂移适应调查:定义、基准、挑战和未来方向》,《系统与软件杂志》,127278-294(2017)·doi:10.1016/j.jss.2016.07.005
[7] Barddal,J.P.、Gomes,H.M.、Enembreck,F.、Pfahringer,B.和Bifet,A.(2016)。特征漂移数据流的动态特征加权。在关于机器学习的欧洲会议上(第129-144页)。
[8] Barros,RSM;Santos,SGTC,概念漂移探测器的大规模比较,信息科学,451348-370(2018)·doi:10.1016/j.ins.2018.04.014
[9] JR贝尔蒂尼;Nicoletti,M.,流数据分类的基于迭代增强的集成,信息融合,45,66-78(2019)·doi:10.1016/j.inffus.2018.01.003
[10] Bifet,A.和Gavaldá,R.(2007年)。通过自适应窗口从时变数据中学习。在SIAM国际数据挖掘会议上(第443-448页)。
[11] Bifet,A。;加瓦尔达,R。;霍姆斯,G。;Pfahringer,B.,《数据流挖掘:MOA中的实例》(2018),剑桥:麻省理工学院出版社,剑桥
[12] Bifet,A。;霍姆斯,G。;柯克比,R。;Pfahringer,B.,MOA:大规模在线分析,《机器学习研究杂志》,11,1601-1604(2010)
[13] Bifet,A.、Holmes,G.和Pfahringer,B.(2010年)。利用打包技术来发展数据流。在欧洲机器学习会议上(第135-150页)。
[14] Bifet,A.、Holmes,G.、Pfahringer,B.、Kirkby,R.和Gavaldá,R.(2009年)。用于演进数据流的新集成方法。在ACM SIGKDD知识发现和数据挖掘国际会议上(第139-148页)。
[15] Błaszczynski,J.、Stefanowski,J.和Zajac,M.(2009)。基于规则集的弃权分类器集合。在智能系统方法论国际研讨会上(第382-391页)。
[16] 人力资源部Bonab;Can,F.,GOOWE:演化数据流的几何最优和在线加权集成分类器,ACM数据知识发现汇刊,12,2,25(2018)·数字对象标识代码:10.1145/3139240
[17] Brzeziñski,D.和Stefanowski,J.(2011)。具有概念漂移的数据流的精度更新集合。在混合人工智能系统国际会议上(第155-163页)。
[18] Brzeziñski,D.和Stefanowski,J.(2013)。用于概念驱动数据流的分类器:评估真正重要的东西。在ECML PKDD数据流挖掘现实挑战研讨会上(第10-14页)。
[19] 布热津斯基,D。;Stefanowski,J.,《将基于块的方法与在线方法相结合,从概念漂移数据流中学习集成》,信息科学,265,50-67(2014)·Zbl 1328.68158号 ·doi:10.1016/j.ins.2013.12.11
[20] 布热津斯基,D。;Stefanowski,J.,对不同类型的概念漂移的反应:精度更新的集成算法,IEEE神经网络和学习系统汇刊,25,1,81-94(2014)·doi:10.1109/TNNLS.2013.2251352
[21] 布热津斯基,D。;Stefanowski,J.,《不平衡和演变数据流的集成分类器》,时间序列和流数据库中的数据挖掘,83,1,44-68(2018)·doi:10.1142/9789813228047_0003
[22] 布热津斯基博士。;Stefanowski,J。;苏斯马加,R。;Szczȩch,I.,基于视觉的类别不平衡问题分类测度及其属性分析,信息科学,462,242-261(2018)·doi:10.1016/j.ins.2018.06.020
[23] Cano,A.和Krawczyk,B.(2018年)。基于差异进化的分类规则学习,用于GPU上的高速数据流挖掘。IEEE进化计算大会(第197-204页)。
[24] 卡诺,A。;Krawczyk,B.,在GPU上使用遗传编程进化基于规则的分类器,用于漂移数据流,模式识别,87,248-268(2019)·doi:10.1016/j.patcog.2018.10.024
[25] 卡诺,A。;Zafra,A。;Ventura,S.,标准和不平衡数据的加权数据引力分类,IEEE控制论汇刊,43,6,1672-1687(2013)·doi:10.1109/TSMCB.2012.2227470
[26] V·钱多拉。;Banerjee,A。;Kumar,V.,《异常检测:一项调查》,ACM Computing Surveys,41、3、15(2009)·doi:10.1145/1541880.1541882
[27] Chen,S.和He,H.(2013)。类分布不平衡的非平稳流数据学习。H.He&Y.Ma(编辑),《非平衡学习:基础、算法和应用》(第151-186页)。
[28] Ditzler,G.、Rosen,G.和Polikar,R.(2013)。概念漂移的折现专家权重。在IEEE动态和不确定环境中的计算智能研讨会上(第61-67页)。
[29] Dong,Y。;Japkowicz,N.,流学习用自动编码器的线程集成,计算智能,34,1,261-281(2018)·doi:10.1111/coin.12146
[30] R.Elwell。;Polikar,R.,非平稳环境中概念漂移的增量学习,IEEE神经网络汇刊,22,10,1517-1531(2011)·doi:10.1109/TNN.2011.2160459
[31] 马萨诸塞州费萨尔;昂山素季。;JR威廉姆斯;Sanchez,A.,《智能电网高级计量基础设施基于数据流的入侵检测系统:可行性研究》,IEEE系统期刊,9,1,31-44(2015)·doi:10.1109/JSYST.2013.2294120
[32] 费尔南德斯,A。;南卡罗来纳州加西亚。;加拉尔,M。;普拉蒂,RC;Krawczyk,B。;Herrera,F.,《从不平衡数据集中学习》(2018年),柏林:施普林格出版社,柏林
[33] 费里,C。;Hernández-Orallo,J。;Modroiu,R.,分类性能指标的实验比较,模式识别字母,30,1,27-38(2009)·doi:10.1016/j.patrec.2008.08.010
[34] Gaber,MM,《数据流挖掘的进展》,威利跨学科评论:数据挖掘和知识发现,2,1,79-85(2012)
[35] Gama,J.和Castillo,G.(2006年)。学习局部漂移检测。《高级数据挖掘和应用》(第42-55页)。
[36] 贾马,J。;Kosina,P.,数据流分类中的递归概念,知识和信息系统,40,3,489-507(2014)·doi:10.1007/s10115-013-0654-6
[37] 贾马,J。;塞巴斯蒂昂,R。;罗德里格斯,PP,《关于评估流学习算法》,机器学习,90,3,317-346(2013)·Zbl 1260.68329号 ·doi:10.1007/s10994-012-5320-9
[38] 贾马,J。;ƀ利奥贝特,I。;比菲,A。;Pechenizkiy,M。;Bouchachia,A.,概念漂移适应调查,ACM计算调查,46,4,44:1-44:37(2014)·Zbl 1305.68141号 ·doi:10.1145/2523813
[39] 南卡罗来纳州加西亚。;费尔南德斯,A。;Luengo,J。;Herrera,F.,《计算智能和数据挖掘实验设计中多重比较的高级非参数检验:权力的实验分析》,信息科学,180,10,204-2064(2010)·doi:10.1016/j.ins.2009.12.010
[40] 南卡罗来纳州加西亚。;Herrera,F.,《所有成对比较的多个数据集上分类器统计比较的扩展》,《机器学习研究杂志》,9,2677-2694(2008)·Zbl 1225.68178号
[41] HM戈麦斯;巴达尔,JP;Enembreck,F。;Bifet,A.,数据流分类集成学习调查,ACM计算调查,50,2,23(2017)·doi:10.1145/3054925
[42] HM戈麦斯;Bifet,A。;里德·J。;巴德达尔,JP;Enembreck,F。;Pfharinger,B。;霍姆斯,G。;Abdessalem,T.,《进化数据流分类的自适应随机森林》,机器学习,106,9-10,1469-1495(2017)·doi:10.1007/s10994-017-5642-8
[43] Gomes,H.M.和Enembreck,F.(2014)。SAE2:数据流社会自适应集成分类器的进展。在ACM应用计算研讨会上(第798-804页)。
[44] Hoens,TR;波里卡尔,R。;内华达州Chawla,《从概念漂移和不平衡的流数据中学习:综述》,《人工智能进展》,第1期,第89-101页(2012年)·doi:10.1007/s13748-011-0008-0
[45] Hulten,G.、Spencer,L.和Domingos,P.(2001)。挖掘时变数据流。在ACM SIGKDD知识发现和数据挖掘国际会议上(第97-106页)。
[46] Jaber,G.、Cornuéjols,A.和Tarroux,P.(2013)。一种新的在线学习方法,用于处理重复出现的概念:ADACC系统。在神经信息处理国际会议上(第595-604页)。
[47] Jackowski,K.,《固定尺寸集成分类器系统进化适应具有无限分类器池的循环上下文》,《模式分析与应用》,17,4,709-724(2014)·文件编号:10.1007/s10044-013-0318-x
[48] Jeni,L.A.、Cohn,J.F.和De La Torre,F.(2013年)。在使用性能指标时面临不平衡的数据重新推荐。在Humaine协会关于情感计算和智能交互的会议上(第245-251页)。
[49] Kolter,JZ;Maloof,MA,《动态加权多数:漂移概念的集成方法》,《机器学习研究杂志》,82755-2790(2007)·Zbl 1222.68237号
[50] Krawczyk,B.,《从不平衡数据中学习:开放的挑战和未来的方向》,《人工智能进展》,5,4,221-232(2016)·doi:10.1007/s13748-016-0094-0
[51] Krawczyk,B.,用于从数据流进行在线活动识别的主动和自适应集成学习,基于知识的系统,138,69-78(2017)·doi:10.1016/j.knosys.2017.09.032
[52] Krawczyk,B。;Cano,A.,《在线集成学习与漂移和噪声数据流的弃权分类器》,应用软计算,68,677-692(2018)·doi:10.1016/j.asoc.2017.12.008
[53] Krawczyk,B。;Minku,法学博士;贾马,J。;Stefanowski,J。;Woźniak,M.,《数据流分析的集成学习:调查》,信息融合,37,132-156(2017)·doi:10.1016/j.inffus.2017.02.004
[54] Kuncheva,LI,使用似然检测器的流式多变量数据中的变化检测,IEEE知识与数据工程汇刊,25,511175-1180(2013)·doi:10.1109/TKDE.2011.226
[55] 刘,A。;卢,J。;刘,F。;Zhang,G.,数据流中概念漂移检测的累积区域密度差异,模式识别,76,256-272(2018)·doi:10.1016/j.patcog.2017.11.009
[56] Marrón,D.、Ayguadé,E.、Herrero,J.R.、Read,J.和Bifet,A.(2017)。动态大数据流的低效率多线程集成学习。IEEE大数据国际会议(第223-232页)。
[57] Matuszyk,P。;Spiliopoulou,M.,推荐系统的基于流的半监督学习,机器学习,106,6,771-798(2017)·doi:10.1007/s10994-016-5614-4
[58] Mejri,D。;利马,M。;Weihs,C.,数据流的新动态加权多数控制图,软计算,22,2,511-522(2018)·doi:10.1007/s00500-016-2351-3
[59] 密勒,Z。;狄金森,B。;Deitrick,W。;胡,W。;Wang,AH,使用数据流聚类检测推特垃圾邮件发送者,信息科学,260,64-73(2014)·doi:10.1016/j.ins.2013.111.016
[60] Mimran,O.,&Even,A.(2014年)。具有多个滑动窗口的数据流挖掘,用于连续预测。在欧洲信息系统会议上(第1-15页)。
[61] Minku,法学博士;白色,AP;Yao,X.,《概念漂移时多样性对在线集成学习的影响》,IEEE知识与数据工程汇刊,22,5,730-742(2010)·doi:10.1109/TKDE.2009.156
[62] Morales,G.D.F.、Bifet,A.、Khan,L.、Gama,J.和Fan,W.(2016年)。物联网大数据流挖掘。在ACM SIGKDD知识发现和数据挖掘国际会议上(第2119-2120页)。
[63] Nguyen,H.L.、Woon,Y.K.、Ng,W.K.和Wan,L.(2012年)。数据流中特征漂移的异构集成。亚太知识发现和数据挖掘会议(第1-12页)。
[64] Olorunnimbe,MK;Viktor,H。;Paquet,E.,漂移数据流在线集成的动态适应,《智能信息系统杂志》,50,2,291-313(2018)·doi:10.1007/s10844-017-0460-9
[65] Oza,N.C.(2005年)。在线装袋和助推。在IEEE关于系统、人与控制论的国际会议上(第2340-2345页)。
[66] 梨,R。;Sakthithasan,S。;Koh,YS,《检测动态数据流中的概念变化》,机器学习,97,3,259-293(2014)·Zbl 1319.68186号 ·doi:10.1007/s10994-013-5343-9
[67] Pelossof,R.、Jones,M.、Vovsha,I.和Rudin,C.(2009年)。在线坐标增压。IEEE计算机视觉国际会议(第1354-1361页)。
[68] Pesaranghader,A.和Viktor,H.(2016)。进化数据流的快速hoeffding漂移检测方法。在关于数据库中的机器学习和知识发现的欧洲会议上(第96-111页)。
[69] Pesaranghader,A。;Viktor,H。;Paquet,E.,《不同自适应学习器的库和进化数据流的堆叠快速hoefffding漂移检测方法》,机器学习,107,11,1711-1743(2018)·doi:10.1007/s10994-018-5719-z
[70] Pietruczuk,L。;Rutkowski,L。;Jaworski,M。;Duda,P.,如何在流数据挖掘中调整集合大小?,信息科学,381,46-54(2017)·Zbl 1429.68237号 ·doi:10.1016/j.ins.202016.10.228
[71] 拉米雷斯-加列戈,S。;Krawczyk,B。;南卡罗来纳州加西亚。;Woźniak,M。;贝尼特斯,J。;Herrera,F.,使用spark对高速大数据流进行最近邻分类,IEEE系统、人与控制论事务:系统,47,10,2727-2739(2017)·doi:10.1109/TSMC.2017.2700889
[72] 拉米雷斯-加列戈,S。;Krawczyk,B。;加西亚,S。;Woźniak,M。;Herrera,F.,《数据流挖掘的数据预处理调查:现状和未来方向》,神经计算,239,39-57(2017)·doi:10.1016/j.neucom.2017.01.078
[73] 任,S。;Liao,B。;朱伟。;Li,K.,不同类型概念漂移的知识最大化集成算法,信息科学,430,261-281(2018)·doi:10.1016/j.ins.2017.11.046
[74] 任,S。;Liao,B。;朱伟。;李,Z。;刘伟。;Li,K.,《利用概念漂移挖掘不平衡数据流的渐进重采样集成》,神经计算,286150-166(2018)·doi:10.1016/j.neucom.2018.01.063
[75] Sethi,TS公司;Kantardzic,M.,关于从流式未标记数据中可靠检测概念漂移,《应用专家系统》,82,77-99(2017)·doi:10.1016/j.eswa.2017.04.008
[76] Sobolewski,P.和Woźniak,M.(2013)。虚拟概念漂移检测统计测试的比较研究。在计算机识别系统国际会议上(第329-337页)。
[77] Sobolewski,P。;Woźniak,M.,SCR:模拟概念重现——处理概念转换的非监督工具,专家系统,34,5,1-12(2017)·doi:10.1111/exsy.12059
[78] Srinivasan,A。;Bain,M.,关系数据流在线模型的实证研究,机器学习,106,2,243-276(2017)·Zbl 1453.68158号 ·doi:10.1007/s10994-016-5596-2
[79] 孙,Y。;Tang,K。;Minku,法学博士;王,S。;Yao,X.,《数据流与逐步进化类的在线集成学习》,IEEE知识与数据工程汇刊,28,6,1532-1545(2016)·doi:10.1109/TKDE.016.2526675
[80] Triantafyllopoulos,D。;Korvesis,P。;Mporas,I。;Megalooikonomou,V.,《监测癫痫患者的多模式流数据实时管理》,《医疗系统杂志》,40,3,45:1-45:11(2016)·doi:10.1007/s10916-015-0403-3
[81] 范·瑞恩,JN;霍姆斯,G。;普法林格,B。;Vanschoren,J.,《在线性能评估框架:数据流的异构集成学习》,机器学习,107,1,149-176(2018)·Zbl 1457.68320号 ·doi:10.1007/s10994-017-5686-9
[82] 维森特,R。;俄亥俄州基努奇。;Caticha,N.,《漂流概念在线学习的统计力学:变分方法》,机器学习,32,2,179-201(1998)·Zbl 0912.68166号 ·doi:10.1023/A:1007428731714
[83] 王,B。;Pineau,J.,《不平衡数据流的在线打包和增强》,IEEE知识与数据工程汇刊,28,12,3353-3366(2016)·doi:10.1109/TKDE.2016.2609424
[84] Wang,H.,Fan,W.,Yu,P.S.,&Han,J.(2003)。使用集成分类器挖掘概念驱动数据流。在ACM SIGKDD关于知识发现和数据挖掘的国际会议上(第226-235页)。
[85] 王,S。;Minku,法学博士;Yao,X.,基于重采样的在线课堂不平衡学习集成方法,IEEE知识与数据工程汇刊,27,5,1356-1368(2015)·doi:10.1109/TKDE.2014.2345380
[86] 王,S。;Minku,法学博士;Yao,X.,概念漂移在线课堂不平衡学习的系统研究,IEEE神经网络和学习系统汇刊,29,10,4802-4821(2018)·doi:10.1109/TNNLS.2017.2771290
[87] 韦伯,GI;海德,R。;曹,H。;Nguyen,HL;Petitjean,F.,表征概念漂移,数据挖掘和知识发现,30,4,964-994(2016)·Zbl 1411.68127号 ·doi:10.1007/s10618-015-0448-4
[88] 韦伯,GI;Lee,LK;Goethals,B。;Petitjean,F.,从样本数据分析概念漂移和转移,数据挖掘和知识发现,32,5,1179-1199(2018)·doi:10.1007/s10618-018-0554-1
[89] Woźniak,M.、Kasprzak,A.和Cal,P.(2013)。增量漂移数据流的加权老化分类器集成。在关于灵活问答系统的国际会议上(第579-588页)。
[90] Woźniak,M.、Ksieniewicz,P.、Cyganek,B.和Walkowiak,K.(2016)。异质概念漂移探测器集成——实验研究。计算机信息系统和工业管理(第538-549页)。
[91] Yuan,L.、Pfahringer,B.和Barddal,J.P.(2018)。特征漂移数据流的迭代子集选择。在第33届ACM应用计算年会上(第510-517页)。
[92] 翟,T。;高,Y。;Wang,H。;曹,L.,通过资源高效的在线集成对高维演化数据流进行分类,数据挖掘和知识发现,31,5,1242-1265(2017)·Zbl 1411.62175号 ·doi:10.1007/s10618-017-0500-7
[93] 张,L。;林,J。;Karim,R.,从高维数据流中基于滑动窗口的故障检测,IEEE系统、人与控制论事务:系统,47,2,289-303(2017)
[94] 张,Q。;张,P。;Long,G。;丁·W。;张,C。;Wu,X.,梯形数据流在线学习,IEEE知识与数据工程汇刊,28,10,2709-2723(2016)·doi:10.1109/TKDE.2016.2563424
[95] Zhu,X.、Zhang,P.、Wu,X.,He,D.、Zhang,C.和Shi,Y.(2008)。清除噪声数据流。IEEE数据挖掘国际会议(第1139-1144页)。
[96] ƀ利奥贝特,I。;Bifet,A。;里德·J。;普法林格,B。;Holmes,G.,《具有时间相关性的流数据分类的评估方法和决策理论》,机器学习,98,3,455-482(2015)·兹比尔1311.62094 ·doi:10.1007/s10994-014-5441-4
[97] ƀ利奥贝特,I。;Budka,M。;英国《金融时报》Stahl,《迈向成本敏感适应:何时值得更新预测模型?》?,神经计算,150240-249(2015)·doi:10.1016/j.neucom.2014.05.084
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。