×

在线性能评估框架:数据流的异构集成学习。 (英语) Zbl 1457.68320号

摘要:分类器集成是许多数据挖掘应用程序(包括数据流挖掘)中性能最佳的分类器之一。不是训练一个分类器,而是训练多个分类器,并根据给定的投票时间表组合它们的预测。合奏成功的一个重要先决条件是各个模型都是多样化的。大幅增加模型多样性的一种方法是建立异质的集成,由根本不同的模型类型组成。然而,大多数专门为动态数据流设置开发的集成只依赖于一种基本分类器,通常情况下Hoeffing树我们研究了数据流的异构集成的使用。我们引入了在线性能估计框架,该框架对集合中单个分类器的投票进行动态加权。通过对最近的训练数据进行内部评估,它可以测量集合成员在此方面的表现,并动态更新其权重。在大量数据流上的实验表明,其性能与最先进的集成技术相竞争,包括在线打包利用袋装,同时速度显著加快。这项工作的所有实验结果都很容易复制,并且可以在线公开。

MSC公司:

68周27 在线算法;流式算法
62H30型 分类和区分;聚类分析(统计方面)
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)

关键词:

数据流合奏元学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿佩特,C;Weiss,S,《使用决策树和决策规则进行数据挖掘》,《未来一代计算机系统》,第13期,第197-210页,(1997年)
[2] 贝林格,J;Hüllermier,E,《基于实例的数据流高效学习》,《智能数据分析》,第11627-650页,(2007)
[3] 双歧杆菌,A;E·弗兰克;霍姆斯,G;Pfahringer,B,受限Hoeffing树集合,ACM智能系统与技术交易(TIST),3,30,(2012)
[4] Bifet,A;Gavalda,R,通过自适应窗口从时变数据中学习,SDM,SIAM,7139-148,(2007)
[5] Bifet,A.和Gavaldá,R.(2009年)。从不断变化的数据流中进行自适应学习。智能数据分析进展VIII(第249-260页)。斯普林格。
[6] Bifet,A;霍姆斯,G;柯克比,R;Pfahringer,B,MOA:大规模在线分析,《机器学习研究杂志》,11,1601-1604,(2010)
[7] Bifet,A.、Holmes,G.和Pfahringer,B.(2010年B)。利用打包技术来发展数据流。数据库中的机器学习和知识发现,计算机科学课堂讲稿(第6321卷,第135-150页)。斯普林格。
[8] Bottou,L.(2004)。随机学习。机器学习高级讲座(第146-168页)。施普林格·Zbl 1120.68426号
[9] Braddil,P.、Gama,J.和Henery,B.(1994年)。使用元级学习表征分类算法的适用性。机器学习:ECML-94(第83-102页)。斯普林格。
[10] 布拉迪尔,P;苏亚雷斯,C;Costa,JP,《排名学习算法:在准确性和时间结果上使用IBL和元学习》,机器学习,50,251-277,(2003)·Zbl 1033.68082号
[11] Breiman,L,Bagging predictors,机器学习,24,123-140,(1996)·Zbl 0858.68080号
[12] Caruana,R.、Niculescu Mizil,A.、Crew,G.和Ksikes,A.(2004年)。从模型库中进行集成选择。第二十一届机器学习国际会议记录(第18页)。ACM公司。
[13] Demšar,J,多数据集上分类器的统计比较,机器学习研究杂志,7,1-30,(2006)·Zbl 1222.68184号
[14] Domingos,P.和Hulten,G.(2000年)。挖掘高速数据流。第六届ACM SIGKDD知识发现和数据挖掘国际会议记录(第71-80页)。
[15] 多明戈斯,P;Hulten,G,挖掘海量数据流的通用框架,《计算与图形统计杂志》,12945-949,(2003)
[16] 伽马,J;Braddil,P,级联泛化,机器学习,41,315-343,(2000)·Zbl 0966.68180号
[17] 伽马,J;Kosina,P,数据流分类中的递归概念,知识和信息系统,40,489-507,(2014)
[18] Gama,J.、Medas,P.、Castillo,G.和Rodrigues,P.(2004年a)。学习漂移检测。SBIA巴西人工智能研讨会,计算机科学讲稿(第3171卷,第286-295页)。斯普林格·Zbl 1105.68376号
[19] Gama,J.、Medas,P.和Rocha,R.(2004b)。联机数据的森林树。2004年ACM应用计算研讨会会议记录(第632-636页)。ACM公司。
[20] Gama,J.、Sebastiáo,R.和Rodrigues,P.(2009)。流学习算法评估中的问题。第15届ACM SIGKDD知识发现和数据挖掘国际会议记录(第329-338页)。ACM公司。
[21] 伽马,J;Sebastião,右;罗德里格斯,PP,《关于评估流学习算法》,机器学习,90,317-346,(2013)·Zbl 1260.68329号
[22] 霍尔,M;E·弗兰克;霍姆斯,G;普法林格,B;鲁特曼,P;Witten,IH,WEKA数据挖掘软件:更新,ACM SIGKDD Explorations Newsletter,11,10-18,(2009)
[23] 汉森,L;Salamon,P,神经网络集成,IEEE模式分析和机器智能汇刊,1993-1001,(1990)
[24] Hintze,JL;Nelson,RD,《小提琴绘图:盒子密度轨迹协同效应》,《美国统计学家》,52,181-184,(1998)
[25] Kolter,JZ;Maloof,MA,《动态加权多数:漂移概念的集成方法》,《机器学习研究杂志》,82755-2790,(2007)·Zbl 1222.68237号
[26] Ladha,KK,Condorcet根据de finetti定理的陪审团定理,社会选择与福利,10,69-85,(1993)·Zbl 0779.90007号
[27] Lee,JW;Giraud Carrier,C,无监督金属学习的指标,智能数据分析,15227-841,(2011)
[28] 小石,N;Warmuth,M,加权多数算法,信息与计算,108,212-261,(1994)·Zbl 0804.68121号
[29] Nguyen,H.L.、Woon,Y.K.、Ng,W.K.和Wan,L.(2012年)。数据流中特征漂移的异构集成。知识发现和数据挖掘的进展(第1-12页)。斯普林格。
[30] Oza,N.C.(2005年)。在线装袋和助推。2005年IEEE系统、人与控制论国际会议(第3卷,第2340-2345页)。电气与电子工程师协会。
[31] Peterson,A.H.和Martinez,T.(2005)。评估组合学习模型的潜力。ICML元学习研讨会会议记录(第68-75页)。
[32] Pfahringer,B.、Bensusan,H.和Giraud-Carrier,C.(2000)。告诉我谁可以学习你,我可以告诉你是谁:地标各种学习算法。第17届机器学习国际会议论文集(第743-750页)。
[33] Pfahringer,B.、Holmes,G.和Kirkby,R.(2007)。锄头树木的新选择。人工智能2007:人工智能进展(第90-99页)。斯普林格。
[34] Read,J.、Bifet,A.、Pfahringer,B.和Holmes,G.(2012)动态和演化数据中的批量增量与实例增量学习。智能数据分析进展XI(第313-323页)。斯普林格。
[35] 赖斯,JR,算法选择问题,计算机进展,15,65-118,(1976)
[36] Rokach,L.和Maimon,O.(2005)。聚类方法。数据挖掘和知识发现手册(第321-352页)。斯普林格·Zbl 1087.68029号
[37] 罗西,ALD;莱昂·费雷拉(Leon Ferreira),ACP;苏亚雷斯,C;Souza,BF,Metastream:一种基于元学习的时变数据周期算法选择方法,神经计算,127,52-64,(2014)
[38] Schapire,RE,《弱可学习性的力量》,机器学习,5,197-227,(1990)
[39] 振动筛,A;Hüllermier,E,《非平稳数据流自适应学习的恢复分析:实验设计和案例研究》,神经计算,150,250-264,(2015)
[40] Shalev Shwartz,S;歌手,Y;斯雷布罗,N;Cotter,A,Pegasos:SVM的原始估计子梯度解算器,《数学规划》,127,3-30,(2011)·Zbl 1211.90239号
[41] van Rijn,J.N.(2016)。大规模协作机器学习莱顿大学博士论文。
[42] van Rijn,J.N.、Holmes,G.、Pfahringer,B.和Vanschoren,J.(2014)。数据流上的算法选择。发现科学,计算机科学课堂讲稿(第8777卷,第325-336页)。斯普林格·Zbl 1457.68320号
[43] van Rijn,J.N.、Holmes,G.、Pfahringer,B.和Vanschoren,J.(2015)。爆炸:数据流的元学习和异构集成。2015 IEEE数据挖掘国际会议(ICDM)(第1003-1008页)。电气与电子工程师协会。
[44] Vanschoren,J;JN,Rijn;Bischl,B;Torgo,L,Openml:机器学习中的网络科学,ACM SIGKDD Explorations Newsletter,15,49-60,(2014)
[45] Wang,H.,Fan,W.,Yu,P.S.,&Han,J.(2003)。使用集成分类器挖掘概念驱动数据流。KDD公司(第226-235页)。
[46] Wolpert,DH,叠加泛化,神经网络,5,241-259,(1992)
[47] Zhang,P.、Gao,B.J.、Zhu,X.和Guo,L.(2011)为数据流实现快速懒惰学习。2011年IEEE第11届数据挖掘国际会议(ICDM)(第932-941页)。电气与电子工程师协会。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。