×

通过资源高效的在线集成对高维演化数据流进行分类。 (英语) Zbl 1411.62175号

摘要:提出了一种新的在线集成策略,即集成BPegasos(EBPegasos),以解决高维演化数据流分类中概念漂移和维数灾难所带来的问题,而这在文献中尚未得到解决。首先,EBPegasos使用基于SVM的在线内核算法BPegasos作为组件分类器,以解决高维数据的可扩展性和稀疏性问题。其次,EBPegasos充分利用BPegasos的特性来应对各种类型的概念漂移。具体来说,EBPegasos通过控制BPegasos的预算大小来构建不同的组件分类器;它还为每个组件配备了一个漂移检测器,以监测和评估其性能,并且仅当性能出现较大下降时才修改集成结构。这种有条件的结构修改策略使EBPegasos在利用和遗忘旧知识之间取得了良好的平衡。最后,我们首先证明实验表明,EBPegasos在高维数据上比树集合更有效,也更节省资源。然后,对合成数据集和真实数据集的综合实验也表明,当所有集成使用BPegasos作为基础学习者时,EBPegasos能够比最先进的集成框架更好地处理各种类型的概念漂移。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68周27 在线算法;流式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdulsalam H,Skillicorn DB,Martin P(2007),流随机森林。摘自:第11届国际数据库工程与应用研讨会,pp 225-232
[2] Abdulsalam H,Skillicorn DB,Martin P(2011),使用流随机森林进行分类。IEEE Trans Knowl Data Eng 23(1):22-36·doi:10.1109/TKDE.2010.36
[3] Abe S(2005)用于模式分类的支持向量机。斯普林格,伦敦·Zbl 1191.68549号
[4] Aggarwal CC,Yu PS(2008)蝗虫:数据流高维分类的在线分析处理框架。在:第24届IEEE数据工程国际会议论文集,第426-435页
[5] Bifet A,Frank E(2010)推特流数据中的情感知识发现。摘自:发现科学国际会议,第1-15页
[6] Biffet A,Gavalda R(2007)通过自适应窗口从时变数据中学习。摘自:第七届SIAM数据挖掘国际会议记录,第443-448页
[7] Bifet A,Holmes G,Pfahringer B,Kirkby R,GavaldáR(2009),进化数据流的新集成方法。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议记录,第139-148页
[8] Bifet A、Holmes G、Kirkby R、Pfahringer B(2010a)Moa:大规模在线分析。J Mach学习研究11:1601-1604
[9] Bifet A、Holmes G、Pfahringer B(2010年B)《利用袋装技术实现不断发展的数据流》。摘自:关于数据库中机器学习和知识发现的欧洲联合会议,第135-150页
[10] Bifet A、Holmes G、Pfahringer B、Frank E(2010c)《从进化数据流中快速感知器决策树学习》。摘自:太平洋亚洲知识发现和数据挖掘会议,第299-310页
[11] Bifet A,Pfahringer B,Read J,Holmes G(2013)通过概率自适应窗口进行高效数据流分类。摘自:第28届ACM应用计算年会论文集,第801-806页
[12] Brzeziñski D,Stefanowski J(2011),概念漂移数据流的精度更新集成。In:混合人工智能系统国际会议,pp 155-163
[13] Brzezinski D,Stefanowski J(2014a)将基于块的方法和在线方法相结合,从概念漂移数据流中学习集成。信息科学265:50-67·Zbl 1328.68158号 ·doi:10.1016/j.ins.2013.12.11
[14] Brzezinski D,Stefanowski J(2014b)对不同类型概念漂移的反应:精度更新的集成算法。IEEE Trans Neural Netw学习系统25(1):81-94·doi:10.1109/TNNLS.2013.2251352
[15] Demšar J(2006)多数据集分类器的统计比较。J Mach学习研究7:1-30·Zbl 1222.68184号
[16] Denil M、Matheson D、De Freitas N(2013)《在线随机森林的一致性》。摘自:第30届机器学习国际会议论文集,第1256-1264页
[17] Do,TN;Lenca,P。;拉利奇,S。;Pham,NK公司;Guillet,F.(编辑);Ritschard,G.(编辑);Zighed,DA(编辑);Briand,H.(编辑),用倾斜决策树的随机森林对极高维数据进行分类,39-55(2010),柏林,海德堡·Zbl 1202.68309号 ·doi:10.1007/978-3642-00580-03
[18] Domingos P,Hulten G(2000)挖掘高速数据流。摘自:第六届ACM SIGKDD知识发现和数据挖掘国际会议记录,第71-80页
[19] Elwell R,Polikar R(2011)非平稳环境中概念漂移的增量学习。IEEE跨神经网络22(10):1517-1531·doi:10.1109/TNN.2011.2160459
[20] Gama J、Fernandes R、Rocha R(2006)挖掘数据流的决策树。智能数据分析10(1):23-45
[21] Gama J、Sebastiao R、Rodrigues PP(2013)《评估流学习算法》。马赫学习90(3):317-346·Zbl 1260.68329号 ·doi:10.1007/s10994-012-5320-9
[22] Gama J、Zliobaite I、Bifet A、Pechenizkiy M、Bouchachia A(2014)《概念漂移适应调查》。ACM计算概况46(4):44·Zbl 1305.68141号 ·doi:10.1145/2523813
[23] Holmes G、Kirkby R、Pfahringer B(2005)《树木锄头压力测试》。摘自:欧洲数据挖掘和知识发现原则会议,第495-502页
[24] Hosseini MJ,Gholipour A,Beigy H(2015)基于聚类的分类器集成,用于非平稳数据流的半监督分类。知识信息系统46:1-31
[25] Hsu CW,Chang CC,Lin CJ,et al(2003)《支持向量分类实用指南》。https://www.cs.sfu.ca/people/Faculty/teaching/726/spring11/svmguide.pdf
[26] Katakis I、Tsoumakas G、Banos E、Bassiliades N、Vlahavas I(2009)自适应个性化新闻传播系统。智能信息系统杂志32(2):191-212·doi:10.1007/s10844-008-0053-8
[27] Katakis I,Tsoumakas G,Vlahavas I(2010)使用集合分类器跟踪重复出现的上下文:电子邮件过滤应用。知识信息系统22(3):371-391·doi:10.1007/s10115-009-0206-2
[28] Kolter JZ,Maloof MA(2007)《动态加权多数:漂移概念的集合方法》。J Mach学习研究8:2755-2790·Zbl 1222.68237号
[29] Krempl G、闭liobaite I、Brzeziñski D、Hüllermier E、Last M、Lemaire V、Noack T、Shaker A、Sievi S、Spiliopoulou M、Stefanowski J(2014)《数据流挖掘研究的开放挑战》。SIGKDD探索16(1):1-10·数字对象标识代码:10.1145/2674026.2674028
[30] Lakshminarayanan B,Roy DM,Teh YW(2014)蒙德里安森林:高效在线随机森林。主题:神经信息处理系统进展27:2014年神经信息处理体系年会,加拿大魁北克省蒙特利尔,第3140-3148页
[31] Liu Y,Zhou Y(2014)视觉跟踪中概念漂移的在线检测。在:神经信息处理国际会议,第159-166页
[32] McCallum A、Nigam K等人(1998年)朴素贝叶斯文本分类事件模型的比较。In:AAAI-98文本分类学习研讨会,第752卷,第41-48页
[33] Minku LL,Yao X(2012)Ddd:一种处理概念漂移的新集成方法。IEEE Trans Knowl数据工程24(4):619-633·doi:10.1109/TKDE.2111.58
[34] Minku LL,White AP,Yao X(2010)在概念漂移的情况下,多样性对在线集成学习的影响。IEEE Trans Knowl Data Eng 22(5):730-742·doi:10.1109/TKDE.2009.156
[35] Oza NC(2005)《在线装袋和助推》。2005年IEEE系统、人与控制论国际会议,第3卷,第2340-2345页
[36] 巴普,V。;Pardalos,PM;Aleskerov,F.(编辑);Goldengorin,B.(编辑);Pardalos,PM(编辑),《高维数据分类》,119-150(2014),纽约
[37] Rutkowski L、Pietruczuk L、Duda P、Jaworski M(2013)基于McDiarmid界的数据流挖掘决策树。IEEE Trans Knowl Data Eng 25(6):1272-1279·doi:10.1109/TKDE.2012.66
[38] Saffari A、Leistner C、Santner J、Godec M、Bischof H(2009)在线随机森林。2009年IEEE第12届计算机视觉研讨会国际会议,第1393-1400页
[39] Shalev-Shwartz S,Singer Y,Srebro N,Cotter A(2011)Pegasos:SVM的原始估计子梯度解算器。数学程序127(1):3-30·Zbl 1211.90239号 ·doi:10.1007/s10107-010-0420-4
[40] Tomasev N、Radovanovic M、Mladenic D、Ivanovic M(2014)《傲慢在高维数据聚类中的作用》。IEEE Trans Knowl数据工程26(3):739-751·doi:10.1109/TKDE.2013.25
[41] Wang Z,Crammer K,Vucetic S(2012)《打破核化的魔咒:大规模SVM训练的预算随机梯度下降》。J Mach学习研究13(1):3103-3131·Zbl 1433.68383号
[42] Wang D,Wu P,Zhao P,Wu Y,Miao C,Hoi SC(2014)基于稀疏在线学习的高维数据流分类。2014年IEEE数据挖掘国际会议,第1007-1012页
[43] Ye Y,Wu Q,Huang JZ,Ng MK,Li X(2013)高维数据随机森林特征子空间选择的分层抽样。图案识别46(3):769-787·doi:10.1016/j.patcog.2012.09.005
[44] Zhang X,Furtlehner C,Germain-Renaud C,Sebag M(2014),数据流聚类与亲和传播。IEEE Trans Knowl数据工程26(7):1644-1656·doi:10.1109/TKDE.2013.146
[45] Zliobaite I,Gabris B(2014)流数据的自适应预处理。IEEE Trans Knowl数据工程26(2):309-321·doi:10.1010/TKDE.2012.147
[46] Zliobaite I,Bifet A,Read J,Pfahringer B,Holmes G(2015)具有时间相关性的流数据分类的评估方法和决策理论。马赫学习98(3):455-482·兹比尔1311.62094 ·doi:10.1007/s10994-014-5441-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。