×

通过模型重用处理概念漂移。 (英语) Zbl 1494.68237号

摘要:在许多实际应用程序中,数据通常以流的形式收集,因此分布通常在性质上发生变化,这称为概念漂移在文学作品中。我们提出了一种通过模型重用处理概念漂移的新颖有效的方法,即重用根据先前数据训练的模型来处理更改。每个模型都与一个权重相关联,该权重表示其对当前数据的可重用性,并根据模型的性能自适应调整权重。我们提供了概括和遗憾分析,以证明我们的方法的优越性。实验结果也验证了它在合成数据集和真实数据集上的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 巴特利特,PL;O.布斯克。;Mendelson,S.,《当地雷达员复杂性》,《统计年鉴》,第33、4、1497-1537页(2005年)·Zbl 1083.62034号 ·doi:10.1214/009053605000000282
[2] 巴特利特,PL;Mendelson,S.,《Rademacher和高斯复杂性:风险边界和结构结果》,《机器学习研究杂志》,3463-482(2002)·Zbl 1084.68549号
[3] O.贝斯。;古尔,Y。;Zeevi,AJ,非静态随机优化,运筹学,63,5,1227-1244(2015)·Zbl 1338.90280号 ·doi:10.1287/opre.2015.1408
[4] Beygelzimer,A.、Kale,S.和Luo,H.(2015)。在线增压的优化和自适应算法。第32届国际机器学习会议(ICML)论文集,第2323-2331页。
[5] Bifet,A.和Gavaldá,R.(2007年)。通过自适应窗口从随时间变化的数据中学习。在第七届SIAM数据挖掘国际会议论文集(SDM),第443-448页。
[6] Bousquet,O.(2002年)。集中不等式和经验过程理论应用于学习算法的分析。Ecole Polytechnology博士论文。
[7] 塞萨·比安奇,N。;弗伦德,Y。;Haussler,D。;Helmbold,DP;夏皮雷,RE;Warmuth,MK,《如何使用专家建议》,《美国医学会杂志》,44,3,427-485(1997)·Zbl 0890.68066号 ·doi:10.1145/258128.258179
[8] 塞萨·比安奇,N。;Lugosi,G.,《预测、学习和游戏》(2006),剑桥:剑桥大学出版社,剑桥·Zbl 1114.91001号
[9] Chen,Y.、Keogh,E.、Hu,B.、Begum,N.、Bagnall,A.、Mueen,A.和Batista,G.(2015)。ucr时间序列分类档案。2018年9月8日检索自网址:http://www.cs.ucr.edu/eamonn/time_series_data。
[10] Crammer,K.、Mansour,Y.、Even-Dar,E.和Vaughan,J.W.(2010年)。概念漂移的遗憾最小化。第23届计算学习理论年会(COLT)论文集,第168-180页。
[11] Dietterich,Thomas G.,《迈向稳健人工智能的步骤》,AI杂志,38,3,3-24(2017)·doi:10.1609/aimag.v38i3.2756
[12] Dietterich,Thomas G.,《稳健人工智能与稳健人类组织》,《计算机科学前沿》,第13、1、1-3页(2018年)·doi:10.1007/s11704-018-8900-4
[13] Du,S.S.、Koushik,J.、Singh,A.和Póczos,B.(2017年)。通过转换函数进行假设迁移学习。《神经信息处理系统进展》30(NIPS),第574-584页。
[14] Duan,L.,Tsang,I.W.,Xu,D.,&Chua,T.(2009)。通过辅助分类器从多个源进行域自适应。第26届国际机器学习会议(ICML)论文集,第289-296页。
[15] R.Elwell。;Polikar,R.,非平稳环境中概念漂移的增量学习,IEEE神经网络汇刊,22,10,1517-1531(2011)·doi:10.1109/TNN.2011.2160459
[16] Forman,G.(2006)。通过时间归纳转移解决概念漂移。第29届ACM SIGIR国际信息检索研究与开发会议(SIGIR)论文集,第252-259页。
[17] 贾马,J。;Kosina,P.,数据流分类中的递归概念,知识和信息系统,40,3,489-507(2014)·doi:10.1007/s10115-013-0654-6
[18] Gama,J.、Rocha,R.和Medas,P.(2003年)。用于挖掘高速数据流的精确决策树。第九届ACM SIGKDD国际知识发现与数据挖掘会议(KDD)论文集,第523-528页。
[19] 贾马,J。;伊利奥贝特。;Bifet,A。;Pechenizkiy,M。;Bouchachia,A.,概念漂移适应调查,ACM计算调查,46,4,44:1-44:37(2014)·兹比尔1305.68141 ·doi:10.145/2523813
[20] 戈梅斯,HM;巴德达尔,JP;Enembreck,F。;Bifet,A.,数据流分类集成学习调查,ACM计算调查,50,2,23:1-23:36(2017)·doi:10.1145/3054925
[21] Harel,M.、Mannor,S.、El-Yaniv,R.和Crammer,K.(2014年)。通过重采样进行概念漂移检测。第31届国际机器学习会议(ICML)论文集,第1009-1017页。
[22] Harries,M.和Wales,N.S.(1999年)。拼接2比较评估:电价。南威尔士大学技术报告。
[23] Hazan,E.,在线凸优化简介,优化的基础和趋势,2,3-4,157-325(2016)·doi:10.1561/24000013
[24] Helmbold,DP;Long,PM,通过最小化分歧跟踪漂移概念,机器学习,14,1,27-45(1994)·Zbl 0942.68667号
[25] Jaber,G.、Cornuéjols,A.和Tarroux,P.(2013)。一种新的在线学习方法,用于处理重复出现的概念:ADACC系统。《第20届神经信息处理国际会议论文集》,第595-604页。
[26] 卡卡德,SM;沙列夫·施瓦茨,S。;Tewari,A.,《矩阵学习的正则化技术》,《机器学习研究杂志》,第13期,1865-1890页(2012年)·Zbl 1432.68388号
[27] Katakis,I。;Tsoumakas,G。;Banos,E。;北巴西利亚德斯。;Vlahavas,IP,自适应个性化新闻传播系统,《智能信息系统杂志》,32,2,191-212(2009)·doi:10.1007/s10844-008-0053-8
[28] Katakis,I.、Tsoumakas,G.和Vlahavas,I.P.(2008)。用于处理数据流中重复出现的上下文的分类器集合。《第18届欧洲人工智能会议论文集》,第763-764页。
[29] Katakis,I。;Tsoumakas,G。;Vlahavas,IP,《使用集合分类器跟踪重复上下文:电子邮件过滤应用》,《知识与信息系统》,22,3,371-391(2010)·doi:10.1007/s10115-009-0206-2
[30] Klinkenberg,R.,《学习漂移概念:示例选择与示例权重》,《智能数据分析》,8,3,281-300(2004)·doi:10.3233/IDA-2004-8305
[31] Klinkenberg,R.和Joachims,T.(2000)。使用支持向量机检测概念漂移。第17届国际机器学习会议(ICML)论文集,第487-494页。
[32] Koltchinskii,V.,Oracle在经验风险最小化和稀疏恢复问题中的不平等(2011年),柏林:施普林格出版社,柏林·Zbl 1223.91002号
[33] Kolter,J.Z.和Maloof,M.A.(2003年)。动态加权多数:一种跟踪概念漂移的新集成方法。在第三届IEEE数据挖掘国际会议(ICDM)论文集,第123-130页。
[34] Kolter,J.Z.和Maloof,M.A.(2005年)。使用加性专家集成来应对概念漂移。第22届国际机器学习会议(ICML)论文集,第449-456页。
[35] Kolter,JZ;Maloof,MA,《动态加权多数:漂移概念的集成方法》,《机器学习研究杂志》,82755-2790(2007)·Zbl 1222.68237号
[36] Koolen,W.M.、van Erven,T.和Grünwald,P.(2014)。通过专家建议学习预测的学习率。《神经信息处理系统进展》27(NIPS),第2294-2302页。
[37] Koychev,I.(2000年)。逐渐忘记适应概念漂移。《ECAI 2000时空推理当前问题研讨会论文集》,第101-106页。
[38] 李坤雪娃(Kuncheva,LI);Zliobaite,I.,《关于变化环境中分类的窗口大小》,《智能数据分析》,第13、6、861-872页(2009年)·doi:10.3233/IDA-2009-0397
[39] Kuzborskij,I.和Orabona,F.(2013)。稳定性和假设迁移学习。第30届机器学习国际会议(ICML)论文集,第942-950页。
[40] Kuzborskij,I。;Orabona,F.,《从辅助假设转移的快速速率》,机器学习,106,2,171-195(2017)·Zbl 1453.68153号 ·doi:10.1007/s10994-016-5594-4
[41] 勒杜,M。;Talagrand,M.,《banach空间中的概率:等高线和过程》(2013),柏林:施普林格出版社,柏林
[42] Lei,Y.、Dogan,U.、。,Binder,A.和Kloft,M.(2015)。多类支持向量机:从更严格的数据相关泛化边界到新的算法。《神经信息处理系统进展》28(NIPS),第2035-2043页。
[43] 李,N。;Tsang,IW;周,ZH,通过分类器自适应有效优化性能度量,IEEE模式分析和机器智能汇刊,35,6,1370-1382(2013)·doi:10.1109/TPAMI.2012.172
[44] Maurer,A.(2016)。rademacher复杂性的向量压缩不等式。第27届算法学习理论国际会议论文集,第3-17页·Zbl 1478.68296号
[45] Mohri,M.,&Medina,A.M.(2012)漂移分布学习的新分析和算法。《第23届算法学习理论国际会议论文集》,第124-138页·Zbl 1367.68236号
[46] 莫赫里,M。;Rostamizadeh,A。;Talwalkar,A.,《机器学习基础》(2012),剑桥:麻省理工学院出版社,剑桥·Zbl 1318.68003号
[47] 莫赫里,M。;Rostamizadeh,A。;Talwalkar,A.,《机器学习基础》(2018),剑桥:麻省理工学院出版社,剑桥·Zbl 1407.68007号
[48] Rad,R.H.和Haeri,M.A.(2019)。混合森林:一种概念漂移感知的数据流挖掘算法。CoRR arXiv:1902.03609。
[49] Reddi,S.J.、Póczos,B.和Smola,A.J.(2015)。双稳健协变量偏移校正。《第二十九届AAAI人工智能会议论文集》,第2949-2955页。
[50] Schapire,RE,《弱可学习性的力量》,机器学习,5197-227(1990)
[51] 夏皮雷,RE;Freund,Y.,《Boosting:Foundations and algorithms》(2012),剑桥:麻省理工学院出版社,剑桥·Zbl 1278.68021号
[52] Schlimmer,JC;Granger,RH,从噪声数据进行增量学习,机器学习,1,3,317-354(1986)
[53] Schölkopf,B.、Herbrich,R.和Smola,A.J.(2001)。广义表示定理。第14届计算学习理论年会(COLT)论文集,第416-426页·兹比尔0992.68088
[54] 塞格夫,N。;哈雷,M。;曼诺,S。;克拉默,K。;El-Yaniv,R.,《在源上学习,在目标上完善:随机森林的模型转移学习框架》,IEEE模式分析和机器智能学报,39,9,1811-1824(2017)·doi:10.1109/TPAMI.2016.268118
[55] Shewchuk,J.R.(1994)。介绍无痛苦的共轭梯度法。卡内基·梅隆大学。
[56] de Souza,V.M.A.、Silva,D.F.、Gama,J.和Batista,G.E.A.A.(2015)。基于非平稳环境和极端验证延迟的聚类引导的数据流分类。《2015年SIAM数据挖掘国际会议(SDM)论文集》,第873-881页。
[57] Srebro,N.、Sridharan,K.和Tewari,A.(2010年)。平滑、低噪音、速度快。《神经信息处理系统进展》23(NIPS),第2199-2207页。
[58] Sridharan,K.、Shalev-Shwartz,S.和Srebro,N.(2008)。针对正规化目标的快速费率。《神经信息处理系统进展》21(NIPS),第1545-1552页。
[59] Street,W.N.和Kim,Y.(2001年)。一种用于大规模分类的流集成算法(SEA)。第七届ACM SIGKDD国际知识发现与数据挖掘会议(KDD)论文集,第377-382页。
[60] 孙,Y。;Tang,K。;朱,Z。;Yao,X.,利用历史知识进行概念漂移适应,IEEE神经网络和学习系统汇刊,29,10,4822-4832(2018)·doi:10.1109/TNNLS.2017.2775225
[61] 日本苏肯斯;Van Gestel,T。;De Brabanter,J.,最小二乘支持向量机(2002),新加坡:世界科学,新加坡·Zbl 1017.93004号
[62] Tommasi,T.、Orabona,F.和Caputo,B.(2010年)。数字安全:通过多模型知识转移从少数示例中学习类别。在第23届IEEE计算机视觉和模式识别会议论文集(CVPR),第3081-3088页。
[63] 托马西,T。;奥拉博纳,F。;Caputo,B.,《利用多模型知识转移从少数示例中学习类别》,IEEE模式分析和机器智能学报,36,5,928-941(2014)·doi:10.1109/TPAMI.2013.197
[64] Vergara,A。;Vembu,S.公司。;Ayhan,T。;马萨诸塞州Ryan;霍默,马里兰州;Huerta,R.,《使用分类器集合的化学气体传感器漂移补偿》,传感器和执行器B:Chemical,166,320-329(2012)·doi:10.1016/j.snb.2012.01.074
[65] Wu,X.Z.,Liu,S.,&Zhou,Z.H.(2019)。通过优化多方多类余量实现异构模型重用。第36届国际机器学习会议(ICML)论文集,第6840-6849页。
[66] Yang,T.,Li,Y.F.,Mahdavi,M.,Jin,R.,&Zhou,Z.H.(2012)。Nyström方法与随机傅里叶特征:理论和经验比较。《神经信息处理系统进展》25(NIPS),第476-484页。
[67] Ye,H.J.,Zhan,D.C.,Jiang,Y.,&Zhou,Z.H.(2018)。使用语义映射纠正异构模型。第35届国际机器学习会议(ICML)论文集,第1904-1913页。
[68] Zhang,L.,Lu,S.,&Zhou,Z.H.(2018)。动态环境中的自适应在线学习。《神经信息处理系统进展》31(NeurIPS),第1330-1340页。
[69] Zhao,P.,Wang,X.,Xie,S.,Guo,L.,&Zhou,Z.-H.(2019)。无分发的单程学习。IEEE知识与数据工程学报。10.1109/TKDE.2019.2937078。
[70] Zhou,ZH,《集成方法:基础和算法》(Ensemble methods:Foundations and algorithms)(2012),伦敦:查普曼和霍尔/CRC出版社,伦敦
[71] 周志华,《学习软件:机器学习的未来》,计算机科学前沿,10,4,589-590(2016)·doi:10.1007/s11704-016-6906-3
[72] 周振华(2019)。外展学习:将机器学习和逻辑推理联系起来。科学中国信息科学,62(7),76101:1-76101:3。
[73] Zinkevich,M.(2003年)。在线凸规划与广义无穷小梯度提升。《第20届国际机器学习会议(ICML)论文集》,第928-936页。
[74] Zliobaite,I.,结合概念漂移下训练集形成的时间和空间相似性,智能数据分析,15,4,589-611(2011)·doi:10.3233/IDA-2011-0484
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。