×

概念漂移检测和适应与分层假设检验。 (英语) Zbl 1453.62558号

摘要:流媒体环境中统计分类模型的一个基本问题是,预测变量和响应变量之间的联合分布会随着时间的推移而变化(这种现象也称为概念漂移),因此它们的分类性能会急剧恶化。在本文中,我们首先提出了一个层次假设检验(HHT)框架,该框架可以检测并适应各种概念漂移类型(例如,反复或不规则、渐进或突然),即使存在不平衡的数据标签。随后,在HHT框架下实现了一种新的概念漂移检测器,即分层线性四速率(HLFR)。通过用自适应训练策略替代公认的再训练方案,我们进一步证明HLFR的概念漂移适应能力可以显著提高。对HLFR的I型和II型误差进行了理论分析。在模拟数据集和真实数据集上的实验表明,我们的方法在检测精度、检测延迟以及对不同概念漂移类型的适应性方面都优于最新的方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H15型 多元分析中的假设检验
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Yu,S。;Abraham,Z.,概念漂移检测与分层假设检验,2017年SIAM国际数据挖掘会议论文集,768-776(2017)
[2] 斯拉瓦基斯,K。;Kim,S.-J。;马特奥斯,G。;Giannakis,G.B.,大数据分析在线学习的随机近似[课堂讲稿],IEEE信号处理。Mag.,31,6,124-129(2014)
[3] 胡,H。;温,Y。;Chua,T.-S。;Li,X.,《面向大数据分析的可扩展系统:技术教程》,IEEE Access,2652-687(2014)
[4] 马萨诸塞州巴斯维尔。;尼基福罗夫,I.V.,《突变检测:理论与应用》,104(1993),普伦蒂斯·霍尔-恩格尔伍德悬崖·Zbl 1407.62012年
[5] 贾马,J。;《狮子座》,I。;Bifet,A。;Pechenizkiy,M。;Bouchachia,A.,概念漂移适应调查,ACM计算。调查。,46, 4, 44 (2014) ·Zbl 1305.68141号
[6] 王,S。;Minku,L.L。;Yao,X.,关于概念漂移的在线课堂不平衡学习的系统研究,IEEE Trans。神经网络。学习。系统。,29, 10, 4802-4821 (2018)
[7] Ross,G.J。;亚当斯,新墨西哥州。;Tasoulis,D.K。;Hand,D.J.,检测概念漂移的指数加权移动平均图,模式识别。莱特。,3319198年2月33日(2012年)
[8] Widmer,G。;Kubat,M.,《在概念漂移和隐藏背景下的学习》,马赫。学习。,23, 1, 69-101 (1996)
[9] Klinkenberg,R.,《学习漂移概念:示例选择与示例权重》,英特尔。数据分析。,8, 3, 281-300 (2004)
[10] Bifet,A。;Gavalda,R.,通过自适应窗口从时变数据中学习,2007年SIAM国际数据挖掘会议论文集,443-448(2007)
[11] 杜,L。;宋,Q。;Jia,X.,检测概念漂移:使用自适应滑动窗口的基于信息熵的方法,Intel。数据分析。,18, 3, 337-364 (2014)
[12] 西北部街道。;Kim,Y.,用于大规模分类的流集成算法(sea),第七届ACM SIGKDD国际知识发现和数据挖掘会议论文集,377-382(2001)
[13] Katakis,I。;Tsoumakas,G。;Vlahavas,I.,《使用集合分类器跟踪重复出现的上下文:电子邮件过滤应用》,Knowl。通知。系统。,22, 3, 371-391 (2010)
[14] Katakis,I。;Tsoumakas,G。;Vlahavas,I.P.,用于处理数据流中重复出现的上下文的分类器集合。,欧洲人工智能会议记录,763-764(2008)
[15] R.Elwell。;Polikar,R.,非平稳环境中概念漂移的增量学习,IEEE Trans。神经网络。,22, 10, 1517-1531 (2011)
[16] 贾马,J。;梅达斯,P。;卡斯蒂略,G。;罗德里格斯,P.,《漂移检测学习》,《巴西人工智能研讨会论文集》,286-295(2004),斯普林格出版社·Zbl 1105.68376号
[17] 王,S。;Minku,L.L。;Ghezzi,D。;Caltabiano,D。;蒂诺,P。;Yao,X.,在线课堂不平衡学习的概念漂移检测,IEEE神经网络国际联合会议论文集,1-10(2013)
[18] Wang,H。;Abraham,Z.,流数据的概念漂移检测,IEEE国际神经网络联合会议(IJCNN)论文集,1-9(2015)
[19] Antwi博士。;Viktor,H.L。;Japkowicz,N.,《不平衡数据中概念漂移检测的perfsim算法》,《2012年IEEE国际数据挖掘研讨会论文集》,619-628(2012)
[20] Alippi,C。;Boracchi,G。;Roveri,M.,分层、非参数、顺序变化检测测试,IEEE国际神经网络联合会议(IJCNN)会议记录,2889-2896(2011)
[21] Alippi,C。;Boracchi,G。;Roveri,M.,《分层变更检测测试》,IEEE Trans。神经网络。学习。系统。,28, 2, 246-258 (2017)
[22] Alippi,C。;Boracchi,G。;Roveri,M.,用于递归概念的实时分类器,IEEE Trans。神经网络。学习。系统。,24, 4, 620-634 (2013)
[23] Minku,L.L。;怀特,A.P。;Yao,X.,《概念漂移下多样性对在线集成学习的影响》,IEEE Trans。知识。数据工程,22,5,730-742(2010)
[24] Minku,L.L。;Yao,X.,Ddd:处理概念漂移的新集成方法,IEEE Trans。知识。数据工程,24,4,619-633(2012)
[25] 孙,Y。;Tang,K。;Zhu,Z。;Yao,X.,《利用历史知识进行概念漂移调整》,IEEE Trans。神经网络。学习。系统。(2018)
[26] 多明戈斯,P。;Hulten,G.,《挖掘海量数据流的通用框架》,J.Compute。图表。《统计》,第12、4、945-949页(2003年)
[27] Krawczyk,B。;Minku,L.L。;贾马,J。;Stefanowski,J。;Woźniak,M.,《数据流分析的集成学习:调查》,Inform。保险丝。,37, 132-156 (2017)
[28] Kelly,M.G。;Hand,D.J。;Adams,N.M.,《人口变化对分类器性能的影响》,第五届ACM SIGKDD国际知识发现和数据挖掘会议论文集,367-371(1999)
[29] Widmer,G。;Kubat,M.,通过显式上下文跟踪在动态环境中进行有效学习,《欧洲机器学习会议论文集》,227-243(1993)
[30] 哈雷,M。;曼诺,S。;El-Yaniv,R。;Crammer,K.,通过重采样进行概念漂移检测。,《国际机器学习大会论文集》,1009-1017(2014)
[31] 桑德伯格,I.W。;Lo,J.T。;范考特,C.L。;普林西比,J.C。;Katagiri,S。;Haykin,S.,非线性动力学系统:前馈神经网络视角,21(2001),John Wiley&Sons
[32] 布罗茨基,E。;Darkhovsky,B.S.,《变点问题中的非参数方法》,243(2013),Springer Science&Business Media
[33] 陈,J。;Gupta,A.K.,《参数统计变化点分析:在遗传学、医学和金融方面的应用》(2011),施普林格科学与商业媒体
[34] Sethi,T.S。;Kantardzic,M.,关于从流式未标记数据中可靠检测概念漂移,专家系统。申请。,82, 77-99 (2017)
[35] Vapnik,V.,《学习理论风险最小化原则》,《神经信息处理系统(NIPS)进展论文集》,831-838(1991)
[36] 苏扎,V.M。;席尔瓦,D.F。;贾马,J。;Batista,G.E.,基于非平稳环境和极端验证延迟的聚类引导的数据流分类,2015年SIAM国际数据挖掘会议论文集,873-881(2015)
[37] Baena-电弧a,M。;德尔坎波-阿维拉,J。;费达尔戈,R。;Bifet,A。;加瓦尔达,R。;Morales-Bueno,R.,早期漂移检测方法,第四届数据流知识发现国际研讨会论文集,677-86(2006)
[38] 西田,K。;Yamauchi,K.,使用统计测试检测概念漂移,《发现科学国际会议论文集》,264-269(2007)
[39] 里德·J。;Bifet,A。;普法林格,B。;Holmes,G.,动态和演化数据中的批量增量与实例增量学习,《智能数据分析进展》XI,313-323(2012)
[40] 弗莱亚斯·布兰科,I。;德尔坎波-阿维拉,J。;Ramos-Jiménez,G。;莫拉莱斯·布诺,R。;Ortiz-Díaz,A。;Caballero-Mota,Y.,基于hoefffding界限的在线和非参数漂移检测方法,IEEE Trans。知识。数据工程,27,3,810-823(2015)
[41] Gonçalves,P.M。;de Carvalho Santos,S.G。;巴罗斯,R.S。;Vieira,D.C.,《概念漂移检测器的比较研究》,专家系统。申请。,41, 18, 8144-8156 (2014)
[42] Principe,J.C.(普林西比,J.C.)。;Chalasani,R.,《感官处理的认知结构》,Proc。IEEE,102,4,514-525(2014)
[43] Alippi,C。;Boracchi,G。;Roveri,M.,使用ICI规则的变化检测测试,IEEE国际神经网络联合会议(IJCNN)会议记录,1-7(2010)
[44] Helstrom,C.W.,《信号检测的统计理论》(1968),佩加蒙出版社:美国纽约州纽约市佩加蒙出版公司·Zbl 0115.13102号
[45] Siegmund,D.,《序列分析:测试和置信区间》(1985),纽约斯普林格出版社·Zbl 0573.62071号
[46] 杜,L。;宋,Q。;朱,L。;Zhu,X.,用于概念漂移检测的选择性检测器集成,计算。J.,3(2015)
[47] 马谢尔,B.I.F。;桑托斯,S.G.T.C。;Barros,R.S.M.,轻量级概念漂移检测集成,2015 IEEE人工智能工具国际会议论文集,1061-1068(2015)
[48] 王,S。;Minku,L.L。;Yao,X.,《在线课堂不平衡学习的学习框架》,IEEE计算智能与集成学习研讨会论文集,36-45(2013)
[49] Good,P.,《置换测试:测试假设的重采样方法实用指南》(2013),Springer Science&Business Media
[50] Woźniak,M。;Ksieniewicz,P。;Cyganek,B。;Walkowiak,K.,异质概念漂移检测器集成-实验研究,IFIP计算机信息系统和工业管理国际会议论文集,538-549(2016),Springer
[51] 巴蒂,D。;科戈西,P。;Rattihalli,R.N.,贝努利随机变量几何加权和的分布,应用。数学。,2, 11, 1382 (2011)
[52] O.布斯克。;Elisseeff,A.,稳定性和泛化,J.Mach。学习。决议,2,3月,499-526(2002)·Zbl 1007.68083号
[53] Ditzler,G。;Polikar,R.,流不平衡数据概念漂移的增量学习,IEEE Trans。知识。数据工程,25,10,2283-2301(2013)
[54] 杨,J。;Yan,R。;Hauptmann,A.G.,使用自适应svms的跨域视频概念检测,第15届ACM国际多媒体会议(ICME)论文集,188-197(2007)
[55] 杨,J。;Yan,R。;Hauptmann,A.G.,将支持向量机分类器应用于具有移位分布的数据,第七届IEEE数据挖掘研讨会(ICDMW)论文集,69-76(2007)
[56] Katakis,I。;Tsoumakas,G。;Vlahavas,I.,《文本数据流分类的动态特征空间和增量特征选择》,Knowl。发现。数据流,107-116(2006)
[57] Zliobaite,I.,评估概念漂移适应的电力基准有多好(2013),arXiv:1301.3524
[58] 《狮子座》,I。;Bifet,A。;里德·J。;普法林格,B。;Holmes,G.,《具有时间相关性的流数据分类的评估方法和决策理论》,马赫。学习。,98, 3, 455-482 (2015) ·Zbl 1311.62094号
[59] 贾马,J。;塞巴斯蒂昂,R。;罗德里格斯,P.P.,《流学习算法评估》,马赫。学习。,90, 3, 317-346 (2013) ·Zbl 1260.68329号
[60] Rijsbergen,C.J.V.,《信息检索》(1979),巴特沃斯·海尼曼
[61] Kubat,M。;霍尔特,R。;Matwin,S.,《负面例子大量出现时的学习》,《欧洲机器学习会议论文集》,146-153(1997)
[62] 阿纳格诺斯托普洛斯,C。;Tasoulis,D.K。;新墨西哥州亚当斯。;Hand,D.J.,数据流上逻辑分类器的时间自适应估计,数据分析和分类进展,3,3,243-261(2009)·Zbl 1305.68139号
[63] 帕夫利迪斯,N.G。;Tasoulis,D.K。;新墨西哥州亚当斯。;Hand,D.J.,(λ)-感知器:数据流的自适应分类器,模式识别。,44, 1, 78-96 (2011) ·Zbl 1211.68134号
[64] Alippi,C。;Roveri,M.,非平稳条件下的实时自适应分类器,IEEE国际神经网络联合会议论文集,1014-1019(2007)
[65] Principe,J.C.,《信息理论学习:Renyi的熵和核心观点》(2010),Springer Science&Business Media·Zbl 1206.94003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。