×

数据流的延迟标记评估。 (英语) Zbl 1455.68167号

摘要:流挖掘分类研究的很大一部分依赖于预测后立即获得真实标签。这种方法在测试-训练评估中得到了很好的例证,其中预测在真正的标签到达之前。然而,在许多实际场景中,标签到达时具有不可忽略的延迟。这就提出了如何评估在这种情况下训练的分类器的问题。当流挖掘模型需要在获取实例数据和接收其真实标签之间改进其预测时,这个问题尤为重要。在这项工作中,我们提出了一种在发生验证延迟时对数据流进行评估的新方法,即连续重新评估。它应用于参考数据流,并根据流挖掘技术根据新到达的实例细化预测的能力来区分流挖掘技术。我们的研究指出、讨论并实证证明了在评估数据流分类器时考虑实例标签延迟的重要性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62升10 序列统计分析

软件:

农业部
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdulsalam,H。;斯基利科恩,DB;Martin,P.,使用流随机森林进行分类,IEEE Trans Knowl Data Eng,23,1,22-36(2010)·doi:10.1109/TKDE.2010.36
[2] 阿格拉瓦尔,R。;Imilielinski,T。;Swani,A.,《数据库挖掘:性能视角》,IEEE Trans Knowl Data Eng,5,6,914-925(1993)·数字对象标识代码:10.1109/69.250074
[3] Almeida E、Ferreira C、Gama J(2013),数据流自适应模型规则。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第480-492页
[4] Bifet A,GavaldáR(2007)利用自适应窗口从时变数据中学习。摘自:2007年4月26日至28日在美国明尼苏达州明尼阿波利斯举行的第七届SIAM数据挖掘国际会议记录。工业和应用数学学会SIAM,第443-448页
[5] Bifet A,GavaldáR(2009),从不断变化的数据流中自适应学习。参加:智能数据分析国际研讨会。施普林格,第249-260页。10.1007/978-3-642-03915-7_22
[6] Bifet A,Holmes G,Kirkby R,Pfahringer B(2011a)MOA数据流挖掘——一种实用方法。开放软件创新中心
[7] Bifet A、Holmes G、Pfahringer B、Read J、Kranen P、Kremer H、Jansen T、Seidl T(2011b)MOA:实时分析开源框架。摘自:关于数据库中机器学习和知识发现的联合欧洲会议。施普林格,第617-620页
[8] Bifet A、Read J、闰liobitíI、Pfahringer B、Holmes G(2013),基准数据流分类中的陷阱以及如何避免它们。关于数据库中的机器学习和知识发现的欧洲联合会议。柏林施普林格,第465-479页
[9] Bifet A,de Francisci Morales G,Read J,Holmes G,Pfahringer B(2015)大数据流分类器的高效在线评估。参加:第21届ACM SIGKDD知识发现和数据挖掘国际会议。ACM,第59-68页
[10] JA Blackard;Dean,DJ,从制图变量预测森林覆盖类型时人工神经网络和判别分析的比较精度,计算电子农业,24,3,131-151(1999)·doi:10.1016/S0168-1699(99)00046-0
[11] Breiman,L.,《随机森林》,《马赫学习》,第45、1、5-32页(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[12] Breiman,L.,分类和回归树(2017),纽约:Routledge,纽约
[13] Ditzler,G。;Roveri,M。;Alippi,C。;Polikar,R.,非平稳环境中的学习:一项调查,IEEE Comput Intell Mag,10,4,12-25(2015)·doi:10.1109/MCI.2015.2471196
[14] Domingos P,Hulten G(2000)挖掘高速数据流。参加:第六届ACM SIGKDD知识发现和数据挖掘国际会议。ACM,第71-80页
[15] Fanaee-T H,Gama J(2013),结合集合检测器和背景知识的事件标记。Progr Artif智能。doi:10.1007/s13748-013-0040-3
[16] Gama J,Rodrigues P(2009)流学习算法评估中的问题。参加:第15届ACM SIGKDD知识发现和数据挖掘国际会议。ACM,第329-338页
[17] HM戈麦斯;Bifet,A。;里德·J。;巴达尔,JP;Enembreck,F。;Pfharinger,B。;霍姆斯,G。;Abdessalem,T.,《进化数据流分类的自适应随机森林》,《马赫学习》,106,9,1469-1495(2017)·doi:10.1007/s10994-017-5642-8
[18] Gomes HM、Barddal JP、Boiko LE、Bifet A(2018)《数据流回归的自适应随机森林》。摘自:第26届欧洲人工神经网络研讨会论文集。第267-272页
[19] Hulten G,Spencer L,Domingos P(2001)挖掘时变数据流。参加:第七届ACM SIGKDD知识发现和数据挖掘国际会议。ACM,第97-106页
[20] 伊科诺莫夫斯卡,E。;贾马,J。;Díeroski,S.,《从不断演变的数据流中学习模型树》,《data Min Knowl Discov》,第23、1、128-168页(2011年)·Zbl 1235.68158号 ·doi:10.1007/s10618-010-0201-y
[21] Ikonomovska E,Gama J,Zenko B,Dzeroski S(2011b)带选项的基于Hoeffding的加速回归树。参加:机器学习国际会议。Omnipress,第537-544页
[22] Kuncheva LI,Sánchez JS(2008),最近邻分类器,用于延迟标记流数据。参加:IEEE数据挖掘国际会议。IEEE,第869-874页
[23] Kuo Ss,Lee Cm,Ko Cn(2014)基于混合学习算法的短期负荷预测神经网络。年:模糊理论及其应用国际会议。IEEE,第105-110页
[24] N.马茨。;Warren,J.,《大数据:可扩展实时数据系统的原则和最佳实践》(2015),格林威治:曼宁出版公司,格林威奇
[25] 马苏德,M。;高杰。;Khan,L。;Han,J。;Thurasingham,BM,时间约束下概念驱动数据流中的分类和新类检测,IEEE TKDE,23,6,859-874(2011)
[26] Plasse J,Adams N(2016)处理时间演变数据流中的延迟标签。2016年IEEE国际大数据会议(大数据)。IEEE,第2416-2424页
[27] Souza VMA、Silva DF、Batista GEAPA、Gama J(2015)《具有无限延迟标签的进化数据流分类》。收录:IEEE机器学习和应用国际会议。IEEE,第214-219页
[28] Srinivasan,D。;Chang,CS;Liew,AC,《使用模糊神经计算进行需求预测,特别强调周末和公共假日预测》,IEEE Trans Power Syst,10,4,1897-1903(1995)·doi:10.1109/59.476055
[29] 《延迟标记的变化:什么时候可以检测到?》?参加:IEEE数据挖掘研讨会国际会议。IEEE,第843-850页
[30] 《狮子座》,I。;Bifet,A。;里德·J。;普法林格,B。;Holmes,G.,《具有时间相关性的流数据分类的评估方法和决策理论》,《马赫学习》,98,3,455-482(2015)·Zbl 1311.62094号 ·doi:10.1007/s10994-014-5441-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。