×

具有时间相关性的流数据分类的评估方法和决策理论。 (英语) 兹比尔1311.62094

摘要:数据流预测建模在现代数据分析中发挥着重要作用,因为数据是连续到达的,需要实时挖掘。在流设置中,数据分布通常会随着时间的推移而变化,并且在操作过程中自我更新的模型正在成为最先进的。本文形式化了此类预测模型的学习和评估方案。我们从理论上分析了分类器对具有时间相关性的流数据的评估。我们的研究结果表明,当存在时间依赖性时,普遍接受的数据流分类度量(如分类准确性和Kappa统计)无法诊断性能不佳的情况,因此不应将其用作唯一的性能指标。此外,如果将分类准确性用作评估具有时间依赖性的数据集的变化检测器的代理,则可能会产生误导。我们制定了时态流数据分类的决策理论相关性,并开发一种新的评估方法,用于考虑时间相关性的数据流分类。我们提出了一种考虑时间相关性的分类性能综合度量方法,并建议将其用作流数据分类的主要性能度量。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bache,K.和Lichman,M.(2013)。UCI机器学习库。http://archive.ics.uci.edu/ml。2013年10月访问。
[2] Baena-Garcia,M.、del Campo-Avila,J.、Fidalgo,R.、Bifet,A.、Gavalda,R.和Morales-Bueno,R.(2006)。早期漂移检测方法。第四届ECMLPKDD数据流知识发现国际研讨会论文集(第77-86页)。
[3] Bifet,A.和Gavalda,R.(2007年)。通过自适应窗口从时变数据中学习。第七届SIAM数据挖掘国际会议论文集,SDM。
[4] Bifet,A.和Gavalda,R.(2009年)。从不断变化的数据流中进行自适应学习。第八届智能数据分析国际研讨会论文集:智能数据分析进展VIII,IDA'09(第249-260页)。
[5] Bifet,A.、Holmes,G.、Kirkby,R.和Pfahringer,B.(2010年)。Moa:大量在线分析。机器学习研究杂志,11601-1604。
[6] Bifet,A.、Holmes,G.和Pfahringer,B.(2010年)。利用打包技术来发展数据流。2010年欧洲数据库机器学习和知识发现会议记录,ECMLPKDD(第135-150页)。
[7] Bifet,A.、Holmes,G.、Pfahringer,B.和Frank,E.(2010年)。从不断演变的数据流中快速学习感知器决策树。《第14届亚太知识发现和数据挖掘会议论文集》,PAKDD(第299-310页)。
[8] Bifet,A.、Holmes,G.、Pfahringer,B.、Kirkby,R.和Gavaldá,R.(2009年)。进化数据流的新集成方法。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD(第139-148页)。
[9] Bifet,A.、Read,J.、Zliobaite,I.、Pfahringer,B.和Holmes,G.(2013)。基准测试数据流分类中的陷阱以及如何避免它们。《欧洲机器学习与数据库知识发现原理与实践会议论文集》,ECMLPKDD(第465-479页)。
[10] Box,G.、Jenkins,G.M.和Reinsel,G.C.(1994年)。时间序列分析预测与控制(第三版)。新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔·兹比尔0858.62072
[11] Brzezinski,D.和Stefanowski,J.(2014)。应对不同类型的概念漂移:精度更新的集合算法。IEEE神经网络和学习系统汇刊,25(1),81-94。
[12] Cohen,J.(1960年)。标称标度的一致系数。教育和心理测量,20(1),37-46·doi:10.1177/001316446002000104
[13] Demsar,J.(2006)。多个数据集上分类器的统计比较。机器学习研究杂志,7,1-30·Zbl 1222.68184号
[14] Dietterich,T.G.(2002)。序列数据的机器学习:综述。《IAPR结构、句法和统计、模式识别联合国际研讨会论文集》(第15-30页)·Zbl 1073.68712号
[15] Ditzler,G.和Polikar,R.(2013)。从流不平衡数据中增量学习概念漂移。IEEE知识与数据工程汇刊,25(10),2283-2301。
[16] Domingos,P.和Hulten,G.(2000年)。挖掘高速数据流。第六届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第71-80页)。
[17] Domingos,P.和Pazzani,M.(1997年)。简单贝叶斯分类器在零损失下的最优性。机器学习,29(2-3),103-130·Zbl 0892.68076号 ·doi:10.1023/A:1007413511361
[18] Duda,R.O.、Hart,P.E.和Stork,D.G.(2001)。模式分类。纽约:Wiley·Zbl 0968.68140号
[19] Gaber,M.M.、Zaslavsky,A.和Krishnaswamy,S.(2005年)。挖掘数据流:综述。SIGMOD记录,34(2),18-26·doi:10.1145/1083784.1083789
[20] Gama,J.和Castillo,G.(2006年)。学习局部漂移检测。《第二届高级数据挖掘和应用国际会议论文集》,ADMA(第42-55页)。
[21] Gama,J.、Medas,P.、Castillo,G.和Rodrigues,P.(2004年)。学习漂移检测。第七届巴西人工智能研讨会论文集,SBIA(第286-295页)·Zbl 1105.68376号
[22] Gama,J.、Sebastiáo,R.和Rodrigues,P.(2013)。关于评估流学习算法。机器学习,90(3),317-346·Zbl 1260.68329号 ·doi:10.1007/s10994-012-5320-9
[23] Gama,J.、Zliobaite,I.、Bifet,A.、Pechenizkiy,M.和Bouchachia,A.(2014)。概念漂移适应研究综述。ACM计算调查,46(4)(出版中)·Zbl 1305.68141号
[24] Gomes,J.、Menasalvas,E.和Sousa,P.(2010年)。CALDS:从数据流中学习上下文软件。《新型数据流模式挖掘技术第一届国际研讨会论文集》,StreamKDD(第16-24页)。
[25] Grinblat,G.、Uzal,L.、Ceccatto,H.和Granitto,P.(2011年)。用耦合支持向量机解决非平稳分类问题。IEEE神经网络汇刊,22(1),37-51·doi:10.1109/TNN.2010.2083684
[26] Harries,M.(1999)。SPLICE-2比较评估:电价。新南威尔士大学技术报告。
[27] Hulten,G.、Spencer,L.和Domingos,P.(2001)。挖掘时变数据流。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD(第97-106页)。
[28] Jackowski,K.(2013)。固定大小的集成分类器系统进化地适应具有无限分类器池的循环上下文。模式分析与应用。doi:10.1007/s10044-013-0318-x。
[29] Kalman,R.(1960)。线性滤波和预测问题的新方法。基础工程杂志,82,35-45·数字对象标识代码:10.1115/1.3662552
[30] 诺思,S。;施密德,W。;Lenz,HJ(编辑);Wilrich,PT(编辑),《时间序列控制图:综述》,第7期,210-236(2004),海德堡
[31] Kolter,J.和Maloof,M.(2007年)。动态加权多数:漂流概念的集合方法。机器学习研究杂志,82755-2790·Zbl 1222.68237号
[32] Lavielle,M.(1999)。检测因变量序列中的多个变化。随机过程及其应用,83(1),79-102·兹比尔0991.62014 ·doi:10.1016/S0304-4149(99)00023-X
[33] Martinez-Rego,D.、Perez-Sanchez,B.、Fontenla-Romero,O.和Alonso-Betanzos,A.(2011年)。一种适用于非平稳环境的鲁棒增量学习方法。神经计算,74(11),1800-1808·doi:10.1016/j.neucom.2010.06.037
[34] Pavlidis,N.、Tasoulis,D.、Adams,N.和Hand,D.(2011年)。Lambda感知器:一种用于数据流的自适应分类器。模式识别,44(1),78-96·Zbl 1211.68134号 ·doi:10.1016/j.patcog.2010.07.026
[35] Rabiner,L.R.(1990)。语音识别中隐藏马尔可夫模型和选定应用的教程。A.Waibel和K.-F.Lee(编辑),语音识别阅读(第267-296页)。加利福尼亚州旧金山:Morgan Kaufmann Publishers Inc。
[36] Rodrigues,P.P.和Gama,J.(2009年)。电力负荷流分析和预测系统。智能数据分析,13(3),477-496。
[37] Ross,G.、Adams,N.、Tasoulis,D.和Hand,D.(2012年)。用于检测概念漂移的指数加权移动平均图。模式识别字母,33191-198·doi:10.1016/j.patrec.2011.08.019
[38] Schmitt,F.和Rothlauf,F.(2001)。第二大特征值对遗传算法收敛速度的重要性。在第14届可靠分布式系统研讨会的技术报告中。
[39] Tomczak,J.和Gonczarek,A.(2013年)。在糖尿病治疗环境发生变化的情况下,从数据流中提取决策规则。知识与信息系统,34(3),521-546·doi:10.1007/s10115-012-0488-7
[40] Wieringa,J.E.(1999)。串行相关数据的统计过程控制。格罗宁根大学博士论文。
[41] Zliobaite,I.(2010年)。概念漂移下的学习:概述。CoRR abs/1010.4784。
[42] Zliobaite,I.(2011)。结合时间和空间上的相似性,在概念漂移下形成训练集。智能数据分析,15(4),589-611。
[43] Zliobaite,I.(2013)。评估概念漂移适应的电力基准有多好。CoRR abs/1301.3524。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。