×

关于评估流学习算法。 (英语) Zbl 1260.68329号

摘要:大多数流决策模型会随着时间的推移不断发展,在资源软件环境中运行,并检测生成数据的环境中的变化并对其作出反应。一个尚未令人信服地解决的重要问题是,设计实验工作来评估和比较随时间演变的决策模型。本文提出了一个评估预测流学习算法的通用框架。我们为使用具有遗忘机制的前向误差来提供可靠的误差估计值进行辩护。我们证明,对于平稳数据和一致学习算法,在滑动窗口上或使用衰落因子估计的保持估计量、前向误差和前向误差都收敛于Bayes误差。将前序错误与遗忘机制结合使用,有助于评估性能和比较流学习算法。同样值得将所提出的方法用于假设检验和变化检测。在漂移场景的一组实验中,我们评估了标准变化检测算法使用三个前向误差估计器检测变化的能力。这些实验指出,为了快速有效地检测变化,需要使用遗忘机制(滑动窗口或衰减因子)。与滑动窗口相比,衰落因子更快且无记忆,这是流媒体应用程序的重要要求。总的来说,当学习是一个连续的过程,决策模型是动态的并随着时间的推移而演变时,本文对讨论绩效评估的最佳实践做出了贡献。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Asuncion,A.和Newman,D.(2007年)。UCI机器学习库。网址:http://www.ics.uci.edu/mlearn/MLRepository.html。
[2] Babcock,B。;数据员,M。;Motwani,R。;O'Callaghan,L。;Milo,T.(编辑),在数据流窗口上维护方差和k中位数,美国圣地亚哥,纽约
[3] 巴赫,S.H。;Maloof,M.A.,概念漂移配对学习者,23-32(2008),洛斯阿拉米托斯
[4] Basseville,M.和Nikiforov,I.(1993年)。突变检测:理论和应用。纽约:普伦蒂斯·霍尔·Zbl 1407.62012年
[5] Bifet,A。;Gavaldá,R.,通过自适应窗口从时变数据中学习,美国明尼阿波利斯,费城
[6] Bifet,A.、Holmes,G.、Kirkby,R.和Pfahringer,B.(2010a)。MOA:大规模在线分析。机器学习研究杂志,11601-1604。
[7] Bifet,A。;霍姆斯,G。;普法林格,B。;Frank,E.,从不断演变的数据流中学习快速感知器决策树,第14届太平洋亚洲会议·数字对象标识代码:10.1007/978-3-642-13672-6_30
[8] 毕晓普,C.(1995年)。用于模式识别的神经网络。伦敦:牛津大学出版社。
[9] Chi,Y.、Wang,H.、Yu,P.S.和Muntz,R.R.(2006)。抓住时机:在数据流滑动窗口上维护关闭的频繁项集。知识与信息系统,10(3),265-294·doi:10.1007/s10115-006-0003-0
[10] 科尔莫德,G。;Muthukrishnan,S。;庄,W.,《征服鸿沟:分布式数据流的连续集群》,土耳其伊斯坦布尔
[11] Datar,M.、Gionis,A.、Indyk,P.和Motwani,R.(2002年)。在滑动窗口上维护流统计信息。SIAM计算机杂志,31(6),1794-1813·兹比尔1008.68039 ·网址:10.1137/S0097539701398363
[12] Dawid,A.P.(1984)。统计理论:优先方法。英国皇家统计学会杂志。系列A,147278-292·Zbl 0557.62080号 ·doi:10.2307/2981683
[13] Demsar,J.(2006)。多个数据集上分类器的统计比较。机器学习研究杂志,7,1-30·Zbl 1222.68184号
[14] Dietterich,T.(1996)。用于比较监督分类学习算法的近似统计测试。Corvallis,俄勒冈州州立大学第97.331号技术报告。
[15] 多明戈斯,P。;Hulten,G。;Parsa,I.(编辑);罗摩克里希南,R.(编辑);Stolfo,S.(编辑),《采矿高速数据流》,美国波士顿,纽约·数字对象标识代码:10.1145/347090.347107
[16] Duda,R.和Hart,P.(1973)。模式分类和场景分析。纽约:威利·Zbl 0277.68056号
[17] 费雷尔·特罗亚诺,F。;阿吉拉尔·鲁伊斯,J.S。;Riquelme,J.C.,《从数字数据流中发现决策规则》,尼科西亚,塞浦路斯,纽约
[18] 贾马,J。;Kosina,P.,从数据流中学习决策规则,1255-1260(2011)
[19] 贾马,J。;梅达斯,P。;卡斯蒂略,G。;罗德里格斯,P。;Bazzan,A.L.C.(编辑);Labidi,S.(编辑),《漂移检测学习》,圣路易斯,巴西,柏林·Zbl 1105.68376号 ·doi:10.1007/978-3-540-28645-5_29
[20] 贾马,J。;罗查,R。;Medas,P.,《挖掘高速数据流的准确决策树》,美国华盛顿特区,纽约
[21] 贾马,J。;塞巴斯蒂昂,R。;Rodrigues,P.P.,流学习算法评估中的问题,巴黎,法国,纽约·数字对象标识代码:10.1145/1557019.1557060
[22] Ghosh,B.和Sen,P.(1991年)。序列分析手册。纽约:Dekker·Zbl 0753.62046号
[23] Giannella,C。;Han,J。;裴,J。;严,X。;余,P。;Kargupta,H.(编辑);Joshi,A.(编辑);Sivakumar,K.(编辑);Yesha,Y.(编辑),《在多时间粒度上挖掘数据流中的频繁模式》(2003年),Menlo Park/Cambridge
[24] 哈特尔,C。;Baskiotis,N。;盖利,S。;Sebag,M.,动态环境中在线学习的变化点检测和元数据库,Cepadues
[25] Herbster,M.和Warmuth,M.(1998年)。追踪最佳专家。机器学习,32(2),151-178·Zbl 0912.68165号 ·doi:10.1023/A:1007424614876
[26] 霍夫丁(1963)。有界随机变量和的概率不等式。《美国统计协会杂志》,58(301),13-30·Zbl 0127.10602号 ·doi:10.1080/01621459.1963.10500830
[27] Hulten,G。;Domingos,P.,《追赶数据:挖掘数据流中的研究问题》,美国圣巴巴拉
[28] Hulten,G.和Domingos,P.(2003)。VFML—用于挖掘高速时变数据流的工具包。华盛顿大学技术报告。http://www.cs.washington.edu/dm/vfml/
[29] Hulten,G。;斯宾塞,L。;Domingos,P.,《挖掘时变数据流》,旧金山,加利福尼亚州,纽约
[30] Japkowicz,N.和Shah,M.(编辑)(2011年)。评估学习算法:分类视角。剑桥:剑桥大学出版社·Zbl 1230.68020号
[31] Katakis,I.、Tsoumakas,G.和Vlahavas,I..(2010年)。使用集合分类器跟踪重复出现的上下文:电子邮件过滤应用。知识与信息系统,22371-391·doi:10.1007/s10115-009-0206-2
[32] Kearns,M.和Vazirani,U.(1994年)。计算学习理论导论。剑桥:麻省理工学院出版社。
[33] Kifer,D。;Ben-David,S。;Gehrke,J.,《检测数据流中的变化》,加拿大多伦多,圣马特奥
[34] Kirkby,R.(2008)。改进Hoeffing树。新西兰怀卡托大学博士论文。
[35] Klinkenberg,R.(2004)。学习漂移概念:示例选择与示例权重。智能数据分析,8(3),281-300。
[36] Kolter,J.Z.和Maloof,M.A.(2007年)。动态加权多数:漂流概念的集合方法。机器学习研究杂志,82755-2790·Zbl 1222.68237号
[37] Koychev,I.,适应概念漂移的逐渐遗忘,德国柏林,莱比锡
[38] Kuh,A。;Petsche,T。;Rivest,R.,学习时变概念,183-189(1990),圣马特奥
[39] Li,P.,Wu,X.和Hu,X.(2010)。挖掘重复出现的概念会随着有限的标记流数据而漂移。机器学习研究进展跟踪杂志,13,241-252。
[40] Liang,C.,Zhang,Y.,&Song,Q.(2010)。用于动态和不确定数据流的决策树。机器学习研究进展跟踪杂志,13209-224。
[41] 米尔斯瓦,I。;Wurst,M。;Klinkenberg,R。;Scholz,M。;Euler,T.,耶鲁:复杂数据挖掘任务的快速原型制作,935-940(2006),纽约·数字对象标识代码:10.1145/1150402.1150531
[42] Mitchell,T.(1997)。机器学习。纽约:McGraw-Hill·Zbl 0913.68167号
[43] 穆斯,H。;Mouss,D。;穆斯,N。;Sefouhi,L.,Page Hinkley的测试,一种农业食品生产系统中的故障检测方法,第2期,815-818(2004)
[44] 佩奇·E.S.(1954)。连续检查计划。生物特征,41(1/2),100-115·Zbl 0056.38002号 ·doi:10.2307/2333009
[45] Rodrigues,P.P.、Gama,J.和Pedroso,J.P.(2008)。时间序列数据流的分层聚类。IEEE知识与数据工程汇刊,20(5),615-627·doi:10.1109/TKDE.2007.190727
[46] 西北部街道。;Kim,Y.,一种用于大规模分类的流集成算法SEA,旧金山,加利福尼亚州,纽约
[47] Widmer,G.和Kubat,M.(1996年)。在存在概念漂移和隐藏背景的情况下学习。机器学习,23,69-101。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。