×

从不断演变的数据流中学习模型树。 (英语) Zbl 1235.68158号

摘要:从随时间变化的数据流中实时提取有意义的模式的问题对于机器学习和数据挖掘社区来说越来越重要。尽管存在明显的应用,但时间变化数据流中的回归是一个相对尚未探索的主题。本文提出了一种高效的增量流挖掘算法,该算法能够从可能无界、高速和时变的数据流中学习回归和模型树。该算法在涉及人工数据和实际数据的各种设置中进行了广泛评估。据我们所知,对于增量学习回归/模型树,没有其他通用算法能够执行明确的变化检测和知情的适应。该算法在线实时执行,以到达的速度只观察每个例子一次,并在任何时候维护一个随时可用的模型树。树叶包含从分配给它们的示例在线导出的线性模型,这是一个低复杂性的过程。该算法具有漂移检测和模型自适应机制,使其能够随时保持准确和更新的回归模型。漂移检测机制在局部变化检测过程中利用树的结构。作为对局部漂移的响应,该算法只能局部更新树结构。这种方法提高了任意时间的性能,并大大降低了自适应成本。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Aggarwal CC(2006)《数据流:模型和算法》。纽约州施普林格
[2] Basseville M,Nikiforov I(1993)《突变检测:理论与应用》。新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔
[3] Blake C、Keogh E、Merz C(1999)机器学习数据库的UCI存储库。http://archive.ics.uci.edu/ml . 2010年1月19日访问
[4] Breiman L(1998)电弧分类器。Ann Stat 26(3):801–824·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[5] Breiman L、Friedman JH、Olshen RA、Stone CJ(1998)分类和回归树。CRC出版社,佛罗里达州博卡拉顿
[6] Chaudhuri P,Huang M,Loh W,Yao R(1994)分段多项式回归树。统计正弦4:143–167·Zbl 0824.62032号
[7] Chen Y,Dong G,Han J,Wah BW,Wang J(2002)时间序列数据流的多维回归分析。In:在非常大的数据库上处理第28个int conf。Morgan Kaufmann,旧金山,第323–334页
[8] CUBIST(2009)RuleQuest研究。http://www.rulequest.com/cubist-info.html . 2010年1月19日访问
[9] Dasu T、Krishnan S、Lin D、Venkatasubramanian S、Yi K(2009)你可以相信的变化(检测):发现数据流中的分布变化。在:Proc IDA'09中。柏林施普林格,第21–34页
[10] 美国统计局数据博览会(2009)关于统计计算和统计图形的章节。http://stat-computing.org/dataexpo/2009 . 2010年1月19日访问
[11] Dawid AP(1984)统计理论:优先方法。J R Stat Soc A 147:278–292(英国统计学会)·Zbl 0557.62080号 ·doi:10.2307/2981683
[12] Dobra A,Gherke J(2002)SECRET:一种可扩展的线性回归树算法。In:Proc 8th ACM SIGKDD int conf on knowledge discovery and data mining。纽约ACM出版社,第481-487页
[13] Domingos P,Hulten G(2000)挖掘高速数据流。In:第六届ACM SIGKDD int conf on knowledge discovery and data mining。纽约ACM出版社,第71–80页
[14] Friedman JH(1991)多元自适应回归样条。J Ann Stat 19(1):1–67。doi:10.1214/aos/1176347963·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[15] Gama J,Castillo G(2004)《局部漂移检测的学习》。收录:《关于高级数据挖掘和应用程序的第二次内部讨论》,LNCS,第4093卷。柏林施普林格,第42–55页·Zbl 1105.68376号
[16] Gama J,Rocha R,Medas P(2003)挖掘高速数据流的精确决策树。In:Proc 9th ACM SIGKDD int conf on knowledge discovery and data mining。纽约ACM出版社,第523–528页
[17] Gama J、Medas P、Rocha R(2004)《在线数据的森林树木》。摘自:2004年美国计算机学会应用计算研讨会。纽约ACM出版社,第632-636页
[18] Gama J,Sebastiao R,Rodrigues PP(2009)流学习算法评估中的问题。In:关于知识发现和数据挖掘的第16届ACM SIGKDD会议。纽约ACM出版社,第329–338页
[19] Gammerman A,Vovk V(2002)基于算法随机性理论的预测算法和置信度。计算机科学杂志287:209–217·兹比尔1061.68126 ·doi:10.1016/S0304-3975(02)00100-7
[20] Gammerman A,Vovk V(2007)机器学习中的对冲预测。计算J 50:151–163·Zbl 05534155号 ·doi:10.1093/comjnl/bxl065
[21] Gao J,Fan W,Han J,Yu PS(2007)挖掘具有倾斜分布的概念驱动数据流的一般框架。In:宾夕法尼亚州费城SIAM第七届数据挖掘会议
[22] Geman S、Bienenstock E、Doursat R(1992)《神经网络与偏差/方差困境》。神经计算杂志4:1–58·doi:10.1162/neco.1992.4.1.1
[23] Gratch J(1996)序贯归纳学习。收录:第13届人工智能国家会议和第8届人工智能创新应用会议,第1卷。AAAI出版社,加利福尼亚州门罗公园,第779–786页
[24] Hoeffing W(1963)有界随机变量和的概率。美国统计协会J Am Stat Assoc 58:13–30·Zbl 0127.10602号 ·doi:10.1080/01621459.1963.10500830
[25] Hulten G,Spencer L,Domingos P(2001)挖掘时变数据流。In:关于知识发现和数据挖掘的第七届ACM SIGKDD会议。纽约ACM出版社,第97–106页
[26] Ikonomovska E,Gama J(2008)从数据流中学习模型树。收录于:第11期发现科学国际会议,LNAI,第5255卷。柏林施普林格,第52-63页
[27] Ikonomovska E,Gama J,Sebastiáo R,Gjorgjevik D(2009)《漂移检测数据流回归树》。收录:发现科学第11期国际会议,LNAI,第5808卷。柏林施普林格,第121-135页
[28] Jin R,Agrawal G(2003)流数据的高效决策树构建。In:Proc 9th ACM SIGKDD int conf on knowledge discovery and data mining。纽约ACM出版社,第571-576页
[29] Karalic A(1992)在回归树叶片中使用线性回归。收录:第十届欧洲人工智能会议。纽约威利,第440–441页
[30] Kifer D、Ben-David S、Gehrke J(2004)《检测数据流中的变化》。In:在非常大的数据库上处理第30个int conf。Morgan Kaufmann,旧金山,第180–191页
[31] Klinkenberg R,Joachims T(2000)用支持向量机检测概念漂移。In:(eds)In:Proc 17 int conf on machine learning。Morgan Kaufmann,旧金山,第487-494页
[32] Klinkenberg R,Renz I(1998)《自适应信息过滤:概念漂移中的学习》。在:Proc AAAI98/ICML-98 wshp关于文本分类的学习。AAAI出版社,门罗公园,第33–40页
[33] Loh W(2002)《无偏变量选择和交互检测回归树》(2002)。统计Sin 12:361–386·Zbl 0998.62042号
[34] Malerba D,Appice A,Ceci M,Monopoli M(2002)模型树中回归节点的局部与全局效应交易。In:Proc 13th int智能系统基础研讨会,LNCS,第2366卷。柏林施普林格,第393-402页·Zbl 1049.68637号
[35] Mouss H,Mouss D,Mouss-N,Sefouhi L(2004)Page–Hinkley测试,农业-农业生产系统中的故障检测方法。摘自:第五届亚洲控制会议,第2卷。IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,第815–818页
[36] Musick R、Catlett J、Russell S(1993)大型数据库归纳的决策论子抽样。In:机器学习第10个int conf。Morgan Kaufmann,旧金山,第212-219页
[37] Pang KP,Ting KM(2005)改进集中CUSUMS统计用于时间序列中的结构断裂检测。收录:第17届澳大利亚人工智能联合会议,LNCS,第3339卷。柏林施普林格,第402-413页
[38] Pfahringer B,Holmes G,Kirkby R(2008)处理Hoeffing树中的数字属性。摘自:第12届太平洋-亚洲知识发现和数据挖掘会议,LNCS,第5012卷。柏林施普林格,第296–307页
[39] Potts D,Sammut C(2005),Morgan Kaufmann,旧金山,第5-48页。doi:10.1007/s10994-005-1121-8·Zbl 1085.68645号 ·doi:10.1007/s10994-005-1121-8
[40] Quinlan JR(1992)《连续课堂学习》。In:第五届澳大利亚人工智能联合会议。新加坡世界科学出版社,第343–348页
[41] Rajaraman K,Tan(2001)使用自组织神经网络进行主题检测、跟踪和趋势分析。摘自:《太平洋-亚洲知识发现和数据挖掘会议第五届会议记录》,LNCS,第2035卷。柏林施普林格,第102–107页·Zbl 0989.68598号
[42] Rodrigues PP、Gama J、Bosnic Z(2008)数据流中单个预测的在线可靠性估计。In:Proc IEEE int conf on data mining workshops(关于数据挖掘研讨会)。IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯,第36-45页
[43] Sebastiao R,Rodrigues PP,Gama J(2009),伊比利亚半岛气候数据中的变化检测。In:Proc IEEE int conf on data mining workshops(关于数据挖掘研讨会)。IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,第248-253页
[44] Siciliano R,Mola F(1994),递归分区和变量选择建模。In:关于计算统计学的Proc int conf。海德堡Physica Verlag,第172-177页
[45] Song X,Wu M,Jermaine C,Ranka S(2007)多维数据的统计变化检测。收录:第13届ACM SIGKDD知识发现和数据挖掘会议,第667–676页
[46] Subramaniam S,Palpanas T,Papadopulous D,Kalogeraki V,Ginopulos D(2006)使用非参数方法在线检测传感器数据中的异常值。In:Proc 32nd int conf on甚大数据库,美国计算机学会,纽约,第187–198页
[47] Torgo L(1997)回归树叶子的函数模型。In:机器学习的Proc 14th int conf。Morgan Kaufmann,旧金山,第385-393页
[48] VFML(2003)用于挖掘高速时变数据流的工具包。http://www.cs.washington.edu/dm/vfml . 2010年1月19日访问
[49] Vogel DS,Asparouhov O,Scheffer T(2007),可扩展的look-ahead线性回归树。收录于:Berkhin P、Caruana R、Wu X(编辑)Proc 13th ACM SIGKDD int conf on knowledge discovery and data mining,KDD。ACMK,加利福尼亚州圣何塞,第757–764页
[50] WEKA 3(2005)Java中的数据挖掘软件。网址:http://www.cs.waikato.ac.nz/ml/weka . 2010年1月19日访问
[51] Widmer G,Kubat M(1996),Morgan Kaufmann,旧金山,第69-101页。doi:10.1007/BF00116900
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。