×

如何在流数据挖掘中调整集合大小? (英语) Zbl 1429.68237号

小结:本文提出了一种用于流数据分类的集成设计新方法。我们的方法得到了两个定理的支持,这两个定理显示了如何根据这样的假设来决定是否应该向集合中添加新的组件,即这样的操作不仅可以提高当前部分观测值的集合精度,还可以提高整个(无限)数据流的集合精度。这些定理的结论在用户设定的一定概率(置信度)下成立。通过计算机模拟,除其他外,我们表明,降低基于流的有限部分的决策与基于整个(无限)数据流的决策相同的置信度,只会略微提高准确性,但会消耗大量内存。此外,我们将介绍一种新的加权集成组件(即决策树)的过程,方法是为树的每个叶子分配一个权重。在以前的方法中,权重被分配给整个集成组件。新的方法基于这样一种观察,即正确树结果的概率在不同的树段中是不同的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68周27 在线算法;流式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.,《数据流:模型和算法》(2007年),Springer,LLC:Spring,LLC纽约·Zbl 1126.68033号
[2] 阿加瓦尔,C。;Han,J。;王,J。;Yu,P.S.,数据流的按需分类,Proc。2004年知识发现和数据挖掘国际会议(KDD04),西雅图,华盛顿州(2004)
[3] 球,G.T。;巴登,S.B。;Colella,P.,SCALLOP:三维高度可扩展的并行泊松解算器,《2003年ACM/IEEE超级计算会议论文集》,SC'03,ACM,第23卷(2003)
[4] Berkhin,P.,聚类数据挖掘技术调查,(Kogan,J.C.N.,分组多维数据(2006),施普林格-柏林-海德堡),25-71
[5] Bifet,A。;霍姆斯,G。;柯克比,R。;Pfahringer,B.,MOA:大规模在线分析,J.Mach。学习。第11601-1604号决议(2010年)
[6] Bifet,A。;Kirkby,R.,《数据流挖掘实用方法》,开源创新中心(2009)
[7] 布热津斯基,D。;Stefanowski,J.,《对不同类型的概念漂移的反应:精度更新的集成算法》,IEEE Trans。神经网络。学习。系统。,25, 1, 81-94 (2014)
[8] 布热津斯基,D。;Stefanowski,J.,《将基于块的方法与在线方法相结合,从概念漂移数据流中学习集成》,《信息科学》。,265, 50-67 (2014) ·Zbl 1328.68158号
[9] Chandanan,A.K。;Shukla,M.K.,从多级数据集中删除重复的关联规则挖掘规则,Procedia Compute。科学。内部确认高级计算。Technol公司。申请。(ICACTA),45,0,143-149(2015)
[10] V·钱多拉。;Kumar,V.,《总结——将数据压缩为信息表示》,Knowl。信息系统。,12, 3, 355-378 (2007)
[11] V·钱多拉。;Banerjee,A。;库马尔,V.,《异常检测:一项调查》,美国计算机学会。调查。,41, 3, 15:1-15:58 (2009)
[12] Ditzler,G。;Roveri,M。;Alippi,C。;Polikar,R.,《非平稳环境中的学习:调查》,《计算机》。智力。IEEE杂志,10,4,12-25(2015)
[13] 多明戈斯,P。;Hulten,G.,《挖掘高速数据流》,Proc。第六届ACM SIGKDD国际。知识发现和数据挖掘会议,71-80(2000)
[14] 风扇,W。;Chu,F。;Wang,H。;Yu,P.S.,成本敏感组合的修剪和动态调度,第十八届全国人工智能会议,美国加利福尼亚州门洛帕克,美国人工智能协会,146-151(2002)
[15] Gama,J.,《从数据流中学习的调查:当前和未来趋势》,Prog。工件。整数。,1, 1, 45-55 (2012)
[16] Gaber,M.M。;Krishnaswamy,S。;Zaslavsky,A.,《传感器网络中数据流的车载挖掘》(Badhyopadhyay,S.;Maulik,U.;Holder,L.;Cook,D.,即将出版的新书《从复杂数据中发现知识的高级方法》(2005),Springer Verlag)中的一章·Zbl 1087.68557号
[17] 哈文斯,T.C。;Bezdek,J.C。;Leckie,C。;洛杉矶霍尔。;Palaniswami,M.,超大数据的模糊c-均值算法,模糊系统。,20, 6, 1130-1146 (2012)
[18] Hernndez-Lobato,D。;Martnez-Muoz,G。;Surez,A.,分类器集合应该有多大?,模式识别。,46, 5, 1323-1336 (2013) ·Zbl 1264.68128号
[19] Hulten,G.公司。;斯宾塞,L。;Domingos,P.,挖掘时变数据流,Proc。第七届ACM SIGKDD国际。知识发现和数据挖掘会议,97-106(2001)
[20] Jackowski,K.,《固定尺寸集成分类器系统进化适应具有无限分类器池的循环上下文》,Pattern Anal。申请。,17, 4, 709-724 (2014)
[21] Kesavaraj,G。;Sukumaran,S.,《数据挖掘、计算、通信和网络技术中的分类技术研究》,2013年第四届国际会议,1-7(2013)
[22] Kale,A。;Ingle,M.D.,基于SVM的特征提取,用于从流数据中检测新类,国际计算杂志。申请。,110, 9, 1-3 (2015)
[23] Kuncheva,L.I。;Faithfull,W.J.,多维未标记数据变化检测的PCA特征提取,IEEE Trans。神经网络。学习系统。,25, 1, 69-80 (2014)
[24] 法律,Y.-N。;Zaniolo,C.,数据流的自适应最近邻分类算法,第九届欧洲数据库知识发现原理与实践会议论文集,PKDD'05,108-120(2005),Springer-Verlag:Springer-Verlag Berlin,Heidelberg
[25] 最后,M,非平稳数据流的在线分类,Intell。数据分析。,6, 2, 129-147 (2002) ·Zbl 1088.68728号
[26] 李,P。;吴,X。;胡,X。;Wang,H.,使用随机集成决策树学习概念驱动数据流,神经计算,166,68-83(2015)
[27] 李,X。;Yu,W.,通过在线支持向量机进行结构健康监测的数据流分类,大数据计算服务和应用(BigDataService),2015年IEEE第一届国际会议,400-405(2015)
[28] Lichman,M.,加州大学欧文分校信息与计算机科学学院UCI机器学习库(2013)
[29] Mariammal,D。;Jayanthi,S。;Patra,P.,《数据挖掘中的分类方法:详细调查》,IJRCCT,3,4(2014)
[30] Minku,L.L。;Yao,X.,DDD:处理概念漂移的新集成方法,IEEE Trans。知识。数据工程,24,4,619-633(2012)
[33] Rathi,M.,《用于预测客户关系管理的数据挖掘回归建模技术》,(Das,V.;Vijaykumar,R.,《信息与通信技术》,《计算机与信息科学通信》(2010)第101卷,斯普林格-柏林-海德堡),195-200年
[34] 任,Y。;张,L。;Suganthan,P.N.,《集成分类和回归——最新发展、应用和未来方向》[评论文章],载于IEEE计算智能杂志,第11卷,41-53(2016)
[35] 罗德里格斯,J.J。;Kuncheva,L.I。;Alonso,C.J.,《旋转森林:一种新的分类器集成方法》,IEEE Trans。模式分析。机器。整数。,28, 10, 1619-1630 (2006)
[36] Rutkowski,L。;贾沃斯基,M。;Pietruczuk,L。;Duda,P.,基于误分类错误的数据流挖掘新方法,IEEE Trans。神经网络。学习。系统。,26, 5, 1048-1059 (2015)
[37] Rutkowski,L。;Jaworski,M。;Pietruczuk,L。;Duda,P.,基于高斯近似挖掘数据流的决策树,IEEE Trans。知识。数据工程,26,1,108-119(2014)
[38] Rutkowski,L。;Jaworski,M。;Pietruczuk,L。;Duda,P.,挖掘数据流的CART决策树,Inf.Sci。,266, 1-15 (2014) ·Zbl 1339.68229号
[39] Rutkowski,L。;Pietruczuk,L。;杜达,P。;Jaworski,M.,《基于mcdiarmids边界的数据流挖掘决策树》,IEEE Trans。知识。数据工程,25,6,1272-1279(2013)
[40] Sawant,N.V。;沙阿·K。;Bhardi,V.A.,《数据挖掘分类技术概览》,第38届国际会议论文集;技术新兴趋势研讨会,ICWET 11(2011),ACM:美国纽约州纽约市ACM
[41] 西北部街道。;Kim,Y.S.,用于大规模分类的流集合算法(SEA),《第七届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,KDD 01,纽约,纽约,美国,377-382(2001)
[42] van der Vaart,A.W.,《渐进统计》(1998),剑桥大学出版社:剑桥大学出版社,纽约·Zbl 0910.62001号
[43] Wankhade,K。;Dongre,S.,《数据流挖掘:分类和应用》(2010),LAP出版社:德国LAP出版社
[44] 黄,J。;刘杰。;Yao,X.,软件模块聚类问题的多智能体进化算法,软计算(2016)
[45] 尹,X.-C。;黄,K。;Hao,H.-W.,DE2:用于学习非平稳数据的集成动态集成,神经计算,165,14-22(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。