赫里斯托斯Tyralis;乔治亚州帕帕查拉普斯 随机森林时间序列预测中的变量选择。 (英语) Zbl 1461.62168号 算法(巴塞尔) 10,第4号,第114号论文,25页(2017年). 摘要:最近,使用机器学习算法进行时间序列预测变得越来越流行。随机森林是一种用于时间序列预测的机器学习算法;然而,它的大多数预测特性尚未被探索。在这里,我们重点评估随机森林在一步预测中的性能,使用两个短时间序列的大型数据集,目的是提出一组最佳的预测变量。此外,我们将其性能与基准测试方法进行了比较。第一个数据集由来自各种自回归分数积分移动平均(ARFIMA)模型的16000个模拟时间序列组成。第二个数据集由135个年平均温度时间序列组成。当使用少量最近的滞后预测变量时,可以观察到RF的最高预测性能。该结果在相关的未来应用中可能有用,有望实现更高的预测准确性。 引用于4文件 MSC公司: 62M20型 随机过程推断和预测 05C80号 随机图(图形理论方面) 62M10个 统计学中的时间序列、自相关、回归等(GARCH) 关键词:ARFIMA公司;ARMA公司;机器学习;一步预测;随机森林;时间序列预测;变量选择 软件:GeneSrF公司;扩展平滑;重塑;ARFIMA公司;ggplot2;R(右);插入符号;应用的预测建模;格达塔;预测;随机森林;fpp公司;预测 PDF格式BibTeX公司 XML格式引用 \textit{H.Tyralis}和\textit{G.Papacharalampous},算法(巴塞尔协议)10,第4号,第114号论文,25页(2017;Zbl 1461.62168) 全文: 内政部 参考文献: [1] Shmueli,G。;解释还是预测?;统计科学:2010; 第25卷,289-310·Zbl 1329.62045号 [2] Bontempi,G。;Taieb,S.B.公司。;Le Borgne,Y.A。;时间序列预测的机器学习策略;商业智能(商业信息处理讲义):柏林/海德堡,德国,2013年;卷138,62-77。 [3] De Gooijer,J.G。;亨德曼,R.J。;25年时间序列预测;国际期刊预测:2006; 第22卷,443-473。 [4] 费尔德斯,R。;Nikolopoulos,K。;克罗恩,S.F。;Syntetos,A.A。;预测与运筹学:综述;《运营杂志》。Res.Soc.:2008年;第59卷,1150-1172·Zbl 1153.90009 [5] 韦隆,R。;电价预测:回顾最新技术并展望未来;国际J.预测:2014; 第30卷,1030-1081。 [6] Hong,T。;风扇,S。;概率电力负荷预测:教程回顾;国际期刊预测:2016; 第32卷,914-938。 [7] Taieb,S.B.公司。;Bontempi,G。;阿提亚,A.F。;Sorjama,A。;基于NN5预测竞争的多步超前时间序列预测策略综述与比较;专家系统。申请:2012; 第39卷,7067-7083。 [8] 梅英,Y。;小东,W。;基于最小二乘支持向量机的混沌时间序列预测;下巴。物理:2004; 第13卷,454-458。 [9] Faraway,J。;查特菲尔德,C。;神经网络时间序列预测:利用航空公司数据的比较研究;J.R.Stat.Soc.C申请。统计:1998年;第47卷,231-250。 [10] Yang,理学学士。;哦,M.S。;A.C.C.Tan。;基于回归树和一步预测的机器状态预测;机械。系统。信号处理:2008; 第22卷,1179-1193。 [11] 邹,H。;Yang,Y。;组合时间序列模型进行预测;国际J.预测:2004; 第20卷,69-84。 [12] Papacharampous,G.A。;泰拉利斯,H。;Koutsoyiannis,D。;利用随机和机器学习算法预测地球物理过程;第十届EWRA水资源与环境世界大会会议记录:·Zbl 1461.62168号 [13] 佩雷斯·罗德里格斯,J.V。;托拉,S。;Andrada-Félix,J。;STAR和ANN模型:预测西班牙“Ibex-35”股票指数的表现;J.恩皮尔。财务:2005; 第12卷,490-509。 [14] Khashei,M。;比贾里,M。;用于时间序列预测的人工神经网络与ARIMA模型的新型混合;申请。软计算:2011; 第11卷,2664-2675。 [15] Yan,W。;基于神经网络的时间序列自动预测;IEEE传输。神经网络。李尔。统计:2012年;第23卷,1028-1039。 [16] 巴布,C.N。;雷迪,B.E。;基于移动平均滤波器的混合ARIMA-ANN时间序列数据预测模型;申请。软计算:2014; 第23卷,第27-38页。 [17] 林,L。;Wang,F。;谢,X。;钟,S。;基于随机森林的多状态时间序列预测极端学习机集成;专家系统。申请:2017; 第85卷,164-176。 [18] 布雷曼,L。;随机森林;机器。学习。:2001; 第45卷,第5-32页·Zbl 1007.68152号 [19] Scornet,E。;Biau,G。;Vert,J.P。;随机森林的一致性;Ann.Stat.:2015年;第43卷,1716-1741·Zbl 1317.62028号 [20] Biau,G。;Scornet,E.公司。;随机森林导览;测试:2016年;第25卷,197-227·Zbl 1402.62133号 [21] 哈斯蒂,T。;Tibshirani,R。;弗里德曼,J;《统计学习的要素:2009年美国纽约州纽约市》·Zbl 1273.62005年 [22] Verikas,A。;Gelzinis,A。;Bacauskiene,M。;随机森林数据挖掘:调查和新测试结果;图案识别:2011; 第44卷,330-349。 [23] Herrera,M。;托戈,L。;伊兹基尔多,J。;佩雷兹·加西亚,R。;城市小时需水量预测模型;J.水文:2010; 第387卷,第141-150页。 [24] 杜德克,G。;基于随机森林的短期负荷预测;2014年第七届IEEE国际会议智能系统会议记录(智能系统和计算进展):瑞士查姆,2015;第323卷,第821-828页。 [25] 陈,J。;李,M。;Wang,W。;基于随机森林的统计不确定性估计及其在干旱预测中的应用;数学。问题。工程:2012年;第2012卷,915053·Zbl 1264.86013号 [26] 奈因,W.Y.N。;蒂克,Z.Z。;利用随机森林预测月气温变化;APRN J.工程应用。科学:2015; 第10卷,10109-10112。 [27] 阮,T.T。;胡,Q.N。;李,M.J。;基于机器学习模型的湄公河水位时间序列预测;2015年第七届知识与系统工程国际会议论文集:。 [28] 库马尔,M。;Thenmozhi,M。;股指走势预测:支持向量机与随机森林的比较;印度资本市场研究所第九届资本市场会议论文:印度瓦希,2006年。 [29] 库马尔,M。;Thenmozhi,M。;使用ARIMA-SVM、ARIMA-ANN和ARIMA-随机森林混合模型预测股票指数收益;国际J银行。会计财务:2014; 第5卷,284-308。 [30] 凯恩,M.J。;价格,N。;苏格兰,M。;Rabinowitz,P。;ARIMA和Random Forest时间序列模型预测禽流感H5N1疫情的比较;BMC生物信息:2014; . [31] Genuer,R。;Poggi,J.M。;Tuleau-Malot,C。;利用随机森林进行变量选择;模式识别。通讯:2010; 第31卷,2225-2236。 [32] 大雄,T.M。;佩雷斯,P.S。;Baranauskas,J.A。;随机森林中有多少棵树?;模式识别中的机器学习和数据挖掘(计算机科学课堂讲稿):德国柏林/海德堡,2012年,154-168. [33] Probst,P。;布列斯特克,A.L。;调整或不调整随机森林中的树木数量?;arXiv:2017·Zbl 1468.68164号 [34] 库恩,M。;约翰逊,K;应用预测建模:美国纽约州纽约市,2013年·Zbl 1306.62014年 [35] Díaz-Uriarte,R。;De Andres,S.A.公司。;基于随机森林的微阵列数据的基因选择和分类;BMC生物信息:2006; 第7卷。 [36] 马克里达基斯,S。;希邦,M。;置信区间:M-竞争序列的实证研究;国际J.预测:1987; 第3卷,489-508。 [37] 马克里达基斯,S。;希邦,M。;M3-竞争:结果、结论和启示;国际期刊预测:2000年;第16卷,451-476。 [38] 普里兹奇,美国。;时间序列预测的经典算法和机器学习算法的基准测试(特别强调装袋和提升方法);硕士论文:德国慕尼黑,2015。 [39] 巴格纳尔,A。;考利,G.C。;关于在分类算法的实证评估中使用默认参数设置;arXiv:2017。 [40] Salles,R。;阿西斯,L。;Guedes,G。;Bezerra,E。;波尔图,F。;小笠原,E。;使用线性模型进行单变量时间序列预测的基准机器学习方法框架;2017年国际神经网络联合会议(IJCNN)会议记录:,2338-2345. [41] Bontempi,G。;时间序列预测的机器学习策略;2013; . [42] 麦克谢恩,B.B。;具有时间序列相关性的机器学习方法;博士论文:美国宾夕法尼亚州费城,2010年。 [43] 巴格纳尔,A。;博斯特罗姆,A。;大型,J。;Lines,J。;时间序列分类模拟数据实验第1部分:与默认设置的精度比较;arXiv:2017。 [44] 盒子,G.E.P。;詹金斯(G.M.Jenkins)。;预测和控制的一些最新进展;J.R.Stat.Soc.C应用。统计:1968年;第17卷,91-109。 [45] Wei,W.W.S;时间序列分析,单变量和多变量方法:美国马萨诸塞州波士顿,2006年·Zbl 1170.62362号 [46] 蒂森,美国。;Van Brakel,R。;De Weijer,美联社。;W.J.梅尔塞纳。;Buydens,L.M.C。;使用支持向量机进行时间序列预测;化学。智力。实验室:2003年;第69卷,35-49。 [47] 张,G.P。;线性时间序列预测的神经网络研究;计算。操作。决议:2001年;第28卷,1183-1202·Zbl 0980.91065号 [48] Lawrimore,J.H。;M.J.Menne。;格里森,B.E。;威廉姆斯,C.N。;Wuertz,D.B。;沃斯,R.S。;Rennie,J。;全球历史气候网络月平均温度数据集概述,第3版;《地球物理学杂志》。研究结果:2011年;第116卷。 [49] 阿西马科普洛斯,V。;Nikolopoulos,K。;theta模型:一种分解预测方法;国际期刊预测:2000年;第16卷,521-530。 [50] 库恩,M。;使用插入符号包在R中建立预测模型;J.Stat.软件:2008; 第28卷。 [51] 库恩,M。;Wing,J。;威斯顿,南卡罗来纳州。;威廉姆斯。;基弗,C。;Engelhardt,A。;库珀,T。;Mayer,Z。;Kenkel,B;插入符号:分类和回归培训:2017年。 [52] ; R: 统计计算语言与环境:奥地利维也纳,2017年。 [53] Hemelrijk,J。;随机变量下划线;Neerl.统计:1966; 第20卷,1-7。 [54] 弗雷利,C。;Leisch,F。;Maechler,M。;雷森,V。;Lemonte,A;Fracdiff:分数差分ARIMA aka ARFIMA(p,d,q)模型:2012。 [55] 亨德曼,R.J。;O'Hara-Wild,M。;Bergmeir,C。;Razbash,S。;王,E;预测:时间序列和线性模型的预测函数:2017年。 [56] 亨德曼,R.J。;肯达卡尔,Y。;自动时间序列预测:R的预测包;J.Stat.软件:2008; 第27卷。 [57] 亨德曼,R.J。;Athanasopoulos,G;预测:原则与实践:澳大利亚墨尔本,2013年。 [58] 亨德曼,R.J。;Billah,B。;揭开Theta方法的面纱;国际期刊预测:2003; 第19卷,287-290。 [59] 海因曼,R.J。;科勒,A.B。;Ord,J.K。;斯奈德,R.D;指数平滑预测:状态空间方法:德国柏林/海德堡,2008年·Zbl 1211.62165号 [60] Liaw,A。;维纳,M。;基于randomForest的分类与回归;R新闻:2002;第2卷,18-22。 [61] 科尔特斯,P。;使用R/rminer工具的神经网络和支持向量机数据挖掘;数据挖掘的进展。应用和理论方面(人工智能课堂讲稿):柏林/海德堡,德国,2010年;第6171卷,第572-583页。 [62] 科尔特斯,P;Rminer:数据挖掘分类和回归方法:2016年。 [63] 亨德曼,R.J。;科勒,A.B。;再看一下预测准确性的衡量标准;国际期刊预测:2006; 第22卷,679-688。 [64] 亚历山大·D.L.J。;Tropsha,A。;Winkler,D.A。;小心R2:对QSAR和QSPR模型的预测准确性进行简单、明确的评估;化学杂志。Inf.型号:2015; 第55卷,1316-1322。 [65] 格拉马提亚,P。;Sangion,A。;QSAR模型统计验证参数的历史考察:关于度量和术语的澄清;化学杂志。Inf.型号:2016; 第56卷,1127-1131。 [66] Warnes,G.R。;Bolker,B。;Gorjanc,G.等人。;格罗森迪克,G。;Korosec,A。;Lumley,T。;MacQueen,D。;马格努森。;罗杰斯,J;Gdata:用于数据操作的各种R编程工具:2017。 [67] Wickham,H;Ggplot2:用于数据分析的优雅图形:瑞士查姆,2016年·Zbl 1397.62006年 [68] Wickham,H。;海丝特,J。;弗朗索瓦,R。;Jylänki,J。;约尔根森,M;读者:阅读矩形文本数据:2017。 [69] Wickham,H。;使用整形包对数据进行整形;J.Stat.软件:2007; 第21卷。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。