×

随机森林时间序列预测中的变量选择。 (英语) Zbl 1461.62168号

摘要:最近,使用机器学习算法进行时间序列预测变得越来越流行。随机森林是一种用于时间序列预测的机器学习算法;然而,它的大多数预测特性尚未被探索。在这里,我们重点评估随机森林在一步预测中的性能,使用两个短时间序列的大型数据集,目的是提出一组最佳的预测变量。此外,我们将其性能与基准测试方法进行了比较。第一个数据集由来自各种自回归分数积分移动平均(ARFIMA)模型的16000个模拟时间序列组成。第二个数据集由135个年平均温度时间序列组成。当使用少量最近的滞后预测变量时,可以观察到RF的最高预测性能。该结果在相关的未来应用中可能有用,有望实现更高的预测准确性。

MSC公司:

62M20型 随机过程推断和预测
05C80号 随机图(图形理论方面)
62M10个 统计学中的时间序列、自相关、回归等(GARCH)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Shmueli,G。;解释还是预测?;统计科学:2010; 第25卷,289-310·Zbl 1329.62045号
[2] Bontempi,G。;Taieb,S.B.公司。;Le Borgne,Y.A。;时间序列预测的机器学习策略;商业智能(商业信息处理讲义):柏林/海德堡,德国,2013年;卷138,62-77。
[3] De Gooijer,J.G。;亨德曼,R.J。;25年时间序列预测;国际期刊预测:2006; 第22卷,443-473。
[4] 费尔德斯,R。;Nikolopoulos,K。;克罗恩,S.F。;Syntetos,A.A。;预测与运筹学:综述;《运营杂志》。Res.Soc.:2008年;第59卷,1150-1172·Zbl 1153.90009
[5] 韦隆,R。;电价预测:回顾最新技术并展望未来;国际J.预测:2014; 第30卷,1030-1081。
[6] Hong,T。;风扇,S。;概率电力负荷预测:教程回顾;国际期刊预测:2016; 第32卷,914-938。
[7] Taieb,S.B.公司。;Bontempi,G。;阿提亚,A.F。;Sorjama,A。;基于NN5预测竞争的多步超前时间序列预测策略综述与比较;专家系统。申请:2012; 第39卷,7067-7083。
[8] 梅英,Y。;小东,W。;基于最小二乘支持向量机的混沌时间序列预测;下巴。物理:2004; 第13卷,454-458。
[9] Faraway,J。;查特菲尔德,C。;神经网络时间序列预测:利用航空公司数据的比较研究;J.R.Stat.Soc.C申请。统计:1998年;第47卷,231-250。
[10] Yang,理学学士。;哦,M.S。;A.C.C.Tan。;基于回归树和一步预测的机器状态预测;机械。系统。信号处理:2008; 第22卷,1179-1193。
[11] 邹,H。;Yang,Y。;组合时间序列模型进行预测;国际J.预测:2004; 第20卷,69-84。
[12] Papacharampous,G.A。;泰拉利斯,H。;Koutsoyiannis,D。;利用随机和机器学习算法预测地球物理过程;第十届EWRA水资源与环境世界大会会议记录:·Zbl 1461.62168号
[13] 佩雷斯·罗德里格斯,J.V。;托拉,S。;Andrada-Félix,J。;STAR和ANN模型:预测西班牙“Ibex-35”股票指数的表现;J.恩皮尔。财务:2005; 第12卷,490-509。
[14] Khashei,M。;比贾里,M。;用于时间序列预测的人工神经网络与ARIMA模型的新型混合;申请。软计算:2011; 第11卷,2664-2675。
[15] Yan,W。;基于神经网络的时间序列自动预测;IEEE传输。神经网络。李尔。统计:2012年;第23卷,1028-1039。
[16] 巴布,C.N。;雷迪,B.E。;基于移动平均滤波器的混合ARIMA-ANN时间序列数据预测模型;申请。软计算:2014; 第23卷,第27-38页。
[17] 林,L。;Wang,F。;谢,X。;钟,S。;基于随机森林的多状态时间序列预测极端学习机集成;专家系统。申请:2017; 第85卷,164-176。
[18] 布雷曼,L。;随机森林;机器。学习。:2001; 第45卷,第5-32页·Zbl 1007.68152号
[19] Scornet,E。;Biau,G。;Vert,J.P。;随机森林的一致性;Ann.Stat.:2015年;第43卷,1716-1741·Zbl 1317.62028号
[20] Biau,G。;Scornet,E.公司。;随机森林导览;测试:2016年;第25卷,197-227·Zbl 1402.62133号
[21] 哈斯蒂,T。;Tibshirani,R。;弗里德曼,J;《统计学习的要素:2009年美国纽约州纽约市》·Zbl 1273.62005年
[22] Verikas,A。;Gelzinis,A。;Bacauskiene,M。;随机森林数据挖掘:调查和新测试结果;图案识别:2011; 第44卷,330-349。
[23] Herrera,M。;托戈,L。;伊兹基尔多,J。;佩雷兹·加西亚,R。;城市小时需水量预测模型;J.水文:2010; 第387卷,第141-150页。
[24] 杜德克,G。;基于随机森林的短期负荷预测;2014年第七届IEEE国际会议智能系统会议记录(智能系统和计算进展):瑞士查姆,2015;第323卷,第821-828页。
[25] 陈,J。;李,M。;Wang,W。;基于随机森林的统计不确定性估计及其在干旱预测中的应用;数学。问题。工程:2012年;第2012卷,915053·Zbl 1264.86013号
[26] 奈因,W.Y.N。;蒂克,Z.Z。;利用随机森林预测月气温变化;APRN J.工程应用。科学:2015; 第10卷,10109-10112。
[27] 阮,T.T。;胡,Q.N。;李,M.J。;基于机器学习模型的湄公河水位时间序列预测;2015年第七届知识与系统工程国际会议论文集:。
[28] 库马尔,M。;Thenmozhi,M。;股指走势预测:支持向量机与随机森林的比较;印度资本市场研究所第九届资本市场会议论文:印度瓦希,2006年。
[29] 库马尔,M。;Thenmozhi,M。;使用ARIMA-SVM、ARIMA-ANN和ARIMA-随机森林混合模型预测股票指数收益;国际J银行。会计财务:2014; 第5卷,284-308。
[30] 凯恩,M.J。;价格,N。;苏格兰,M。;Rabinowitz,P。;ARIMA和Random Forest时间序列模型预测禽流感H5N1疫情的比较;BMC生物信息:2014; .
[31] Genuer,R。;Poggi,J.M。;Tuleau-Malot,C。;利用随机森林进行变量选择;模式识别。通讯:2010; 第31卷,2225-2236。
[32] 大雄,T.M。;佩雷斯,P.S。;Baranauskas,J.A。;随机森林中有多少棵树?;模式识别中的机器学习和数据挖掘(计算机科学课堂讲稿):德国柏林/海德堡,2012年,154-168.
[33] Probst,P。;布列斯特克,A.L。;调整或不调整随机森林中的树木数量?;arXiv:2017·Zbl 1468.68164号
[34] 库恩,M。;约翰逊,K;应用预测建模:美国纽约州纽约市,2013年·Zbl 1306.62014年
[35] Díaz-Uriarte,R。;De Andres,S.A.公司。;基于随机森林的微阵列数据的基因选择和分类;BMC生物信息:2006; 第7卷。
[36] 马克里达基斯,S。;希邦,M。;置信区间:M-竞争序列的实证研究;国际J.预测:1987; 第3卷,489-508。
[37] 马克里达基斯,S。;希邦,M。;M3-竞争:结果、结论和启示;国际期刊预测:2000年;第16卷,451-476。
[38] 普里兹奇,美国。;时间序列预测的经典算法和机器学习算法的基准测试(特别强调装袋和提升方法);硕士论文:德国慕尼黑,2015。
[39] 巴格纳尔,A。;考利,G.C。;关于在分类算法的实证评估中使用默认参数设置;arXiv:2017。
[40] Salles,R。;阿西斯,L。;Guedes,G。;Bezerra,E。;波尔图,F。;小笠原,E。;使用线性模型进行单变量时间序列预测的基准机器学习方法框架;2017年国际神经网络联合会议(IJCNN)会议记录:,2338-2345.
[41] Bontempi,G。;时间序列预测的机器学习策略;2013; .
[42] 麦克谢恩,B.B。;具有时间序列相关性的机器学习方法;博士论文:美国宾夕法尼亚州费城,2010年。
[43] 巴格纳尔,A。;博斯特罗姆,A。;大型,J。;Lines,J。;时间序列分类模拟数据实验第1部分:与默认设置的精度比较;arXiv:2017。
[44] 盒子,G.E.P。;詹金斯(G.M.Jenkins)。;预测和控制的一些最新进展;J.R.Stat.Soc.C应用。统计:1968年;第17卷,91-109。
[45] Wei,W.W.S;时间序列分析,单变量和多变量方法:美国马萨诸塞州波士顿,2006年·Zbl 1170.62362号
[46] 蒂森,美国。;Van Brakel,R。;De Weijer,美联社。;W.J.梅尔塞纳。;Buydens,L.M.C。;使用支持向量机进行时间序列预测;化学。智力。实验室:2003年;第69卷,35-49。
[47] 张,G.P。;线性时间序列预测的神经网络研究;计算。操作。决议:2001年;第28卷,1183-1202·Zbl 0980.91065号
[48] Lawrimore,J.H。;M.J.Menne。;格里森,B.E。;威廉姆斯,C.N。;Wuertz,D.B。;沃斯,R.S。;Rennie,J。;全球历史气候网络月平均温度数据集概述,第3版;《地球物理学杂志》。研究结果:2011年;第116卷。
[49] 阿西马科普洛斯,V。;Nikolopoulos,K。;theta模型:一种分解预测方法;国际期刊预测:2000年;第16卷,521-530。
[50] 库恩,M。;使用插入符号包在R中建立预测模型;J.Stat.软件:2008; 第28卷。
[51] 库恩,M。;Wing,J。;威斯顿,南卡罗来纳州。;威廉姆斯。;基弗,C。;Engelhardt,A。;库珀,T。;Mayer,Z。;Kenkel,B;插入符号:分类和回归培训:2017年。
[52] ; R: 统计计算语言与环境:奥地利维也纳,2017年。
[53] Hemelrijk,J。;随机变量下划线;Neerl.统计:1966; 第20卷,1-7。
[54] 弗雷利,C。;Leisch,F。;Maechler,M。;雷森,V。;Lemonte,A;Fracdiff:分数差分ARIMA aka ARFIMA(p,d,q)模型:2012。
[55] 亨德曼,R.J。;O'Hara-Wild,M。;Bergmeir,C。;Razbash,S。;王,E;预测:时间序列和线性模型的预测函数:2017年。
[56] 亨德曼,R.J。;肯达卡尔,Y。;自动时间序列预测:R的预测包;J.Stat.软件:2008; 第27卷。
[57] 亨德曼,R.J。;Athanasopoulos,G;预测:原则与实践:澳大利亚墨尔本,2013年。
[58] 亨德曼,R.J。;Billah,B。;揭开Theta方法的面纱;国际期刊预测:2003; 第19卷,287-290。
[59] 海因曼,R.J。;科勒,A.B。;Ord,J.K。;斯奈德,R.D;指数平滑预测:状态空间方法:德国柏林/海德堡,2008年·Zbl 1211.62165号
[60] Liaw,A。;维纳,M。;基于randomForest的分类与回归;R新闻:2002;第2卷,18-22。
[61] 科尔特斯,P。;使用R/rminer工具的神经网络和支持向量机数据挖掘;数据挖掘的进展。应用和理论方面(人工智能课堂讲稿):柏林/海德堡,德国,2010年;第6171卷,第572-583页。
[62] 科尔特斯,P;Rminer:数据挖掘分类和回归方法:2016年。
[63] 亨德曼,R.J。;科勒,A.B。;再看一下预测准确性的衡量标准;国际期刊预测:2006; 第22卷,679-688。
[64] 亚历山大·D.L.J。;Tropsha,A。;Winkler,D.A。;小心R2:对QSAR和QSPR模型的预测准确性进行简单、明确的评估;化学杂志。Inf.型号:2015; 第55卷,1316-1322。
[65] 格拉马提亚,P。;Sangion,A。;QSAR模型统计验证参数的历史考察:关于度量和术语的澄清;化学杂志。Inf.型号:2016; 第56卷,1127-1131。
[66] Warnes,G.R。;Bolker,B。;Gorjanc,G.等人。;格罗森迪克,G。;Korosec,A。;Lumley,T。;MacQueen,D。;马格努森。;罗杰斯,J;Gdata:用于数据操作的各种R编程工具:2017。
[67] Wickham,H;Ggplot2:用于数据分析的优雅图形:瑞士查姆,2016年·Zbl 1397.62006年
[68] Wickham,H。;海丝特,J。;弗朗索瓦,R。;Jylänki,J。;约尔根森,M;读者:阅读矩形文本数据:2017。
[69] Wickham,H。;使用整形包对数据进行整形;J.Stat.软件:2007; 第21卷。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。