A Random Forest-based Approach to Combining and Ranking Seasonality Tests

Daniel Ollech; Karsten Webel

doi:10.1515/jem-2020-0020

发布人：德古意特出版社 2022年6月23日

基于随机预测的季节性检验组合与排序方法

丹尼尔·奥利克和卡斯滕·韦贝尔

来自日志计量经济学方法杂志

https://doi.org/10.1515/jem-2020-0020

显示此出版物的有限预览：

摘要

实际上，每个季节性调整软件都包含一系列测试，用于评估给定的时间序列是否实际上是季节性的，因此是否是季节性调整的候选者。然而，这种测试肯定会产生一致或冲突的结果，这就提出了如何确定最准确的测试以及如何在后一种情况下汇总结果的问题。我们提出了一种新的基于随机森林的方法来回答这些问题。我们模拟了代表联邦银行定期分析的宏观经济时间序列的季节性和非季节性ARIMA过程。将时间序列的季节状态视为一个分类问题，我们使用第页-季节调整软件JDemetra+中实施的季节性测试值作为预测因子，用于根据模拟数据训练条件随机森林。我们表明，与最强大的测试相比，这种聚合方法避免了JDemetra+测试的大小失真，而不会牺牲太多的能力。我们还发现，修正的QS和Friedman检验是所考虑的集合中最准确的检验。

关键词：二进制分类;条件推理树;相关预测因子;模拟研究;监督机器学习

JEL分类：第12项;C22型;第14项;C45型;第63页

通讯作者：Daniel Ollech德国法兰克福60431，Wilhelm-Epstein-Strasse 14，德意志联邦银行，中央办公室，总统计与研究中心，电子邮箱：丹尼尔·奥利赫@bundesbank.de

附录

我们提供了六项针对零假设的JD+测试的基本信息(H（H） ₀)弱平稳时间序列中缺乏季节性{z（z） _吨}长度的T型具有τ每年的观测值。通过应用适当的（非季节性）差分阶数，使非平稳时间序列变得平稳。

改良QS测试

修改后的QS测试检查{z（z） _吨}对于季节性滞后的显著正自相关。让 γ ( 小时 ) = E类 ( z（z）吨 + 小时 z（z）吨 ) − E类 2 ( z（z）吨 ) 和ρ(小时)=γ(小时)/γ（0）表示滞后-小时的自方差和自相关{z（z） _吨}. 然后，H（H） ₀:ρ(k个)≤0k个∈ {τ, 2τ}，QS统计数据由下式给出

问 S公司 = T型 ( T型 + 2 ) ρ ̂ 2 ( τ ) T型 − τ + 最大值 { 0 , ρ ̂ ( 2 τ ) } 2 T型 − 2 τ × 1 ( 0 , ∞ ) ρ ̂ ( τ ) ,

哪里 ρ ̂ ( 小时 ) 是滞后-小时样本自相关{z（z） _吨}. QS的零分布近似于χ ²-两自由度分布(2011年马拉瓦尔).

弗里德曼测试

Friedman（FD）检验检查了以下数值的周期性平均等级之间的显著差异{z（z） _吨}. 让第页 _ij公司是年内观察结果的排名我第个周期j个第年，因此1≤第页 _ij公司≤τ、和 μ 我 = E类 ( 第页我 j个 ) .然后，H（H） ₀: μ ₁=μ ₂= … =μ _τ，并且FD-统计值作为具有重复测量的单向方差分析进行计算，其渐近遵循χ ²-分配τ−1自由度H（H） ₀(弗里德曼1937).

Kruskal–Wallis测试

Kruskal–Wallis（KW）测试的结果是将FD测试的年内等级替换为跨内等级，因此1≤第页 _ij公司≤T型KW统计量作为无重复测量的单向方差分析进行计算。因此，同样的渐近零分布适用(Kruskal和Wallis 1952年).

周期图测试

周期图（PD）测试检查光谱密度的加权和（f）(ω) = (2π)⁻¹ ∑ _小时 γ(小时)e（电子）^−ihΩ按季节频率评估 S公司 ( τ ) = ω 1 ⋆ , … , ω τ / 2 ⋆ 具有 ω j个 ⋆ = 2 π j个 / τ 对于j个∈ {1, …,τ/2} 与零显著不同。让 Σ S公司 ( τ ) = 2 （f） ω 1 ⋆ + ⋯ + （f） ω τ / 2 − 1 ⋆ + （f） ω τ / 2 ⋆ 就是这个加权和。然后， H（H） 0 : Σ S公司 ( τ ) = 0 ，并通过插入周期图估计值获得PD-统计{z（z） _吨}到 Σ S公司 ( τ ) 以及适当的缩放，以便PD遵循F类-分配 τ − 1 − 1 E类 [ T型 ] 和 T型 − τ + 1 E类 [ T型 ] 自由度H（H） ₀，其中 E类是偶数整数的集合。

季节性峰值测试

季节峰值（SP）测试检查是否（f）(ω)显示视觉上显著的峰值 S公司 ( τ ) .让n个 _vsp公司为此类峰值的数量，以及 S公司 P（P） = 1 { 1 , … , τ / 2 } [ n个 vsp公司 ] .然后，H（H） ₀：SP=0，SP-statistic由替换得到n个 _vsp公司使用计数估计器 n个 ̂ vsp公司汇总了Tukey和AR（30）估计值的信息（f）(ω). 视觉重要性标准（包括模拟临界值）和聚合规则在马拉瓦尔（2011）.

季节性假人试验

放弃平稳性假设{z（z） _吨}，季节性假人（SD）测试检查τ−1个季节性假人，表示为 β ∈ 对 τ − 1 在具有常数平均值和ARIMA的时间序列回归中，与零显著不同(产品数据质量)（000）扰动。因此，H（H） ₀: β =0，而SD统计数据是通常的F类-基于GLS估计的统计 β ，它位于F类-分配τ−1和T型−d日−第页−问−τ−1自由度H（H） ₀(戈麦斯和马拉瓦尔2001).

工具书类

Almomani，A.、B.Gupta、S.Atawneh、A.Meulenberg和E.Almomani。2013.“网络钓鱼电子邮件过滤技术调查”IEEE通信调查与教程15 (4): 2070–90.https://doi.org/10.1109/surv.2013.030713.00020.在谷歌学者中搜索

Bayer，C.和C.Hanck。2013.“组合非整合测试”时间序列分析杂志34 (1): 83–95.https://doi.org/10.1111/j.1467-9892.2012.00814.x.在谷歌学者中搜索

Breiman，L.1996年。“行李预测器。”机器学习24 (2): 123–40.https://doi.org/10.1007/bf00058655.在谷歌学者中搜索

Breiman，L.2001年。“随机森林。”机器学习45 (1): 5–32.https://doi.org/10.1023/a:1010933404324.10.1023/A:1010933404324在谷歌学者中搜索

布里特、O.J.、P.H.阿梅拉辛格和P.Vounatsou。2013.“计数数据的广义季节性自回归综合移动平均模型及其在低病例数疟疾时间序列中的应用”公共科学图书馆一号8 (6): 1–9.https://doi.org/10.1371/journal.pone.0065761.在谷歌学者中搜索公共医学公共医学中心

Bühlmann，P.和B.Yu。2002.“分析装袋”统计年刊30 (4): 927–61.https://doi.org/10.1214/aos/1031689014.在谷歌学者中搜索

Busetti，F.和A.C.Harvey。2003.“季节性测试”商业与经济统计杂志21（3）：420–36。https://doi.org/10.1198/073500103288619061.在谷歌学者中搜索

Cario，M.C.和B.L.Nelson。1997具有任意边缘分布和相关矩阵的随机向量的建模与生成技术报告。埃文斯顿：西北大学工业工程与管理科学系。在谷歌学者中搜索

Díaz-Uriarte，R.和S.A.de AndréS。2006.“使用随机森林对微阵列数据进行基因选择和分类”BMC生物信息学7.第3条。https://doi.org/10.1186/1471-2105-7-3.在谷歌学者中搜索公共医学公共医学中心

芬德利、D.F.、B.C.蒙塞尔、W.R.贝尔、M.C.奥托和B.C.陈。1998年，“X-12-ARIMA季节调整计划的新功能和方法”商业与经济统计杂志16 (2): 127–52.https://doi.org/10.1080/07350015.1998.10524743.在谷歌学者中搜索

Franses，P.H.1992年。“季节性测试。”经济学快报38 (3): 259–62.https://doi.org/10.1016/0165-1765(92)90067-9.在谷歌学者中搜索

弗里德曼，M.1937。“使用秩来避免方差分析中隐含的正态假设。”美国统计协会杂志32 (200): 675–701.https://doi.org/101080/01621459.1937.10503522.在谷歌学者中搜索

Geurts，P.、D.Ernst和L.Wehenkel。2006.“极度随机的树木”机器学习63 (1): 3–42.https://doi.org/10.1007/s10994-006-6226-1.在谷歌学者中搜索

Ghysels，E.和D.R.Osborn。2001季节性时间序列的计量分析剑桥：剑桥大学出版社。2017年10月10日/CBO9781139164009在谷歌学者中搜索

Gómez，V.和A.Maravall。2001.《单变量序列的自动建模方法》，In时间序列分析课程由D.Peña、G.C.Tiao和R.S.Tsay编辑，171-201年。纽约：Wiley。10.1002/9781118032978.ch7在谷歌学者中搜索

Götz，T.B.和K.Hauzenberger。2021.“具有节约型时变参数结构的大型混频VAR”计量经济学杂志24（3）：442–61。https://doi.org/10.1093/ectj/utap001.在谷歌学者中搜索

D.I.哈维、S.J.莱伯恩和A.M.R.泰勒。2009.“实践中的单位根测试：处理趋势和初始条件的不确定性”计量经济学理论25 (3): 587–636.https://doi.org/10.1017/s026646660809018x网址.在谷歌学者中搜索

Hastie，T.、R.Tibshirani和J.Friedman。2009统计学习的要素——数据挖掘、推断和预测第二版，海德堡：施普林格。10.1007/978-0-387-84858-7在谷歌学者中搜索

Hothorn，T.、K.Hornik和A.Zeileis。2006.《无偏递归划分：条件推理框架》计算与图形统计杂志15 (3): 651–74.https://doi.org/10.1198/106186006x133933.在谷歌学者中搜索

谢长华、吕荣华、李新华、赵文堂、徐敏华和李永昌，2011年。“老年疾病的新解决方案：使用随机森林、支持向量机和人工神经网络诊断急性阑尾炎。”外科149 (1): 87–93.https://doi.org/10.1016/j.urg.2010.03.023.在谷歌学者中搜索公共医学

Kruskal，W.H.和W.A.Wallis。1952.“单标准方差分析中秩的使用”美国统计协会杂志47 (260): 583–621.https://doi.org/101080/01621459.1952.10483441.在谷歌学者中搜索

Maravall，A.2011年。TRAMO-SEATS中的季节性检验和模型自动识别马德里：西班牙银行。Mimeo公司。在谷歌学者中搜索

Patel，J.、S.Shah、P.Thakkar和K.Kotecha。2015.“使用趋势决定数据准备和机器学习技术预测股票和股价指数走势”带应用程序的专家系统42 (1): 259–68.https://doi.org/10.1016/j.eswa.2014.07.040.在谷歌学者中搜索

Pinkwart，N.2018年。《德国短期经济活动预测：供需侧桥梁方程系统》第36/2018号讨论文件法兰克福：德意志联邦银行。10.2139/ssrn.3255394在谷歌学者中搜索

R核心团队2019R：一种用于统计计算的语言和环境维也纳：R统计计算基金会。在谷歌学者中搜索

Stone，C.J.、M.H.Hansen、C.Kooperberg和Y.K.Truong。1997年，“多项式样条及其张量乘积在扩展线性建模中的应用”统计年刊25（4）：1371–470。https://doi.org/10.1214/aos/1031594728.在谷歌学者中搜索

Strobl，C.、A.-L.Boulesteix、A.Zeileis和T.Hothorn。2007年，“随机森林变量重要性度量的偏差：图解、来源和解决方案”BMC生物信息学8.第25条。https://doi.org/10.1186/1471-2105-8-25.在谷歌学者中搜索公共医学公共医学中心

Strobl，C.、A.-L.Boulesteix、T.Kneib、T.Augustin和A.Zeileis。2008.“随机森林的条件变量重要性”BMC生物信息学9.第307条。https://doi.org/10.1186/1471-2105-9-307.在谷歌学者中搜索公共医学公共医学中心

补充材料

本文的在线版本提供了补充材料(https://doi.org/10.1515/jem-2020-0020).

收到：2020-11-19

修订过的：2022-05-12

认可的：2022-06-01

在线发布：2022-06-23