×

距离预测中用于偏差校正的两级分位数回归森林。 (英语) Zbl 1343.62022号

摘要:分位数回归森林(QRF)是一种基于树的条件分位数估计集成方法,已被证明在预测精度方面表现良好,尤其是在距离预测方面。然而,模型可能会有偏差,并且在处理高维数据(数千个特征)时会受到影响。本文提出了一种新的偏差校正方法,称为bcQRF,它将QRF中的偏差校正用于距离预测。在bcQRF中,使用一种新的特征加权子空间采样方法来建立一级QRF模型。然后将一级QRF模型的残差项作为响应特征,训练二级QRF模式进行偏差校正。两级模型用于计算偏差修正预测。在合成数据集和真实数据集上的大量实验表明,bcQRF方法显著减少了预测误差,并优于大多数现有的回归随机森林。新方法在高维数据上表现得特别好。

MSC公司:

62G08号 非参数回归和分位数回归
62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Breiman,L.(1996)。装袋预测器。机器学习,24(2),123-140·Zbl 0858.68080号
[2] Breiman,L.(1999)。使用自适应装袋来借记回归。技术报告,技术报告547,UCB统计部·Zbl 1052.68109号
[3] 利奥·布雷曼。(2001). 随机森林。机器学习,45(1),5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Breiman,L.、Friedman,J.、Stone,C.J.和Olshen,R.A.(1984年)。分类和回归树。博卡拉顿:CRC出版社·Zbl 0541.62042号
[5] Friedman,J.H.(1991)。多元自适应回归样条曲线。《统计年鉴》,19,1-67·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[6] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。统计学习的要素(第2卷)。纽约:施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[7] Hothorn,T.、Hornik,K.和Zeileis,A.(2011)party:递归部分赋值的实验室。r包版本0.9-9999。网址:http://cran.r-project.org/package=party。2013年11月28日查阅。
[8] Kursa,M.B.和Rudnicki,W.R.(2010年)。使用boruta包进行功能选择。统计软件杂志,36,1-13。
[9] Liaw,A.和Wiener,M.(2002年)。随机森林分类和回归。R新闻,2(3),18-22。
[10] Meinshausen,N.(2006年)。分位数回归森林。机器学习研究杂志,7983-999·Zbl 1222.68262号
[11] Meinshausen,N.(2012年)。Quantregforest:分位数退化森林。R包版本0.2-3。
[12] Rosenwald,A.、Wright,G.、Chan,W.C.、Connors,J.M.、Campo,E.、Fisher,R.I.等人(2002年)。应用分子分析预测弥漫性大b细胞淋巴瘤化疗后的生存率。《新英格兰医学杂志》,346(25),1937-1947·doi:10.1056/NEJMoa012914
[13] Roy,M.H.和Larocque,D.(2012年)。回归随机森林的稳健性。非参数统计杂志,24(4),993-1006·Zbl 1254.62055号 ·doi:10.1080/10485252.2012.715161
[14] Sandri,M.和Zuccolotto,P.(2008)。分类树中基尼变量重要性测度的偏差修正算法。计算与图形统计杂志,17(3),27·doi:10.1198/106186008X344522
[15] Sandri,M.和Zuccolotto,P.(2010年)。基于树的算法中节点杂质度量总减少偏差的分析和修正。统计与计算,20(4),393-407·doi:10.1007/s11222-009-9132-0
[16] Stoppiglia,H.、Dreyfus,G.、Dubois,R.和Oussar,Y.(2003)。对变量和特征选择的随机特征进行排序。《机器学习研究杂志》,31339-1414·Zbl 1102.68598号
[17] Tung,N.T.、Huang,J.Z.、Imran,K.、Li,M.J.和Williams,G.(2014)。分位数回归森林的扩展,用于非常高维的数据。《知识发现和数据挖掘进展》,第8444卷,(第247-258页)。斯普林格。
[18] Tuv,E.、Borisov,A.和Torkkola,K.(2006年)。使用基于集合的排序与人工对比进行特征选择。《神经网络》,2006年。IJCNN’06年。国际联席会议,(第2181-2186页)。电气与电子工程师协会。
[19] Tuv,E.、Borisov,A.、Runger,G.和Torkkola,K.(2009年)。利用集成、人工变量和冗余消除进行特征选择。机器学习研究杂志,101341-1366·Zbl 1235.62003号
[20] Welch,B.L.(1947)。当涉及几个不同的总体方差时,学生问题的概括。《生物统计学》,84,28-35·Zbl 0029.40802号
[21] Xu,R.(2013)。改进随机森林方法。爱荷华州立大学博士论文。
[22] Zhang,G.,&Yan,L.(2012)。回归中的偏差修正随机森林。应用统计学杂志,39(1),151-160·Zbl 1514.62010年 ·doi:10.1080/02664763.2011.578621
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。