×

随机森林的无偏变量重要性。 (英语) Zbl 07533613号

摘要:随机森林中的默认变量重要性度量,基尼重要性,已被证明受到潜在基尼增益划分标准的偏差的影响。而另一种选择排列重要性通常被认为是可变重要性的可靠度量,但它在计算上也很苛刻,并且存在其他缺点。我们提出了一个简单的解决方案来解决误导性/不可信的基尼重要性,这可以被视为一个过度拟合的问题:我们计算的是银行外而不是银行内培训样本的损失减少。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[2] 卡明斯,M.P。;Myers,D.S.,简单统计模型预测植物线粒体RNA中的c-to-u编辑位点,BMC生物信息学,5,1,132(2004)·doi:10.1186/1471-2105-5-132
[3] Díaz-Uriarte,R。;Alvarez De Andres,S.,使用随机森林的基因选择和微阵列数据分类,BMC生物信息学,7,1,3(2006)·doi:10.1186/1471-2105-7-3
[4] Grömping,U.,《回归中的变量重要性评估:线性回归与随机森林》,《美国统计学家》,第63、4、308-19页(2009年)·doi:10.1198/tast.2009.08199
[5] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,《计算与图形统计杂志》,第15、3、651-74页(2006年)·doi:10.1198/106186006X133933
[6] Kim,H。;Loh,W.-Y.,无偏多元分裂分类树,美国统计协会杂志,96,454,589-604(2001)·doi:10.1198/016214501753168271
[7] Li,X.、Wang,Y.、Basu,S.、Kumbier,K.和Yu,B..2019年。一种用于随机森林的衰退mdi特征重要性度量。arXiv预印arXiv:1906.10845。
[8] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[9] Loecher,M.(2019)
[10] 卢,W.-Y。;Shih,Y.-S.,分类树的分割选择方法,中国统计局,815-40(1997)·Zbl 1067.62545号
[11] Menze,B.H。;迈克尔·凯尔姆,B。;R.Masuch。;Himmelreich,美国。;巴赫,P。;Petrich,W。;Hamprecht,F.A.,随机森林及其基尼系数重要性与光谱数据特征选择和分类的标准化学计量学方法的比较,BMC生物信息学,10,12113(2009)·doi:10.1186/1471-2105-10-213
[12] Nembrini,S。;柯尼希,爱尔兰共和国。;Wright,M.N.,基尼重要性的复兴?,生物信息学,34,21,3711-8(2018)·doi:10.1093/bioinformatics/bty373
[13] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.,《Scikit-learn:用python进行机器学习》,《机器学习研究杂志》,第12期,第2825-30页(2011年)·Zbl 1280.68189号
[14] Probst,P。;Wright,M.N。;Boulesteix,A.-L.,《随机森林的超参数和调整策略》,威利跨学科评论:数据挖掘和知识发现,9,3,e1301(2019)·doi:10.1002/widm.1301
[15] Sandri,M。;Zuccolotto,P.,分类树中基尼变量重要性度量的偏差校正算法,计算与图形统计杂志,17,3,611-28(2008)·doi:10.1198/106186008X344522
[16] Shih,Y.-S.,分类树中分裂选择偏差的注释,计算统计与数据分析,45,3,457-66(2004)·Zbl 1429.62264号 ·doi:10.1016/S0167-9473(03)00064-1
[17] Shih,Y.-S。;蔡洪伟,常拟合回归树中的变量选择偏差,计算统计与数据分析,45,3595-607(2004)·Zbl 1429.62725号 ·doi:10.1016/S0167-9473(03)00036-7
[18] 斯特罗布尔,C。;Boulesteix,A.L。;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量中的偏差:图解、来源和解决方案》,BMC生物信息学,8,1(2007)·doi:10.1186/1471-2105-8-25
[19] 斯特罗布尔,C。;布列斯特,A.-L。;Augustin,T.,基于基尼指数的分类树无偏分割选择,计算统计与数据分析,52,1483-501(2007)·Zbl 1452.62469号 ·doi:10.1016/j.csda.2006.12.030
[20] Wright,M.N.和Ziegler,A.,2015年。ranger:在c++和r.arXiv预打印arXiv:1508.04409中快速实现高维数据的随机森林。
[21] Wright,M.N.、Wager,S.、Probst,P.和Wright,M.N.,2017年。包装“ranger”。
[22] Zhou,Z.和Hooker,G..2019年。基于树的方法中特征重要性的无偏测量。arXiv预印arXiv:1903.05179。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。