×

一种新的使用随机森林的变量选择方法。 (英语) Zbl 1365.62417号

摘要:由于随机森林具有较高的预测精度,并且能够识别信息变量,因此经常使用随机森林。已经提出了几种变量选择方法来结合和强化这些品质。对相应文献的广泛回顾导致了一种新方法的开发,该方法基于置换测试的理论框架,并满足重要的统计特性。在三个模拟研究和四个实际数据应用中,将另外八种流行的变量选择方法进行了比较,结果表明:新方法还可以用于控制测试和家庭错误率,提供了更高的能力来区分相关变量和无关变量,并导致模型位于性能最佳的模型中。此外,它同样适用于回归和分类问题。

MSC公司:

第62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
05C80号 随机图(图形理论方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altmann,A。;托洛西,L。;O·桑德。;Lengauer,T.,《排列重要性:一种修正的特征重要性度量》,生物信息学,26,10,1340-1347(2010),URL:http://bioinformatics.oxfordjournals.org/cgi/content/abstract/26/10/1340
[2] 阿彻,K。;Kimes,R.,《随机森林变量重要性测度的经验表征》,计算统计与数据分析,52,4,2249-2260(2008)·Zbl 1452.62027
[3] 宾夕法尼亚州奥斯汀。;Tu,J.V.,开发预测模型的Bootstrap方法,美国统计学家,58,2,131-137(2004),URL:http://www.jstor.org/stable/27643521 ·Zbl 1182.62093号
[4] Y.本杰米尼。;Yekutieli,D.,《依赖性下多重测试中错误发现率的控制》,《统计年鉴》,29,4,1165-1188(2001)·Zbl 1041.62061号
[5] 布列斯特,A.-L。;斯特罗布尔,C。;奥古斯丁,T。;Daumer,M.,评估基于微阵列的分类器:概述,《癌症信息学》,677-97(2008)
[6] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[7] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号
[9] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,《分类和回归树》(1984),查普曼和霍尔/CRC,网址:http://www.amazon.ca/exec/obidos/redirect?tag=citeulike09-20&路径=ASIN/0412048418·Zbl 0541.62042号
[10] 北切哈塔。;Guo,L。;Mallet,C.,使用随机森林进行城市分类的机载激光雷达特征选择,Scanning,XXXVIII,C,207-212(2009),URL:http://www.mendeley.com/research/airborne-lidar-feature-selection-urban-classification-using-random-forests网站/
[11] 卡特勒·D·R。;爱德华兹,T.C。;比尔德·K·H。;卡特勒,A。;Hess,K.T。;Gibson,J。;Lawler,J.J.,《生态学分类的随机森林》,88,11,2783-2792(2007),网址:http://www.esajournals.org/doi/abs/10.1890/07-0539.1
[12] Díaz-Uriarte,R。;Alvarez de Andrés,s.,使用随机森林的基因选择和微阵列数据分类,BMC生物信息学,7,1,3(2006),URL:http://www.biomedcentral.com/1471-2105/7/3
[13] 多布拉,A。;Gehrke,J.,分类树构造中的偏差修正,(Brodley,C.E.;Danyluk,A.P.,《第十八届机器学习国际会议论文集》,第十八届国际机器学习会议论文集,ICML 2001(2001),Morgan Kaufmann:Morgan Koufmann Williams College,Williams,Williamstown,MA,USA),90-97
[14] Efron,B.,《估算预测规则的错误率:交叉验证的改进》,《美国统计协会杂志》,78,382,316-331(1983)·Zbl 0543.62079号
[15] 埃夫隆,B。;Tibshirani,R.J.,(Bootstrap简介,Bootstrap.简介,Chapman&Hall/CRC统计学与应用概率专著(1994),Chapmon and Hall/CCR),网址:http://www.worldcat.org/isbn/0412042312 ·Zbl 0835.62038号
[16] 埃夫隆,B。;Tibshirani,R.J.,《交叉验证的改进:.632+bootstrap方法》,《美国统计协会杂志》,92,438,548-560(1997)·Zbl 0887.62044号
[20] Genuer,R。;波吉,J.-M。;Tuleau-Malot,C.,使用随机森林的变量选择,模式识别字母,31,14,2225-2236(2010),URL:http://www.sciencedirect.com/science/article/B6V15-4YNC1M2-2/2/933ac5ac7bf3d118fbaa2313fe369439
[21] 戈德斯坦,B。;哈伯德,A。;卡特勒,A。;Barcellos,L.,《随机森林在全基因组关联数据集中的应用:方法学考虑和新发现》,BMC Genetics,11,1,49(2010),URL:http://www.biomedcentral.com/1471-2156/11/49
[22] Good,P.,《置换测试:测试假设的重采样方法实用指南》(2000),Springer,URL:http://www.worldcat.org/isbn/038798898X ·Zbl 0942.62049号
[23] Good,P.,《通过重新抽样方法和R/S-Plus引入统计学》(2005),Wiley-Interscience:Wiley-Interscience New York·Zbl 1094.62002号
[24] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,《机器学习研究杂志》,31157-1182(2003),URL:http://portal.acm.org/citation.cfm?id=944919.944968 ·兹比尔1102.68556
[25] 哈里森·D·J。;Rubinfeld,D.L.,《Hedonic房价与清洁空气需求》,《环境经济与管理杂志》,第5期,第1期,第81-102页(1978年),网址:http://ideas.repec.org/a/eee/jeeman/v5y1978i1p81-102.html ·Zbl 0375.90023号
[26] 哈斯蒂,T。;Tibshirani,R。;艾森,M。;Alizadeh,A。;利维,R。;斯塔特,L。;Chan,W。;博茨坦,D。;Brown,P.,“基因剃须”作为识别具有相似表达模式的不同基因集的方法,《基因组生物学》,1,2(2000),research0003.1-research0003.21
[27] 哈斯蒂,T。;Tibshirani,R.J。;Friedman,J.H.,《统计学习的要素》(2009),斯普林格出版社·Zbl 1273.62005年
[29] Hothorn,T。;霍尼克,K。;Zeileis,A.,无偏递归分区,《计算与图形统计学杂志》,15,35651-674(2006),网址:http://pubs.amstat.org/doi/abs/10.1198/106186006X133933
[30] 姜浩。;邓,Y。;陈海胜。;Tao,L。;沙琪。;陈,J。;蔡长杰。;Zhang,S.,联合分析两个微阵列基因表达数据集以选择肺腺癌标记基因,BMC生物信息学,5,1,81(2004),URL:http://www.biomedcentral.com/1471-2105/5/81
[31] Kim,H。;Loh,W.,无偏多重分裂分类树,美国统计协会杂志,96,589-604(2001)
[32] Kim,Y。;Wojciechowski,R。;Sung,H。;马蒂亚斯,R。;Wang,L。;克莱因,A。;Lenroot,R。;Malley,J。;Bailey-Wilson,J.,在存在交互作用的情况下,评估全基因组关联研究的随机森林性能,《BMC论文集》,3,Suppl.7,S64(2009),URL:http://www.biomedcentral.com/1753-6561/3/S7/S64
[33] 劳森,B。;Sauerbrei,W。;Schumacher,M.,用于探索不同尺度上测量的预后因素的分类和回归树(cart),(Dirschedl,P.;Ostermann,R.,计算统计学(1994),Physica-Verlag:Physica-Verlag Heidelberg),483-496
[34] 利特尔,M。;McSharry,P。;罗伯茨,S。;科斯特洛,D。;Moroz,I.,《利用非线性递归和分形标度特性检测嗓音障碍》,生物医学工程在线,6,1,23(2007),URL:http://www.biomedical-engineering-online.com/content/6/1/23
[35] 卢内塔,K。;海沃德,B.L。;西格尔,J。;Van Eerdewegh,P.,《筛选大规模关联研究数据:利用随机森林开发相互作用》,BMC遗传学,5,1(2004)
[36] 尼科迪默斯,K。;Malley,J。;斯特罗布尔,C。;Ziegler,A.,《预测相关性下基于随机森林排列的变量重要性度量的行为》,BMC生物信息学,11,1,110(2010)
[37] 邱,X。;Xiao,Y。;A.戈登。;Yakovlev,A.,评估微阵列数据分析中基因选择的稳定性,BMC生物信息学,7,1(2006)
[38] Quinlan,J.R.,(C4.5:机器学习程序。C4.5:机械学习程序,Morgan Kaufmann机器学习系列(1993),Morgan-Kaufman),网址:http://www.worldcat.org/isbn/1558602380
[40] Rodenburg,W。;Heidema,A.G。;Boer,J.M.A。;博维·奥登霍温,I.M.J。;Feskens,E.J.M。;E.C.M.马里曼。;Keijer,J.,在基于微阵列的基因表达研究中识别生理反应的框架:生物学相关基因的选择和解释,生理基因组学,33,1,78-90(2008),网址:http://physicalgenomics.physicalogy.org/content/33/1/78.abstract
[41] Sandri,M。;Zuccolotto,P.,《使用随机森林的变量选择》(Zani,S.;Cerioli,A.;Riani,M.;Vichi,M.,《数据分析、分类和正向搜索》,《分类、数据分析和知识组织研究》(2006),斯普林格出版社:斯普林格柏林,海德堡),263-270
[42] Sauerbrei,W.,《使用重采样方法简化医学统计中的回归模型》,《皇家统计学会杂志》。C辑应用统计学,48,3,313-329(1999)·Zbl 0939.62114号
[43] Sauerbrei,W。;罗伊斯顿,P。;Binder,H.,多变量模型构建中连续预测因子的重要变量选择和函数形式的确定,《医学统计学》,26,30,5512-5528(2007)
[44] 施瓦兹,D。;Szymczak,S。;齐格勒,A。;König,I.,《挑选森林中的单核苷酸多态性》,《BMC论文集》,第1期,补编1,S59(2007年),网址:http://www.biomedcentral.com/1753-6561/1/S1/S59
[45] 邵,J.,通过交叉验证选择线性模型,美国统计协会杂志,88,422,486-494(1993)·Zbl 0773.62051号
[46] 斯特罗布尔,C。;布列斯特,A.-L。;Augustin,T.,基于基尼指数的分类树无偏分割选择,计算统计与数据分析,52,1483-501(2007)·Zbl 1452.62469号
[47] 斯特罗布尔,C。;布列斯特,A.-L。;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林的条件变量重要性,BMC生物信息学,9,1,307+(2008)
[48] 斯特罗布尔,C。;布列斯特,A.-L。;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量的偏差:插图、来源和解决方案》,BMC生物信息学,8,1,25(2007),URL:http://www.biomedcentral.com/1471-2105/8/25
[49] 斯特罗布尔,C。;Malley,J。;Tutz,G.,《递归分区简介:分类树和回归树、套袋和随机森林的原理、应用和特征》,《心理学方法》,第14、4、323-348页(2009年)
[51] 弗吉尼亚州斯维特尼克。;Liaw,A。;Tong,C。;Wang,T.,Breiman随机森林在药物分子构效关系建模中的应用,(Roli,F.;Kittler,J.;Windeatt,T.《多分类器系统》,《计算机科学讲义》,第3077卷(2004),Springer:Springer Berlin,Heidelberg),334-343
[52] 唐·R。;辛维尔,J。;李,J。;Rider,D。;德安德拉德,M。;Biernacka,J.,使用随机森林预测类风湿性关节炎的基因和单倍型的鉴定,BMC Proceedings,3,Suppl.7,S68(2009),网址:http://www.biomedcentral.com/1753-6561/3/S7/S68
[53] Touw,W.G。;Bayjanov,J.R。;奥维马斯,L。;巴克斯,L。;Boekhorst,J。;韦尔斯,M。;van Hijum,S.A.F.T.,《随机森林生命科学中的数据挖掘:公园漫步还是丛林迷路?》?,生物信息学简报(2012),网址:http://bib.oxfordjournals.org/content/early/2012/07/10/bib.bbs034.abstract
[54] van Wieringen,W.N。;Kun,D。;汉佩尔,R。;Boulesteix,A.-L.,《使用基因表达数据进行生存预测:回顾与比较》,计算统计学与数据分析,53,5,1590-1603(2009),统计遗传学与统计基因组学:生物学、认识论、统计学与计算相冲突的领域。网址:http://www.sciencedirect.com/science/article/pii/S0167947308002946 ·Zbl 1453.62225号
[55] 韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计与S》(2003),施普林格出版社:美国纽约施普林格,网址:http://www.worldcat.org/isbn/0387954570 ·Zbl 1006.62003号
[56] 王,M。;陈,X。;Zhang,H.,《随机森林中最大条件齐方重要性》,生物信息学,26,6,831-837(2010),URL:http://bioinformatics.oxfordjournals.org/content/26/6/831.abstract
[57] 怀特,A。;Liu,W.,决策树归纳中基于信息的度量的偏差,机器学习,15,3,321-329(1994)·Zbl 0942.68718号
[58] Winham,S。;科尔比,C。;弗里姆斯,R。;王,X。;德安德拉德,M。;Huebner,M。;Biernacka,J.,高维遗传数据中随机森林的Snp相互作用检测,BMC生物信息学,13,1,164(2012),URL:http://www.biomedcentral.com/1471-2105/13/164
[59] 杨伟(Yang,W.)。;Gu,C.C.,《在全基因组关联分析中通过统计学习选择重要变量》,BMC Proceedings,3,Suppl.7,S70(2009),URL:http://www.biomedcentral.com/1753-6561/3/S7/S70
[60] Zhang,P.,通过多重交叉验证进行模型选择,《统计年鉴》,21,1,299-313(1993),URL:http://www.jstor.org/stable/3035592 ·Zbl 0770.62053号
[61] 周,Q。;Hong,W。;罗,L。;Yang,F.,基于DNA微阵列数据的随机森林和邻近差异标准的基因选择,收敛信息技术杂志,5,6616-170(2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。