×

有序反应的随机森林:预测和变量选择。 (英语) Zbl 1468.62089号

摘要:随机森林方法是一种常用的高维数据分类工具,能够通过其内置的变量重要性度量对候选预测因子进行排序。它可以应用于各种回归问题,包括名义、度量和生存反应变量。虽然使用随机森林方法对分类和回归问题进行了广泛的调查,但在有序响应的情况下,没有标准的程序。使用基于条件推理树的随机森林进行了广泛的研究,以探索合并排序信息是否会提高预测性能或变量选择。提出了两种新的排列变量重要性测度,它们是当前已实施的重要性测度的合理替代品,该重要性测度是为标称响应而开发的,不使用顺序响应变量的排序。基于模拟和实际数据的结果表明,在某些情况下,通过使用新的排列重要性度量,结合序数回归树明确使用响应水平中的排序,可以提高预测者的排名。在预测精度方面,序数回归树的性能与分类树相似,在大多数情况下甚至稍好。

MSC公司:

62-08 统计问题的计算方法
62J12型 广义线性模型(逻辑模型)
62页第10页 统计学在生物学和医学中的应用;元分析
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agresti,A.,分类数据分析,(2002),纽约约翰·威利出版社·Zbl 1018.6202号
[2] 阿彻,K。;Mas,V.,使用bootstrap聚集的顺序反应预测,应用于高通量甲基化数据集,Stat.Med.,28,29,3597-3610,(2009)
[3] Boulesteix,A.L。;Bender,A。;伯梅霍,J.L。;Strobl,C.,《随机森林基尼重要性有利于具有较大次要等位基因频率的单核苷酸多态性:评估、来源和建议》,简介。生物信息。,13, 292-304, (2012)
[4] Boulesteix,A.L。;贾尼察,S。;Kruppa,J。;König,I.,《随机森林方法和实践指南概述,重点是计算生物学和生物信息学》,Wiley Interdiscip。最小已知版本数据。发现。,2, 6, 493-507, (2012)
[5] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32, (2001) ·Zbl 1007.68152号
[6] 布里格斯,F。;戈德斯坦,B。;麦考利,J。;苏维奇,R。;De Jager,P。;Rioux,J。;艾文森。;康普斯顿,A。;哈夫勒,D。;Hauser,S.,DNA修复途径基因内的变异与多发性硬化风险,美国流行病学杂志。,172, 2, 217, (2010)
[7] Chang,J。;Yeh,R。;Wiencke,J。;Wiemels,J。;斯米尔诺夫,I。;皮科,A。;Tihan,T。;Patoka,J。;Miike,R。;Sison,J.,《利用随机森林对可能与多形性胶质母细胞瘤易感性相关的单核苷酸多态性进行路径分析》,《癌症流行病学》。生物标记物预防。,17, 6, 1368-1373, (2008)
[8] 科尔特斯,P。;Cerdeira,A。;阿尔梅达,F。;马托斯,T。;Reis,J.,通过物理化学特性数据挖掘建模葡萄酒偏好,Decis。支持系统。,47, 4, 547-553, (2009)
[9] Epstein,E.S.,《排名类别概率预测的评分系统》,J.Appl。美托洛尔。,8, 6, 985-987, (1969)
[10] Fürnkranz,J。;Hüllermeier,E.,偏好学习,(2010),施普林格柏林·Zbl 1214.68285号
[11] Harrington,D.L。;刘,D。;史密斯,M.M。;Mills,J.A。;Long,J.D。;艾尔沃德,E.H。;Paulsen,J.S.,前驱性亨廷顿病认知功能的神经解剖学相关性,脑行为。,4, 1, 29-40, (2014)
[12] Hechenbichler,K.、Schliep,K.,2004年。加权k近邻技术和序数分类。讨论论文399,慕尼黑大学。https://epub.ub.uni-muenchen.de/1769/1/paper_399.pdf。
[13] 霍斯默,D.W。;Lemeshow,S.,应用逻辑回归,(2004),John Wiley&Sons New York
[14] Hothorn,T。;霍尼克,K。;范德维尔,M。;Zeileis,A.,条件推理的乐高系统,Amer。统计人员。,60, 3, 257-263, (2006)
[15] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,J.Compute。图表。统计人员。,15, 3, 651-674, (2006)
[16] Hothorn,T.、Hornik,K.、Zeileis,A.,2012年。聚会:递归聚会的实验室。R包版本10-3,URLhttp://cranr-projectorg/package=party。
[17] 贾尼察,S。;粘合剂H。;Boulesteix,A.L.,假设检验和自举样本模型选择的陷阱:生物特征应用中的原因和后果,生物统计学杂志,(2015)·Zbl 1386.62053号
[18] 贾尼察,S。;斯特罗布尔,C。;Boulesteix,A.L.,《随机森林基于AUC的排列变量重要性度量》,BMC生物信息学,14,119,(2013)
[19] 卡拉马尼亚,V.A。;哈海,M。;格兰特·G·R。;帕列夫斯基,H.I。;Grizzle,W.E。;扎马尼亚,R.T。;伊希达·斯坦斯伯里,K。;Taichman,D.B。;卡乌特,S.M。;Jones,P.L.,肺动脉高压中促红细胞生成素上调,肺。循环。,4, 2, (2014)
[20] Knaus,W.A。;哈雷尔,F.E。;Lynn,J。;Goldman,L。;菲利普斯,R.S。;康纳斯,A.F。;道森,N.V。;富尔克森,W.J。;加州R.M。;Desbiens,N.,《支持预后模型:严重住院成人生存率的客观估计》,Ann.实习生。医学,122,3,191-203,(1995)
[21] 刘,C。;Ackerman,H。;Carulli,J.,《类风湿关节炎易感性的基因-基因相互作用全基因组筛查》,人类遗传学。,129, 5, 473-485, (2011)
[22] Louppe,G.,2014年。理解随机森林:从理论到实践。arXiv预打印arXiv:1407.7502。
[23] Murphy,A.H.,排名概率分数和概率分数:比较,Mon。《天气评论》,98,12,917-924,(1970)
[24] 国家卫生统计中心(2012年)。NHANES 2007至2008年公共数据一般发布文件文件。http://www.cdc.gov/nchs/nhanes/nhanes2007-2008/generaldoc_e.htm。
[25] Nicodemus,K.,致编辑的信:关于随机森林变量重要性测度预测因子的稳定性和排名,简介。生物信息。,12, 4, 369-373, (2011)
[26] 尼科迪默斯,K。;Callicott,J。;Higier,R。;Luna,A。;尼克松。;利普斯卡,B。;瓦卡拉卡,R。;Giegling,I。;Rujescu博士。;Clair,D.,DISC1、CIT和NDEL1之间统计上位性影响精神分裂症风险的证据:功能神经成像的生物验证,人类遗传学。,127, 4, 441-452, (2010)
[27] 尼科迪默斯,K。;Malley,J.,预测相关性影响机器学习算法:对基因组研究的影响,生物信息学,25,15,1884-1890,(2009)
[28] O'Shea,T.M。;Kothadia,J.M。;罗伯茨,D.D。;Dillard,R.G.,《极低出生体重新生儿的围产期事件和实质内回声密度风险》,儿科。佩里纳特。流行病。,12, 408-421, (1998)
[29] Pepe,M.,《分类和预测医学检验的统计评估》,(2004),牛津大学出版社,美国·兹比尔1114.62123
[30] Piccareta,R.,《名词顺序关联的新度量》,J.Appl。统计,28,1,107-120,(2001)·Zbl 1053.62008年
[31] 斯特德尔,C。;Lee,T。;沙阿·S·P。;Farinha,P。;Han,G。;Nayar,T。;Delaney,A。;Jones,S.J。;伊克巴尔,J。;Weisenburger,D.D.,《肿瘤相关巨噬细胞与经典霍奇金淋巴瘤的生存》,新英格兰。《医学杂志》,362,10,875-885,(2010)
[32] 斯特罗布尔,C。;Boulesteix,A.L。;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量中的偏差:插图、来源和解决方案》,BMC生物信息学,8,25,(2007)
[33] 孙,Y。;蔡,Z。;德赛,K。;劳伦斯,R。;勒夫,R。;Jawaid,A。;卡迪亚,S。;Yang,H.,使用随机森林对类风湿关节炎状态与候选基因和全基因组单核苷酸多态性的分类,BMC Proc。,1,补遗1,S62,(2007)
[34] Tutz,G.,分类数据回归,(2011),剑桥大学出版社,纽约·Zbl 1304.62021号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。