×

具有接受-拒绝树的随机森林。 (英语) Zbl 1505.62084号

摘要:本文提出了一种新的基于完全随机分割规则的随机森林方法,该方法具有接受-拒绝准则,用于质量控制。我们展示了所提出的接受-拒绝(AR)算法如何优于标准随机森林算法(RF)及其一些变体,包括极端随机化(ER)树和平滑sigmoid代理(SSS)树。分析了20个数据集以比较预测性能,并使用模拟数据集评估变量选择偏差。就分类问题的预测精度而言,所提出的AR算法表现最好,ER次之。对于回归问题,RF和SSS表现最好,其次是AR,最后是ER。然而,每种算法在至少一项研究中都是最准确的。我们研究AR算法可以产生更好预测性能的场景。就变量重要性而言,RF和SSS都表现出有利于具有许多可能分裂的变量的选择偏差,而ER和AR都在很大程度上消除了这种偏差。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Allwein,E。;夏皮雷,R。;Singer,Y.,《将多类还原为二进制:边缘分类器的统一方法》,J Mach Learn Res,1113-141(2000)·Zbl 1013.68175号
[2] 阿米特,Y。;Geman,D.,用随机树进行形状量化和识别,神经计算,91545-1588(1997)
[3] Breiman,L.,《装袋预测》,《马赫学习》,24123-140(1996)·Zbl 0858.68080号
[4] Breiman,L.,《随机森林》,《马赫学习》,45,5-32(2001)·Zbl 1007.68152号
[5] Breiman L(2004)随机森林简单模型的一致性。加州大学伯克利分校技术报告
[6] Caruana R,Niculescu-Mizil A(2006)监督学习算法的实证比较。摘自:第23届机器学习国际会议记录,第161-168页
[7] Caruana R,Karampatziakis N,Yessenalina A(2008)高维度监督学习的实证评估。在:第25届机器学习国际会议论文集,第96-103页
[8] 钱伯斯,J。;西克利夫兰。;克莱纳,B。;Tukey,P.,《数据分析的图形方法》(1983年),贝尔蒙特:沃兹沃思,贝尔蒙·兹伯利0532.65094
[9] 卡特勒,D。;小爱德华兹;比尔德,K。;卡特勒,A。;Hess,K。;Gibson,J。;Lawler,J.,《生态学分类的随机森林》,88,2783-2792(2007)
[10] Davis,R。;Anderson,Z.,指数生存树,Stat Med,8947-962(1989)
[11] R.钻机。;Francis,L.,《区分森林与树木:基于树的数据挖掘方法的比较》,Variance,2184-208(2008)
[12] Dietterich,T。;Bakiri,G.,《通过纠错输出代码解决多类学习问题》,J Artif Intell Res,2263-286(1995)·Zbl 0900.68358号
[13] 范,J。;苏,X。;莱文,R。;纳恩,M。;LeBlanc,M.,《按分裂优度划分的相关存活数据树及其在牙齿预后中的应用》,美国统计学会杂志,101,959-967(2006)·兹比尔1120.62328
[14] Friedman,J.,《贪婪函数近似:梯度提升机》,Ann Stat,291189-1232(2001)·Zbl 1043.62034号
[15] Genuer R,Poggi JM,Tuleau C(2008)《随机森林:一些方法论见解》。arXiv公司
[16] Geurts,P。;Ernst,D。;Wehenkel,L.,《极度随机树》,《马赫学习》,63,3-42(2006)·Zbl 1110.68124号
[17] Gordon,L。;Olshen,R.,树结构生存分析,癌症治疗代表,69,1065-1069(1985)
[18] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,聚类数据的混合效应随机森林,J Stat Comput Simul,841313-1328(2014)·Zbl 1453.62543号
[19] Hanley,J。;McNeil,B.,接收机工作特性(ROC)曲线下面积的含义和使用,放射学,143,29-36(1982)
[20] Ho T(1995)随机决策森林。摘自:第三届文件分析和识别国际会议记录,第1卷,第278-282页
[21] Ho,T.,构建决策森林的随机子空间方法,IEEE Trans-Pattern Ana Mach Intell,20832-844(1998)
[22] 霍斯默,D。;Lemeshow,S.,应用逻辑回归(1989),纽约:威利,纽约
[23] Hothorn,T。;Leisch,F。;Zeileis,A。;Hornik,K.,基准实验的设计和分析,计算机图形统计杂志,14675-699(2005)
[24] Ishwaran,H.,《分裂对随机森林的影响》,《马赫学习》,99,75-118(2015)·Zbl 1320.62015年
[25] Ishwaran H,Kogalur UB(2016)《存活、退化和分类的随机森林》(RF-SRC)。R包版本2.2.0
[26] Ishwaran,H。;美国科加勒尔。;戈洛德斯基,E。;A.明。;Lauer,M.,生存数据的高维变量选择,J Am Stat Assoc,105,205-217(2010)·Zbl 1397.62220号
[27] 科尼格,I。;Malley,J。;魏玛,C。;迪纳,HC;Ziegler,A.,《外部验证必要性的实践经验》,Stat Med,265499-5511(2007)
[28] Leisch F,Dimitriadou E(2010)mlbench:机器学习基准问题。R包版本2.1-1
[29] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[30] Malley,J。;克鲁帕,J。;达斯古普塔,A。;Malley,K。;Ziegler,A.,《概率机器:使用非参数学习机器的一致概率估计》,《医学中的方法通报》,51,74-81(2012)
[31] Newman DJ、Hettich S、Blake CL、Merz CJ(1998)UCI机器学习知识库。网址:http://www.ics.uci.edu/mlearn/MLRepository.html。2018年5月访问
[32] 西格尔,M。;Xiao,Y.,多元随机森林,WIREs Data Min Knowl Discov,180-87(2011)
[33] 塞拉·R。;Simonoff,J.,RE-EM树:纵向和聚类数据的数据挖掘方法,Mach Learn,86169-207(2012)·Zbl 1238.68131号
[34] 沙阿(Shah,A.)。;Bartlett,J。;卡彭特,J。;O.尼古拉斯。;海明威,H.,《使用小鼠插补缺失数据的随机森林和参数插补模型的比较:一项口径研究》,《美国流行病学杂志》,179764-774(2014)
[35] 斯特罗布尔,C。;A.布列斯特克斯。;Zeileis,A。;Augustin,T.,《基于基尼指数的分类树无偏分割选择》,《计算统计数据分析》,52,483-501(2007)·Zbl 1452.62469号
[36] 斯特罗布尔,C。;Boulesteix,A。;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量的偏差:图解、来源和解决方案》,BMC Bioninform,8,25-46(2007)
[37] Su X,Kang J,Liu L,Yang Q,Fan J,Levine R(2016)《平滑sigmoid代理(SSS):递归分区中贪婪搜索的替代方法》。版本下的计算统计数据分析
[38] 苏,X。;佩纳,A。;刘,L。;Levine,R.,在随机试验中评估个体化治疗效果的交互树随机森林,Stat Med,372547-2560(2018)
[39] Torgo L(1999)基于树的回归模型的归纳学习。波尔图大学博士论文
[40] Yoo,W。;费伦斯,B。;科特,M。;Schwartz,A.,《比较逻辑回归、逻辑回归、分类树和随机森林以确定有效的基因-基因和基因-环境相互作用》,《国际应用科学技术杂志》,第2268页(2012年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。