×

一种替代的基于剪枝的无偏递归分区方法。 (英语) Zbl 1466.62018年

摘要:基于树的方法是一种非参数建模策略,可以与广义线性模型或Cox比例风险模型结合使用,主要是在探索阶段。它们的流行主要是由于该技术的简单性以及对结果模型的容易解释。具有许多可能的分裂或缺失值的变量的变量选择偏差已被确定为与基于树的方法相关的问题之一。已经提出了许多无偏递归分区算法,通过在算法的分割过程中使用p值来避免这种偏差。最终的树是使用直接停止规则(预修剪策略)获得的,或者通过先生长一棵大树,然后对其进行修剪(后修剪)获得的。讨论了在存在交互效应和大量解释变量的情况下,基于p值的预剪枝树的一些缺点,并提出了一种简单的替代后剪枝解决方案,该解决方案允许识别此类交互。所提出的方法包括一种新的修剪算法,该算法使用错误发现率(FDR)控制过程来确定与显著测试相对应的分裂。通过仿真和实际例子演示了这种新方法。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用且强大的多重测试方法》,J.R.Stat.Soc.Ser。B统计方法。,57289-300,(1995年)·Zbl 0809.62014号
[2] 布雷曼,L。;弗里德曼,J.H。;斯通,C.J。;Olshen,R.A.,分类和回归树,(1984),查普曼和霍尔/CRC博卡拉顿,佛罗里达·Zbl 0541.62042号
[3] 钱伯斯,J.M。;Hastie,T.,《S中的统计模型》(Advanced Books&Software,(1992),Wadsworth&Brooks/Cole)·Zbl 0776.62007号
[4] Davis,R.B。;Anderson,J.R.,《指数生存树》,《统计医学》,8,8,947-961,(1989)
[5] Gordon,L。;Olshen,R.A.,树结构生存分析,癌症治疗。代表,69,10,1065-1069,(1985)
[6] Grubinger,T。;Zeileis,A。;Pfeiffer,K.-P.,Evtree:R,J.Statistical Software中全局最优分类和回归树的进化学习,61,1,1-29,(2014)
[7] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,J.Compute。图表。统计学。,15, 3, 651-674, (2006)
[8] Hothorn,T。;Zeileis,A.,Partykit:R,J.Mach中递归Partytion的模块化工具包。学习。Res.,16,3905-3909,(2013),URLhttp://jmlr.org/papers/v16/hothorn15a.html ·Zbl 1351.62005年
[9] Ingoldsby,H。;韦伯,M。;墙壁,D。;斯卡罗特,C。;纽厄尔,J。;Callagy,G.,《通过分类和回归树(CART)分析使用组织病理学和免疫组织化学标记预测DX和剪裁风险类别》,《乳腺》,22,5,879-886,(2013)
[10] Kim,H。;Loh,W.-Y.,《具有无偏多重分裂的分类树》,J.Amer。统计师。协会,96,454,598-604,(2001)
[11] Kim,H。;Loh,W.-Y.,具有二元线性判别节点模型的分类树,J.Compute。图表。统计学。,12, 3, 512-530, (2003)
[12] 勒布朗,M。;克劳利,J.,《分裂的幸存树木》,J.艾默尔。统计师。协会,88,422,457-467,(1993)·兹比尔0773.62071
[13] Loh,W.-Y.,无偏变量选择和交互检测回归树,统计。Sinica,12,2,361-386,(2002)·Zbl 0998.62042号
[14] 卢,W.-Y。;Shih,Y.-S.,分类树的分割选择方法,统计。中国科学院,7,41815-840,(1997)·Zbl 1067.62545号
[15] 卢,W.-Y。;Vanichsetakul,N.,通过广义判别分析进行树结构分类,J.Amer。统计师。协会,83,403,715-725,(1988)·Zbl 0649.62055号
[16] 摩根·J。;Sonquist,J.,《调查数据分析中的问题和建议》。,J.艾默。统计师。协会,58,415-434,(1963)·Zbl 0114.10103中
[17] R核心团队,2016年。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳,第3.2.4版修订。统一资源定位地址https://www.R-project.org/。
[18] Segal,M.R.,《审查数据的回归树》,《生物统计学》,44,1,35-47,(1988)·Zbl 0707.62224号
[19] Shih,Y.-S。;蔡洪伟,常拟合回归树中的变量选择偏差,计算。统计师。数据分析。,45, 3, 595-607, (2004) ·Zbl 1429.62725号
[20] Strasser,H。;韦伯,C.,《置换统计的渐近理论》,数学。方法统计。,8, 2, 220-250, (1999) ·Zbl 1103.62346号
[21] 斯特罗布尔,C。;Malley,J。;Tutz,G.,《递归分区介绍:分类树和回归树的原理、应用和特征,袋装林和随机林》,心理。方法,14,4,323-348,(2009)
[22] 塞尔诺,T.M。;Atkinson,E.J.,《使用rpart例程的递归分区介绍》。技术报告61,生物统计学部分,(1997),罗切斯特梅奥诊所
[23] Therneau,T.、Atkinson,B.、Ripley,B.,2015年。rpart:递归分区和回归树。R包版本4.1-10。统一资源定位地址https://CRAN.R-project.org/package=rpart。
[24] 怀特,A.P。;Liu,W.Z.,技术说明:决策树归纳中基于信息的度量的偏差,马赫。学习。,15, 321-329, (1994) ·Zbl 0942.68718号
[25] Zeileis,A。;Hothorn,T。;Hornik,K.,基于模型的递归分区,J.Compute。图表。统计学。,17, 2, 492-514, (2008)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。