心理测量学。作者手稿;2015年9月3日在PMC上市。
以最终编辑形式发布为:
预防性维修识别码:项目经理4409541
NIHMSID公司:NIHMS671225标准
生存树和生存集合方法的原理及应用
严洲,加利福尼亚大学,洛杉矶;
信件应发送至美国加利福尼亚大学洛杉矶分校神经系玛丽·S·伊斯顿阿尔茨海默病研究中心严周,邮编:10911 Weyburn Avenue,Suite 200,Los Angeles,CA 90095。ude.alcu.tendem@uohZnaY - 补充资料
Zhou&McArdle 2014_补充材料。
GUID:58DDED0A-0C8F-490D-8B2B-F51F48BDCCB1
摘要
分类和回归树(CART)以及它们的继承者备份和随机森林是越来越受到关注的统计学习工具。然而,由于删失数据收集的特点,标准的CART算法不能立即转移到生存分析的上下文中。关于事件发生和时间的问题在心理学和行为科学中都会出现,特别是在纵向研究中。基于树的方法的预测能力和其他关键特性在事件发生是感兴趣的结果的研究中很有前景。本文回顾了专门为删失响应设计的现有树算法以及最近开发的生存集合方法,并介绍了可用的计算机软件。通过仿真和实例,讨论了这些方法的优点和局限性。为实际使用提供了建议。
关键词:生存树,随机森林,生存分析,统计学习,递归划分
2.一个实际例子
我们通过一个简单的例子解释了生存树和生存集合方法的基本原理。数据如所示辛格和威利特的书(2003)和在本书的网站上共享(http://www.ats.ucla.edu/stat/examples/alda/). 这些数据最初由Henning和Frueh(1996)他追踪了194名从中等安全监狱释放的囚犯的犯罪历史。有趣的是,这些前囚犯是否再次被捕,如果是,他们获释后多久(以月为单位)。在为期1天至3年的数据收集期间,106名(54.6%)前囚犯经历了这一事件。研究了三个潜在的预测因素:(a)个人,这是一个二分法变量,表明前囚犯是否有与个人相关的犯罪史(如袭击或绑架);(b) 财产,一个二分法变量,表明前囚犯是否曾因与财产有关的罪行而被定罪;(c)年龄,前囚犯获释时的年龄。
我们通过绘制Kaplan–Meier(KM)生存曲线开始分析,该曲线由三个协变量中的每一个进行分层年龄组是通过将年龄排序的样本平均分为四组而形成的。该生存数据集由辛格和威利特(2003),见第14章)使用Cox比例风险模型(考克斯,1972年;考克斯和奥克斯出版社,1984年)结果表明,所有三个协变量都是累犯的显著预测因素(参见). 那些之前有过与人有关犯罪的囚犯再次犯罪的风险更大。同样,先前有财产相关犯罪记录的囚犯再次犯罪的风险也较高。此外,如图所示,上一次释放时较年轻的囚犯似乎更有可能再次被捕。更复杂的相互作用没有被研究。
表1
在分析累犯数据时,比较Cox回归、存活树、套袋和随机存活林。
| Cox回归
| 生存树(条件推理)
| Baggin OOB Brier得分 | 随机存活森林可变重要性 |
---|
| 参数估计(SE) | 危险比(SE) | 拆分 | 组 |
---|
个人的 | .5691 (.2052) | 1.7659(3642) | 不 | (1) 年龄≤31.5岁; | .2142 | 0222年 |
财产 | .9358 (.3509) | 2.5482 (.8941) | 是的 | (2) 年龄>31岁,财产=1; | .2142 .2178 | .0222 .0117 |
| .9358 (.3509) | 2.5482 (.8941) | 是的 | (3) 年龄>31岁,财产=0; | .2178 | .0117 |
年龄 | −.0667 (.0168) | .9355 (.0157) | 是的 | 1991年 | .0341 |
2.1. 累犯数据的生存树分析
接下来,我们使用生存树方法分析相同的数据。这里我们使用的是Hothorn、Hornik和Zeileis(2006年b)在条件推理框架中显示,从194名前囚犯的整个样本中,第一次分裂是在年龄为31.5岁时,将释放时年龄小于31.5岁的123名囚犯(节点2)与释放时年龄大于该年龄的其他囚犯(节点3)分开。根据财产价值对节点3进行了第二次拆分,这意味着对于释放时年龄超过31.5岁的人,其中51人以前曾犯过财产相关罪行(节点5),与其余20名没有财产相关罪行的囚犯(节点4)分开。因此,原始样本的最终分割结果是分为三组(请参见),每个都由各自终端节点中的Kaplan–Meier估计值表示。
通过条件推理生存树划分累犯数据。一(顶部):树状图;b条协变量空间的矩形划分。
生存树与一般CART有许多共同的特征,如伯克(2008)和Strobl等人(2009年)首先,在树生长过程的每个步骤,任务是找到单个最佳分割-要分割的最佳预测器和该预测器值的最佳切点,这增加了结果节点内的观测(关于响应变量)的同质性。这可以从卡普兰-迈耶曲线的形状中观察到。节点2中的这一组人在上次释放时更年轻,有更高的再犯风险,或者可能更早被重新监禁。其中大多数(约80%)在研究的观察期内未能存活。结果发现,那些最终进入节点4的人的风险较低,其中大多数人在观察期内幸存下来(大约只有20%再次被捕)。在这方面,树具有与判别分析或潜在类分析相似的目标,以识别原始样本的同质子组。
其次,树在实现子分组的方式上与其他方法不同。在大多数情况下,算法以“矩形分区”的形式用于划分协变量空间(Strobl等人,2009年). 如中所示,在两个预测因子的条件下。在本例中,囚犯根据AGE值和PROPERTY中的类别进行分组。在这种方法中,不允许基于预测值的线性组合进行拆分。
第三,树的结构可以暗示预测因子之间的相互作用。在AGE上第一次拆分后,左侧节点2不再进一步拆分,而右侧节点3在PROPERTY上再次拆分。这表明AGE和PROPERTY之间存在相互作用——PROPERTY的效果取决于前囚犯最后获释时的年龄。对于这些31.5岁以下的人,无论他们是否有与财产有关的犯罪史,他们的风险都很高,但对于那些年龄在31.5岁以上的人来说,没有以前的与财产有关犯罪记录预示着风险较低。
最后,协变量PERSONAL没有出现在树中,这意味着它没有被选为预测器。在树方法中,并非所有进入程序的协变量都会出现在最终模型中。只有在计算的某个步骤中分裂得最好的协变量,同时满足特定的标准,才能提高树的整体性能(对于条件推理树第页值)。请注意,在Cox回归中,尽管PERSONAL的影响弱于PROPERTY,但其在统计上也很显著。
2.2. 累犯数据的打包应用
接下来,我们对累犯数据应用“打包”程序。术语“打包”由布雷曼(1996)作为“引导聚合”(bootstrap aggregation)的缩写,它是一个在多个(未运行的)单树上聚合的过程,每个树都来自数据的引导样本。该算法最初由发明布雷曼(1996)克服单株树的不稳定性和过拟合问题。在此过程中,可以使用引导样本中未包含的观测值(称为“带外”观测值,OOB)来计算更真实的预测误差度量。
这里使用的bagging算法是为了生存结果而设计的Hothorn、Lausen、Benner和Radespiel-Tröger(2004)。预测误差由综合Brier分数索引(格拉芙、施穆尔、索尔布雷和舒马赫,1999年)测量观察结果和估计生存概率之间的平均差异。我们首先在装袋过程中使用所有三个协变量,然后每次排除其中一个协变量。抽取了100个引导样本。所有三个协变量的OOB-Brier得分均为.2123,排除协变量PERSONAL时为.2142,排除协变量PROPERTY时为.2178,排除协变量AGE时为.1991(见). 删除个人或财产后,预测误差略有增加。令人惊讶的是,去除预测因子AGE降低了预测因子误差。
2.3. 随机生存森林在累犯数据中的应用
现在我们将随机生存森林应用于累犯数据。我们使用的程序由Ishwaran、Kogalur、Blackstone和Lauer(2008)它直接改编自最初为随机森林制定的处方布雷曼(2003a,2003年3月). 随机森林为装袋过程增加了一个额外的步骤——在构建每棵树的过程中,在分割每个节点之前随机选择预先指定的较少数量的预测因子,并在减少的预测因子集中搜索分割变量。算法由Ishwaran等人(2008)使用哈雷尔的一致性指数(C指数;加利福尼亚州哈雷尔、普莱尔、李和罗萨蒂,1982年)作为生存数据预测误差的度量。该统计是对概率的估计,即在随机选择的两种情况下,成功预测发生的事件序列(因此预测误差为1-C)。
在该应用程序中,生成了1000个引导样本。计算(或“生长”)存活树时使用的分裂规则基于对数秩统计(曼特尔,1966年;佩托和佩托,1972年),用于比较两个样本的生存曲线的检验统计量。为每次拆分随机选择的预测因子数量设置为两个。该程序的OOB错误率为37.48%,优于50%的随机猜测,表明这三个协变量可以预测累犯。在左图显示,错误率稳定在400棵树左右。右图将三个协变量的变量重要性度量从高到低排序(它们的值显示在). 它表明年龄是最强的预测因素,个人似乎比财产更重要。
生存林错误率稳定(左边)和可变重要性图(正确的).
2.4. 结果的比较
在四种图示方法中,处理该问题的重点有很大不同。考克斯回归基于假设检验检验每个协变量的影响,存活树侧重于分类,袋装林和随机存活林侧重于预测。生存树和生存集合方法的结果似乎补充了传统生存分析的结果(即Cox回归)。然而,在某些时候,他们彼此不同意;bagging表明AGE不能预测累犯,生存树表明AGE和财产之间似乎存在交互作用。所以问题出现了,生存树和生存集合方法的可信度如何?
问题的答案首先取决于这些算法的性能。以生存树为例,树是由不同的生存树算法产生的,其分割规则由勒布朗和克劳利(1992)。停止规则是,一个节点中必须存在至少60个观测值才能尝试拆分,并且任何终端节点中必须至少存在20个观测值。第一次拆分仍在AGE上,为31.5,但进一步拆分与中的上一棵树不同,这将导致对样本进行不同的分类。在下一节中,我们将回顾现有的生存树算法。我们将在后面的章节中重新讨论累犯的例子。
3.生存树算法简介
据报道,首次尝试在审查数据的背景下调整CART算法的是Gordon和Olshen(1985)自那时以来,已经提出了十多种生存树算法,尽管只有少数算法在公开可用的软件中实现。我们在中总结了这些算法的主要特征.
Molinaro等人(2004年)指出生存树算法可以根据其使用的节点内同质性或节点间异质性度量分为两类。第一类算法继承了CART的基本基础,即它们依赖于分裂规则来优化基于损失的节点内同质性标准,并使用成本复杂性修剪和交叉验证来从候选树序列中选择一棵最优大小的树。他们对损失函数的定义不同。Gordon和Olshen(1985)通过定义三种可能的生存曲线形状(基于Kaplan–Meier计算),在删失数据的背景下创建了节点杂质的度量,这些曲线被视为“纯”,然后节点杂质是节点内生存曲线与三条纯曲线中任何一条曲线的偏差。戴维斯和安德森(1989)基于负对数似然的分裂函数,同时假设基线风险函数为指数模型。Therneau等人(1990年)建议使用鞅残差,这允许直接将CART应用于生存结果。勒布朗和克劳利(1992)使用了完全似然估计程序的第一步,假设风险模型成比例。张(描述于张艺谋与歌手1999)提出了一种更直接的方法,将节点杂质定义为二进制死亡指示符杂质(即是否发生死亡的虚拟变量)和持续时间杂质的加权组合。Molinaro等人(2004年)认为现有的生存树方法都是基于处理删失数据的便利性而选择分裂和剪枝准则,并没有沦为未删失的数据的首选。为了解决这个问题,他们提出了一种统一的方法,定义了截尾加权(IPCW)损失函数的逆概率。
在第二类生存树算法中,两样本log-rank检验统计量主要用作节点间异质性度量。这种基于分裂和修剪的替代思想的方法被认为明显偏离了标准树方法(Molinaro等人,2004年).Ciampi等人(1986年)和西格尔(1988)是最早采取这种方法的。然而,Segal的算法并没有提供选择树大小的解决方案。Intrator和Kooperberg(1995)被改进的西格尔(1988)算法通过增加成本复杂度修剪。算法由Ciampi等人(1986年)使用Akaike信息准则(AIC)来选择与对数似然性密切相关的树大小,通过添加基于参数数量的惩罚。该方法假设AIC和交叉验证的渐近等价性,根据斯通(1974).勒布朗和克劳利(1993)批评说,在这种特定的环境下,这种对等不太可能成立。相反,他们使用了与CART剪枝过程类似的具有最佳特性的剪枝算法,并使用重采样和置换技术来选择树的大小。Butler等人(1989)也使用log-rank测试统计数据进行拆分,但他们使用节点内度量来修剪和选择树大小。
最近,Hothorn等人(2006b)提出了一种递归划分的条件推理置换测试方法。基于置换测试理论,它使用第页值作为分割标准(即要求分割最小值第页值),并作为停止标准(即,在否时停止第页值低于预先指定的α-level),因此不依赖修剪程序来选择树的大小。他们表明,该算法克服了对具有许多可能分裂或缺失值的预测因子的选择偏差,这是CART方法中的一个基本问题。对于截尾响应的特殊情况,他们建议在计算中选择对数秩或萨维奇分数,然后进行单变量连续回归。
3.2. 评估生存树算法
接下来,我们通过模拟数据测试和比较三个生存树程序——(a)Zhang的STREE独立程序,(b)“rpart”包(在R中)和(c)“party”包(R中)。我们使用“rpart”(minsplit=20和minbucket=7)和“party”(mincriteria=.95、minsplit=20和minbudge=7)中的默认设置来确定树的大小。
这里假设真正的模型是一个简单的树结构。生存数据的设置与勒布朗和克劳利(1993),Keles和Segal(2002),以及Hothorn等人(2004)生存时间按指数分布和条件生存分布S公司(z(z)|x个)=经验(−zΦx个),带有危害的对数ϑx个=日志(Φx个). 两个独立预测因子X(X)1和X(X)2定义为在[0,1]上均匀分布。指定了两个树结构(),该模型可以用代数形式表示为:
简单地说,我们在这个模拟中假设了零审查。样本大小设置为N个=200,接近累犯示例中的样本量194。
型号1a被“一方”成功识别(树图),拆分为X(X)1由于随机误差,第572点略微偏离0.6点。“rpart”返回了一棵树()这比需要的要大得多,但我们注意到第一次拆分(0.617)是正确的。似然法、log-rank法、自适应归一化法和全局归一化方法都有类似的问题——它们能够正确地找到第一个分裂,但即使在修剪之后,树的大小仍然过大(“过盈”问题)。Gordon–Olshen方法未能找到正确的第一次分裂。
对于型号1b如果树中存在两个拆分,则“party”会正确拆分数据(请参见)尽管拆分变量的顺序与注意危险参数ϑx个协变量空间为零,其中X(X)1≤0.6和X(X)2≤0.4,其余一棵树。两棵树都反映了这个分区。“rpart”确定了协变量空间,其中ϑx个为零,但过盈问题仍然存在(). 可能性、Gordon–Olshen、自适应归一化、全局归一化和对数库方法也出现了同样的问题,所有这些都会产生额外的不必要的分裂。
这两个简单的实验表明,在“party”中实现的条件推理生存树优于其他生存树算法,其主要问题在于树修剪的无效性,并且该问题会导致数据的过拟合和错误解释。然而,这并不否认这些方法的价值,稍后将讨论,这些方法在聚集在一棵完全生长的存活树上的存活集合中(即不修剪)。
4.救生数据打包
在解决单株树的不稳定性问题时(伯克,2008;Strobl等人,2009年)袋装的一般原则也适用于生存环境,但程序需要一些技术调整。Hothorn等人(2004)提出了一种套袋成活树的方法。与分类(终端节点中的多数投票)或回归(终端节点的平均响应)问题中点值的平均值不同,它们使用条件生存概率函数作为预测结果。具体来说,对于一个新的观测值,其生存概率函数的估计是基于具有“相近”协变量值的观测值的,也就是说,与新观测值本身属于同一生存树叶子的观测值。然后,根据从所有自举样本中聚合的“密切”观测值计算单个卡普兰–迈耶曲线,作为新观测的估计结果。“rpart”用于构建存活树,但有人建议可以使用任意的树生长算法来进行此装袋过程(Hothorn等人,2004年).
Hothorn等人(2004)使用综合Brier分数(Graf等人,1999年)作为预测优度的指标。他们通过模拟表明,套袋生存树在预测精度方面比单棵生存树有所提高,并且在较少的删失下,这种提高更为显著。他们还表明,当非信息协变量的数量增加时,套袋的预测性能几乎不受影响,表明它对数据中的噪声具有鲁棒性。
4.1. 可用的计算机软件
“party”包cforest()中的一个函数实现了对生存树进行打包,只需将每个节点(mtry参数)计算的变量数量固定为可用的预测器数量。该装袋程序也已在R包“ipred”中实施(Peters、Hothorn、Ripley、Therneau和Atkinson,2009年). 用户可以选择要绘制的引导样本数(即树数)。除了bootstrap采样之外,还有其他可选的采样方法。可以获得新观测值的Kaplan–Meier估计值。在实际应用中,由于装袋过程中涉及随机抽样,Brier分数会因试验而异。通过检查试验结果的接近程度,用户可以了解稳定性达到了什么程度,并决定是否需要更多的树。
6.评估存活树、袋装林和随机存活林
接下来我们比较四种方法:(a)Cox回归,(b)套袋存活树(Hothorn等人,2004年),(c)随机存活森林(Ishwaran等人,2008年),和(d)条件推理生存树(Hothorn等人,2006年b)通过在不同水平上操纵审查率的模拟数据。
生存时间的模拟方法与之前的设置相同,但这里的审查率控制在大约25%、50%和75%。我们假设观测时间均匀分布在[0,γ]. 对于任何观察,如果观察时间短于生存时间,结果将被审查。审查参数的值γ每个试验中使用的药物列于.
表3
设置 | 审查率
|
---|
| 25% | 50% | 75% |
---|
2a个 | 2 | .65 | .17 |
2亿 | .55 | .16 | .05 |
与之前的设置类似,有两个独立的预测因子X(X)1和X(X)2在[0,1]上均匀分布。样本大小为N个= 200. 真正的模型是:
型号2a是样条回归,其中X(X)1当其超过0.7时,其影响是原来的三倍。型号2b包括对协变量和相互作用的主要影响。在拟合Cox回归时,X(X)1,X(X)2并考察了它们的乘积项。在每个装袋程序中抽取100个引导样本。对于随机存活森林,我们选择对数-库分裂规则来生长存活树。每片森林种植了500棵树,每片森林随机选择一个变量。结果显示于.
表4
| Cox回归参数估计(SE) | Bagging OOB Brier得分 | 随机生存森林重要性可变 |
---|
2a个 | | | |
25%审查 | | 两者均=.1522 | 错误率=32.31% |
X(X)1 | 3.56 (.70) | .1892 | .2014 |
X(X)2 | .51 (.68) | .147 | −.0110 |
X(X)1X(X)2 | −.94 (1.14) | – | – |
50%审查 | | 两者均=.1696 | 错误率=28.86% |
X(X)1 | 2.90 (.89) | .2357 | .2416 |
X(X)2 | −1.36(1.02) | .1664 | .0079 |
X(X)1X(X)2 | 1.64 (1.49) | – | – |
75%审查 | | 两者均=.1306 | 错误率=30.39% |
X(X) | 5.38 (1.38) | .1998 | .3224 |
X(X)2 | 1.51 (1.64) | .1236 | −.0246 |
X(X)1X(X)2 | −2.28 (2.16) | – | – |
2亿 | | | |
25%审查 | | 两者均=.1069 | 错误率=24.65% |
X(X)1 | 3.86 (.72) | .1719 | .1436 |
X(X)2 | 1.79 (.71) | .1336 | .0221 |
X(X)1X(X)2 | .31(1.07) | – | – |
50%审查 | | 两者均为0.1533 | 错误率=26.88% |
X(X)1 | 2.81 (.90) | .2127 | .1849 |
X(X)2 | .08 (.98) | .1572 | .0015 |
X(X)1X(X)2 | 1.65 (1.43) | – | – |
75%审查 | | 两者均为0.1476 | 错误率=29.58% |
X(X)1 | 2.43 (1.43) | .186 | .1258 |
X(X)2 | .78 (1.54) | .1483 | .0117 |
X(X)1X(X)2 | 1.31 (2.13) | – | – |
对于型号2a,Cox回归确定X(X)1作为所有三级审查中唯一的显著预测因子。但X(X)1被高估了,尤其是在审查率很高(75%)的情况下。这不难解释,因为在目前的环境下,受审查的观察结果更多是那些危险性较低的,而那些危险性较小的X(X)1值。如果没有这些观察结果X(X)1系数趋于偏高。装袋表明X(X)1导致所有审查级别的错误率更高,同时删除X(X)2稍微降低了错误率。因此,装袋正确地反映了X(X)1和琐碎X(X)2在预测生存结果时,该方法的有效性似乎不受审查率的影响。随机存活森林也同样成功,森林的总体预测误差不受审查的影响。
对于型号2b,Cox回归没有足够的能力检测相互作用,并且随着审查率的增加,这两个主要影响也变得微不足道。相比之下,bagging显示,如果删除其中一个预测因子,预测误差就会增加,这表明这两个预测因子都可以预测结果。对于较弱的预测器X(X)2当截尾率达到50%或更高时,预测误差变化很小。类似地,随机存活森林表明,变量重要性度量对于X(X)1任何时候,但对于X(X)2在50%和75%的审查水平。随着审查率的增加,总体预测误差趋于上升。
就树木结果而言,存活树木似乎对回归系数的变化很敏感型号2a-他们都在附近发现了裂缝). 对于型号2b,树检测到所有三个审查级别的交互()尽管随着审查率的增加,分割的数量减少了。
总之,模拟显示了两种Cox回归可能存在问题的情况:(a)当删失与解释变量相关时,它可能会有偏差;(b)高删失率显著影响统计能力。相比之下,袋装林和随机存活林似乎较少受到审查的影响。存活树有助于检测非线性关系的变化以及检测相互作用。
6.1. 重审累犯案例
然后,我们可以返回累犯数据,重新考虑不同方法获得的结果。第一个混淆是关于AGE的影响,除装袋外,所有方法都认为AGE是一个重要的预测因子。考虑到对型号2b影响X(X)2当审查率为50%或75%时,几乎无法检测到。去除AGE后预测误差的减少可能是袋装程序中嵌入的随机抽样的结果。对于Cox回归,似乎没有明显违反模型假设的证据(即比例风险;参见),因此我们可以相信Cox回归的结果是可靠的。此外,随机存活森林也将AGE确定为最重要的预测因子;在存活树中,AGE是第一个分裂的变量。因此,我们可以得出结论,AGE确实对再次逮捕的风险有影响,在这个例子中,装袋产生的结果似乎具有误导性。
我们通过模拟表明,样本大小相似(N个=200)和类似的审查率(50%),Cox回归可能没有足够的能力检测交互作用。生存树在累犯示例中提出了一种交互作用,但鉴于其探索性,在这里无法得出这样的结论。同样,AGE的影响可能是非线性的。探索性数据挖掘中的这些线索可以在未来的研究中加以检验。
7.讨论
7.2. 实际使用建议
正确解释结果是使用生存树方法的关键。由于这些方法相对不成熟,用户对这些过程有基本的了解似乎很重要。意识到它们的缺点和局限性可以避免做出误导性的陈述。这并不是要阻止使用存活树和集合,相反,我们建议使用它们,而是与其他传统方法结合使用。Cox回归在生存数据分析中非常流行,但它在各种情况下都有局限性(布雷曼,2002年),并且在实践中经常在没有严格性的情况下使用(即,未仔细检查比例风险假设)。另一方面,我们不应该对数据挖掘过于乐观。如所示Ishwaran等人(2008)在一些数据集上,探索性方法的预测精度并不优于Cox回归,这表明这些方法的优越性并不总是显而易见的,只有在传统方法满足其局限性的情况下才会显现出来。但是,将它们作为补充工具使用从来都不会有什么坏处,使用它们可以从数据中获得常规生存分析无法获得的额外信息。
在几种条件下,存活的森林可以提供特别丰富的信息。首先,最典型的情况是当我们有大量预测因素和小样本时,Cox回归受到低统计能力的限制。此外,如果没有明确的理论或假设可用于仅测试少数特定协变量,那么在模型中包括所有主要影响以及高阶交互作用项似乎是不切实际的。相反,存活森林不受统计能力的限制,在检测相互作用方面具有优势。第二,Ishwaran等人(2008)结果表明,Cox回归的预测误差随着不相关协变量数量的增加而增加,而随机森林对数据中的噪声变量具有鲁棒性。第三,在违反比例风险假设的情况下,例如,当相关预测值的影响只存在有限的时间段时,该预测值可能被忽略(布雷曼,2002年)通过考克斯回归。生存树对比例风险假设不敏感(除非分割规则基于该假设)。第四,Cox回归的性能取决于审查率。我们发现,在审查率较高的情况下,当预测者负责审查时,Cox回归可能会产生有偏的结果。审查也可能严重影响Cox回归的统计能力。随机森林似乎不太受审查率的影响。
当目标是预测时,这些统计学习技术处于最佳状态。它们可以响应其他传统方法可能遗漏的数据特征,但这些特征仅反映在预测精度的提高上。当问题是预测因素如何与结果相关时,这些方法就像一个黑匣子。还请注意,从这些探索性方法得出的结论没有得到概率基础的支持,而概率基础作为假设检验范式的基础,仍然是该领域的核心科学要素。如果研究问题是正式证明预测器与结果的关系,即测试特定的先验理论,那么这些方法无法替代长期建立的可测试模型。
致谢
本研究得到了国家科学基金会SES-1124283的支持。我们感谢David Elashoff(加州大学洛杉矶分校)对这项工作早期草案的评论。
脚注
电子辅助材料本文的在线版本(doi:10.1007/s11336-014-9413-1)包含补充材料,可供授权用户使用。
参与者信息
兖州,加利福尼亚大学,洛杉矶。
John J.McArdle,南加州大学。
工具书类
- 伯克RA。从回归的角度进行统计学习。纽约州纽约市:斯普林格;2008[谷歌学者]
- Breiman L.Bagging预测因子。机器学习。1996;24:123–140. [谷歌学者]
- 布雷曼L.随机森林。机器学习。2001;45:5–32. [谷歌学者]
- 布雷曼L。面向大众的软件。加利福尼亚大学统计系;伯克利:2002年。检索自http://www.stat.berkeley.edu网站/~breiman/wald2002-3.pdf。2014年7月1日查阅。[谷歌学者]
- 布雷曼L。如何使用生存森林。加利福尼亚大学统计系;伯克利:2003a。检索自http://www.stat.berkeley.edu网站/~breiman/SF_手册.pdf。2014年7月1日查阅。[谷歌学者]
- 布雷曼L。手动设置、使用和理解随机森林V4.0。2003年3月检索自http://www.stat.berkeley.edu网站/~breiman/Using_random_forests_v4.0.pdf。2014年7月1日查阅。
- Breiman L、Friedman JH、Olshen R、Stone CJ。分类和回归树。纽约州纽约市:查普曼和霍尔;1984[谷歌学者]
- Butler J、Gilpin E、Gordon L、Olshen R。树结构生存分析2。斯坦福大学生物统计系;1989年(技术报告)。[谷歌学者]
- Ciampi A,Thiffault J,Nakache JP,Asselain B。通过逐步回归、对应分析和递归分割进行分层:对具有协变量的生存数据的三种分析方法的比较。计算统计与数据分析。1986;4:185–204. [谷歌学者]
- Cox DR.回归模型和生命表。英国皇家统计学会期刊B辑。1972;34(2) :187–220。 [谷歌学者]
- Cox DR、Oakes D。生存数据分析。伦敦:查普曼和霍尔;1984[谷歌学者]
- Davis R,Anderson J.指数生存树。医学统计学。1989;8:947–961.[公共医学][谷歌学者]
- DeWit DJ、Adlaf EM、Offord DR、Ogborne AC。首次饮酒年龄:酒精障碍发生的风险因素。美国精神病学杂志。2000;157(5):745–750.[公共医学][谷歌学者]
- Gordon L,Olshen RA。树结构生存分析。癌症治疗报告。1985;69:1065–1069.[公共医学][谷歌学者]
- Graf E,Schmoor C,Sauerbrei W,Schumacher M。生存数据预后分类方案的评估和比较。医学统计学。1999;18:2529–2545.[公共医学][谷歌学者]
- Harrell F、Calif R、Pryor D、Lee K、Rosati R。评估医疗测试的结果。美国医学会杂志。1982;247:2543–2546.[公共医学][谷歌学者]
- Henning KR,不列颠哥伦比亚省弗鲁厄。被监禁罪犯的认知行为治疗:对佛蒙特州惩教部认知自我改变计划的评估。刑事司法与行为。1996;23:523–541。 [谷歌学者]
- Hothorn T、Bühlmann P、Dudoit S、Molinaro A、van der Laan MJ。生存合奏。生物统计学。2006年a;7(3):355–373.[公共医学][谷歌学者]
- Hothorn T、Hornik K、Strobl C、Zeileis A。包“一方”:递归部分(y)定位实验室(R包0.9-9997版)[计算机软件]2010检索自http://cran.r-project.org/web/packages/party/index.html。2010年10月15日访问。
- Hothorn T,Hornik K,Zeileis A.无偏递归划分:条件推理框架。计算与图形统计杂志。2006年b;15:651–674. [谷歌学者]
- Hothorn T、Lausen B、Benner A、Radespiel-Tröger M.打包存活树木。医学统计学。2004;23:77–91。[公共医学][谷歌学者]
- Hothorn T,Zeileis A。包“partykit”:递归Partytioning的工具包(R包版本0.1-6)[计算机软件]2012检索自http://cran.r-project.org/web/packages/partykit/index.html。2013年9月3日访问。
- Intrator O,Kooperberg C.生存分析中的树和样条曲线。医学研究中的统计方法。1995;4(3):237–261.[公共医学][谷歌学者]
- Ishwaran H,科加勒尔UB。“randomSurvivalForest”包:随机生存林。(R包版本3.6.3)[计算机软件]2010检索自http://cran.r-project.org/web/packages/randomSurvivalForest/index.html。2010年10月15日访问。
- Ishwaran H、Kogalur UB、Blackstone EH、Lauer MS。随机生存森林。应用统计学年鉴。2008年;2(3):841–860. [谷歌学者]
- KelešS,Segal MR.基于残差的树结构生存分析。医学统计学。2002;21:313–326.[公共医学][谷歌学者]
- LeBlanc M,Crowley J.截尾生存数据的相对风险树。生物计量学。1992;48:411–425.[公共医学][谷歌学者]
- LeBlanc M,Crowley J.通过分裂的好处生存树木。美国统计协会杂志。1993;88:457–467. [谷歌学者]
- Mantel N.生存数据的评估及其考虑中出现的两个新的秩序统计。癌症化疗报告。1966;50(3):163–170.[公共医学][谷歌学者]
- Mertens JR、Kline-Simon AH、Delucchi KL、Moore C、Weisner CM。私人酒精和药物门诊治疗缓解的十年稳定性:非问题使用者与戒除者。药物和酒精依赖。2012年;125(1):67–74. [PMC免费文章][公共医学][谷歌学者]
- 麦卡德尔JJ。在行为科学中使用CART进行探索性数据挖掘。作者:库珀·H、卡米克·P、朗·D、潘特·AT、林德斯科普夫·D、谢尔·K,编辑。APA心理学研究方法手册。华盛顿特区:美国心理协会;2011[谷歌学者]
- Molinaro AM、Dudoit S、van der Laan MJ。基于树的多元回归和右偏数据密度估计。多元分析杂志。2004;90:154–177. [谷歌学者]
- 摩根·JN,Sonquist JA。调查数据分析中存在的问题及建议。美国统计协会杂志。1963;58:415–434. [谷歌学者]
- Morita JG,Lee TW,Mowday RT。生存分析的回归模拟:离职研究的选择性应用。《管理学会杂志》。1993;36(6):1430–1464. [谷歌学者]
- Peters A、Hothorn T、Ripley BD、Therneau T、Atkinson B。“ipred”包:改进的预测器。(R包版本0.9-3)[计算机软件]2009检索自http://cran.r-project.org/web/packages/ipred/index.html。2014年7月1日查阅。
- Peto R,Peto J.渐近有效秩不变测试程序。英国皇家统计学会期刊A辑。1972;135(2):185–207. [谷歌学者]
- Schemper M,Stare J.解释生存分析中的变异。医学统计学。1996;15:1999–2012.[公共医学][谷歌学者]
- Segal MR.删失数据的回归树。生物计量学。1988;44:35–47. [谷歌学者]
- 夏皮雷RE。助推简介。第十六届国际人工智能联合会议记录(IJCAI 99)1999:1401–1405。 [谷歌学者]
- 歌手JD,Willett JB。模拟我们生活中的日子:在设计和分析事件持续时间和时间的纵向研究时使用生存分析。心理公告。1991;110(2):268. [谷歌学者]
- 歌手JD,Willett JB。应用纵向数据分析。纽约州纽约市:牛津;2003[谷歌学者]
- Stone M.统计预测的选择和评估。英国皇家统计学会期刊B辑。1974;36:111–133. [谷歌学者]
- Strobl C,Malley J,Tutz G.递归分区简介:分类和回归树、套袋和随机森林的合理、应用和特征。心理学方法。2009;14(4):323–348. [PMC免费文章][公共医学][谷歌学者]
- Therneau TM,阿特金森B。包“rpart”:递归分区(R包版本3.1-48)[计算机软件]2010检索自http://cran.r-project.org/web/packages/rpart/index.html。2010年10月15日访问。
- Therneau TM、Grambsch PM、Fleming TR。生存模型的基于鞅的残差。生物特征。1990;77(1):147–160. [谷歌学者]
- 张惠普,歌手B。健康科学中的递归划分。纽约州纽约市:斯普林格;1999[谷歌学者]
- Zhou Y、Kadlec KM、McArdle JJ。夏威夷认知家庭研究中人口统计学和特定认知能力对死亡率的预测。收件人:McArdle JJ,Ritschard G,编辑。探索性数据挖掘中的当代问题。纽约州纽约市:劳特利奇;2014年,第429–449页。[谷歌学者]
- Zosuls KM、Ruble DN、Tamis-LeMonda CS、Shrout PE、Bornstein MH、Greulich FK。婴儿性别标签的获得:性别类型游戏的含义。发展心理学。2009;45(3):688. [PMC免费文章][公共医学][谷歌学者]