RATIONALE AND APPLICATIONS OF SURVIVAL TREE AND SURVIVAL ENSEMBLE METHODS

Yan Zhou; John J. McArdle

doi:10.1007/s11336-014-9413-1

心理测量学。作者手稿；2015年9月3日在PMC上市。

以最终编辑形式发布为：

心理测量学。2015年9月；80(3): 811–833.

2014年9月17日在线发布。数字对象标识：2007年10月10日/11336-014-9413-1

预防性维修识别码：项目经理4409541

NIHMSID公司：NIHMS671225标准

PMID：25228495

生存树和生存集合方法的原理及应用

兖州和约翰·麦卡德尔

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: Zhou&McArdle 2014_补充材料。
NIHMS671225-补充-Zhou__McArdle_2014_补充材料.pdf（43K）
GUID:58DDED0A-0C8F-490D-8B2B-F51F48BDCCB1

摘要

分类和回归树（CART）以及它们的继承者备份和随机森林是越来越受到关注的统计学习工具。然而，由于删失数据收集的特点，标准的CART算法不能立即转移到生存分析的上下文中。关于事件发生和时间的问题在心理学和行为科学中都会出现，特别是在纵向研究中。基于树的方法的预测能力和其他关键特性在事件发生是感兴趣的结果的研究中很有前景。本文回顾了专门为删失响应设计的现有树算法以及最近开发的生存集合方法，并介绍了可用的计算机软件。通过仿真和实例，讨论了这些方法的优点和局限性。为实际使用提供了建议。

关键词：生存树，随机森林，生存分析，统计学习，递归划分

1.简介

生存分析是用于调查事件发生情况的统计方法的一个分支，即事件是否发生以及事件何时发生。生存树和生存集成方法是适用于右感知生存数据的统计学习技术。这些技术的对应物用于更一般的分类和连续结果——分类和回归树（CART；Breiman、Friedman、Olshen和Stone，1984年)，装袋(布雷曼，1996年)和随机森林(布雷曼，2001年)，更为人所知，并具有很好的优点(Strobl、Malley和Tutz，2009年). 人们强烈希望将这些方法应用到生存环境中，因为关于事件发生和时间的问题在心理学和行为科学中都会出现（参见Singer&Willett，1991年,2003)尤其是在纵向研究中。例如，研究酒精滥用过程的研究人员对这种疾病的发病感兴趣(DeWit、Adlaf、Offord和Ogborne，2000年)以及治疗后复发(Mertens、Kline-Simon、Delucchi、Moore和Weisner，2012年). 工业和组织心理学家研究员工流动的速度和时间（例如。，森田、李和莫代伊，1993年). 发展心理学家要求达到发展里程碑，例如获得性别标签的年龄(Zosuls等人，2009年).

树方法的基础在于将预先定义的协变量空间递归二元分割为越来越小的区域，其中包含均匀响应（即因变量）值的观测值。生成的区域称为“节点”，最终分区中的每个集称为“终端节点”或“叶”。递归分区的基本思想首先由Morgan和Sonquist（1963）在他们的开创性工作中自动交互检测（AID），报告人McArdle（2011）作为一种方法，它在CART中被形式化和推广Breiman等人（1984年）.

任何树算法都必须包含两个关键技术特征：（a）生成协变量空间划分的节点分裂规则；以及（b）决定树的最佳大小的停止规则或树“修剪”标准。生存数据的唯一问题是，它们通常没有任何节点内同质性或“杂质”的自然度量，因此很难直接从CART继承“杂质减少”分裂规则。出于同样的原因，不容易定义一个统一的“损失函数”来评估预测值与真实值的偏差所带来的成本。因此，树木的成本复杂性是树木修剪的关键因素(Breiman等人，1984年)，无法计算。虽然已经讨论过从预测准确性或解释方差的角度评估生存模型的拟合质量（参见Schemper&Stare，1996年)它为审查结果提供了可能的损失函数，但没有一种度量被广泛接受。

本文介绍了现有的生存树算法和一些最新开发的生存集合方法，这些方法聚合了大量的生存树。我们首先通过一个实例解释这些方法的基本原理。其次，我们回顾了现有的生存树算法，并通过仿真比较了它们的性能。第三，我们介绍了几种最新的袋装森林和随机森林对幸存者数据的适应性，并通过仿真评估了这些方法的性能。最后，我们对这些方法进行了一般性的讨论，并为其实际应用提供了建议。

2.一个实际例子

我们通过一个简单的例子解释了生存树和生存集合方法的基本原理。数据如所示辛格和威利特的书（2003）和在本书的网站上共享(http://www.ats.ucla.edu/stat/examples/alda/). 这些数据最初由Henning和Frueh（1996）他追踪了194名从中等安全监狱释放的囚犯的犯罪历史。有趣的是，这些前囚犯是否再次被捕，如果是，他们获释后多久（以月为单位）。在为期1天至3年的数据收集期间，106名（54.6%）前囚犯经历了这一事件。研究了三个潜在的预测因素：（a）个人，这是一个二分法变量，表明前囚犯是否有与个人相关的犯罪史（如袭击或绑架）；（b）财产，一个二分法变量，表明前囚犯是否曾因与财产有关的罪行而被定罪；（c）年龄，前囚犯获释时的年龄。

我们通过绘制Kaplan–Meier（KM）生存曲线开始分析，该曲线由三个协变量中的每一个进行分层图1年龄组是通过将年龄排序的样本平均分为四组而形成的。该生存数据集由辛格和威利特（2003），见第14章）使用Cox比例风险模型(考克斯，1972年;考克斯和奥克斯出版社，1984年)结果表明，所有三个协变量都是累犯的显著预测因素（参见表1). 那些之前有过与人有关犯罪的囚犯再次犯罪的风险更大。同样，先前有财产相关犯罪记录的囚犯再次犯罪的风险也较高。此外，如图所示，上一次释放时较年轻的囚犯似乎更有可能再次被捕。更复杂的相互作用没有被研究。

在单独的窗口中打开

图1

累犯案例中每个协变量的卡普兰-迈耶生存曲线。

表1

在分析累犯数据时，比较Cox回归、存活树、套袋和随机存活林。

	Cox回归		生存树（条件推理）		Baggin OOB Brier得分	随机存活森林可变重要性
	参数估计（SE）	危险比（SE）	拆分	组	Baggin OOB Brier得分	随机存活森林可变重要性
个人的	.5691 (.2052)	1.7659(3642)	不	（1）年龄≤31.5岁；	.2142	0222年
财产	.9358 (.3509)	2.5482 (.8941)	是的	（2）年龄>31岁，财产=1；	.2142 .2178	.0222 .0117
	.9358 (.3509)	2.5482 (.8941)	是的	（3）年龄>31岁，财产=0；	.2178	.0117
年龄	−.0667 (.0168)	.9355 (.0157)	是的	（3）年龄>31岁，财产=0；	1991年	.0341

在单独的窗口中打开

表中显示的OOB Brier分数是无协变量的装袋程序的预测误差。所有协变量的OOB Brier得分为.2123。

2.1. 累犯数据的生存树分析

接下来，我们使用生存树方法分析相同的数据。这里我们使用的是Hothorn、Hornik和Zeileis（2006年b）在条件推理框架中图2a显示，从194名前囚犯的整个样本中，第一次分裂是在年龄为31.5岁时，将释放时年龄小于31.5岁的123名囚犯（节点2）与释放时年龄大于该年龄的其他囚犯（节点3）分开。根据财产价值对节点3进行了第二次拆分，这意味着对于释放时年龄超过31.5岁的人，其中51人以前曾犯过财产相关罪行（节点5），与其余20名没有财产相关罪行的囚犯（节点4）分开。因此，原始样本的最终分割结果是分为三组（请参见表1)，每个都由各自终端节点中的Kaplan–Meier估计值表示。

在单独的窗口中打开

图2

通过条件推理生存树划分累犯数据。一(顶部)：树状图；b条协变量空间的矩形划分。

生存树与一般CART有许多共同的特征，如伯克（2008）和Strobl等人（2009年）首先，在树生长过程的每个步骤，任务是找到单个最佳分割-要分割的最佳预测器和该预测器值的最佳切点，这增加了结果节点内的观测（关于响应变量）的同质性。这可以从卡普兰-迈耶曲线的形状中观察到。节点2中的这一组人在上次释放时更年轻，有更高的再犯风险，或者可能更早被重新监禁。其中大多数（约80%）在研究的观察期内未能存活。结果发现，那些最终进入节点4的人的风险较低，其中大多数人在观察期内幸存下来（大约只有20%再次被捕）。在这方面，树具有与判别分析或潜在类分析相似的目标，以识别原始样本的同质子组。

其次，树在实现子分组的方式上与其他方法不同。在大多数情况下，算法以“矩形分区”的形式用于划分协变量空间(Strobl等人，2009年). 如中所示图2b，在两个预测因子的条件下。在本例中，囚犯根据AGE值和PROPERTY中的类别进行分组。在这种方法中，不允许基于预测值的线性组合进行拆分。

第三，树的结构可以暗示预测因子之间的相互作用。在AGE上第一次拆分后，左侧节点2不再进一步拆分，而右侧节点3在PROPERTY上再次拆分。这表明AGE和PROPERTY之间存在相互作用——PROPERTY的效果取决于前囚犯最后获释时的年龄。对于这些31.5岁以下的人，无论他们是否有与财产有关的犯罪史，他们的风险都很高，但对于那些年龄在31.5岁以上的人来说，没有以前的与财产有关犯罪记录预示着风险较低。

最后，协变量PERSONAL没有出现在树中，这意味着它没有被选为预测器。在树方法中，并非所有进入程序的协变量都会出现在最终模型中。只有在计算的某个步骤中分裂得最好的协变量，同时满足特定的标准，才能提高树的整体性能（对于条件推理树第页值）。请注意，在Cox回归中，尽管PERSONAL的影响弱于PROPERTY，但其在统计上也很显著。

2.2. 累犯数据的打包应用

接下来，我们对累犯数据应用“打包”程序。术语“打包”由布雷曼（1996）作为“引导聚合”（bootstrap aggregation）的缩写，它是一个在多个（未运行的）单树上聚合的过程，每个树都来自数据的引导样本。该算法最初由发明布雷曼（1996）克服单株树的不稳定性和过拟合问题。在此过程中，可以使用引导样本中未包含的观测值（称为“带外”观测值，OOB）来计算更真实的预测误差度量。

这里使用的bagging算法是为了生存结果而设计的Hothorn、Lausen、Benner和Radespiel-Tröger（2004）。预测误差由综合Brier分数索引(格拉芙、施穆尔、索尔布雷和舒马赫，1999年)测量观察结果和估计生存概率之间的平均差异。我们首先在装袋过程中使用所有三个协变量，然后每次排除其中一个协变量。抽取了100个引导样本。所有三个协变量的OOB-Brier得分均为.2123，排除协变量PERSONAL时为.2142，排除协变量PROPERTY时为.2178，排除协变量AGE时为.1991（见表1). 删除个人或财产后，预测误差略有增加。令人惊讶的是，去除预测因子AGE降低了预测因子误差。

2.3. 随机生存森林在累犯数据中的应用

现在我们将随机生存森林应用于累犯数据。我们使用的程序由Ishwaran、Kogalur、Blackstone和Lauer（2008）它直接改编自最初为随机森林制定的处方布雷曼（2003a,2003年3月). 随机森林为装袋过程增加了一个额外的步骤——在构建每棵树的过程中，在分割每个节点之前随机选择预先指定的较少数量的预测因子，并在减少的预测因子集中搜索分割变量。算法由Ishwaran等人（2008）使用哈雷尔的一致性指数（C指数；加利福尼亚州哈雷尔、普莱尔、李和罗萨蒂，1982年)作为生存数据预测误差的度量。该统计是对概率的估计，即在随机选择的两种情况下，成功预测发生的事件序列（因此预测误差为1-C）。

在该应用程序中，生成了1000个引导样本。计算（或“生长”）存活树时使用的分裂规则基于对数秩统计(曼特尔，1966年;佩托和佩托，1972年)，用于比较两个样本的生存曲线的检验统计量。为每次拆分随机选择的预测因子数量设置为两个。该程序的OOB错误率为37.48%，优于50%的随机猜测，表明这三个协变量可以预测累犯。在图3左图显示，错误率稳定在400棵树左右。右图将三个协变量的变量重要性度量从高到低排序（它们的值显示在表1). 它表明年龄是最强的预测因素，个人似乎比财产更重要。

在单独的窗口中打开

图3

生存林错误率稳定(左边)和可变重要性图(正确的).

2.4. 结果的比较

在四种图示方法中，处理该问题的重点有很大不同。考克斯回归基于假设检验检验每个协变量的影响，存活树侧重于分类，袋装林和随机存活林侧重于预测。生存树和生存集合方法的结果似乎补充了传统生存分析的结果（即Cox回归）。然而，在某些时候，他们彼此不同意；bagging表明AGE不能预测累犯，生存树表明AGE和财产之间似乎存在交互作用。所以问题出现了，生存树和生存集合方法的可信度如何？

问题的答案首先取决于这些算法的性能。以生存树为例，图4树是由不同的生存树算法产生的，其分割规则由勒布朗和克劳利（1992）。停止规则是，一个节点中必须存在至少60个观测值才能尝试拆分，并且任何终端节点中必须至少存在20个观测值。第一次拆分仍在AGE上，为31.5，但进一步拆分与中的上一棵树不同图2，这将导致对样本进行不同的分类。在下一节中，我们将回顾现有的生存树算法。我们将在后面的章节中重新讨论累犯的例子。

在单独的窗口中打开

图4

累犯数据的树形图采用不同的生存树算法。

3.生存树算法简介

据报道，首次尝试在审查数据的背景下调整CART算法的是Gordon和Olshen（1985）自那时以来，已经提出了十多种生存树算法，尽管只有少数算法在公开可用的软件中实现。我们在中总结了这些算法的主要特征表2.

表2

已发布生存树算法摘要。

作者	拆分规则	修剪规则	实施
Gordon和Olshen（1985）	杂质（根据KM曲线具体定义）减少	成本复杂性修剪和交叉验证	街道
Ciampi、Thiffault、Nakache和Asselain（1986年）	对数秩检验统计量	Akaike信息准则（AIC）	STREE中实现的拆分标准
西格尔（1988）	对数秩检验统计量	无法使用的	STREE中实现的拆分标准
巴特勒、吉尔平、戈登和奥尔森（1989）戴维斯和安德森（1989）	对数库检验统计量指数对数似然	节点内度量成本复杂性修剪
Therneau、Grambsch和Fleming（1990年）	鞅残差	成本复杂性修剪和交叉验证
勒布朗和克劳利（1992）	完全可能性的第一步	成本复杂性修剪和交叉验证	在R包“rpart”中实现的拆分标准STREE也有一个稍微修改的版本。
勒布朗和克劳利（1993）	对数秩检验统计量	重新采样和排列
Intrator和Kooperberg（1995）	对数秩检验统计量	成本复杂性修剪
张和辛格（1999）	死亡指标杂质和时间杂质的加权组合	成本复杂性修剪
布雷曼（2002）	概率.75按时间分割，概率.25按协变量分割	N/A（嵌入生存森林算法中）	布雷曼（2003a,2003年3月)
Molinaro、Dudoit和van der Laan（2004年）	截尾加权（IPCW）损失函数的逆概率	成本复杂性修剪和交叉验证	通过提供IPCW权重使用R包“rpart”
Hothorn等人（2006b）	最小值第页价值	否时停止第页值低于预先指定的a级	R套餐“派对”

在单独的窗口中打开

Molinaro等人（2004年）指出生存树算法可以根据其使用的节点内同质性或节点间异质性度量分为两类。第一类算法继承了CART的基本基础，即它们依赖于分裂规则来优化基于损失的节点内同质性标准，并使用成本复杂性修剪和交叉验证来从候选树序列中选择一棵最优大小的树。他们对损失函数的定义不同。Gordon和Olshen（1985）通过定义三种可能的生存曲线形状（基于Kaplan–Meier计算），在删失数据的背景下创建了节点杂质的度量，这些曲线被视为“纯”，然后节点杂质是节点内生存曲线与三条纯曲线中任何一条曲线的偏差。戴维斯和安德森（1989）基于负对数似然的分裂函数，同时假设基线风险函数为指数模型。Therneau等人（1990年）建议使用鞅残差，这允许直接将CART应用于生存结果。勒布朗和克劳利（1992）使用了完全似然估计程序的第一步，假设风险模型成比例。张（描述于张艺谋与歌手1999)提出了一种更直接的方法，将节点杂质定义为二进制死亡指示符杂质（即是否发生死亡的虚拟变量）和持续时间杂质的加权组合。Molinaro等人（2004年）认为现有的生存树方法都是基于处理删失数据的便利性而选择分裂和剪枝准则，并没有沦为未删失的数据的首选。为了解决这个问题，他们提出了一种统一的方法，定义了截尾加权（IPCW）损失函数的逆概率。

在第二类生存树算法中，两样本log-rank检验统计量主要用作节点间异质性度量。这种基于分裂和修剪的替代思想的方法被认为明显偏离了标准树方法(Molinaro等人，2004年).Ciampi等人（1986年）和西格尔（1988）是最早采取这种方法的。然而，Segal的算法并没有提供选择树大小的解决方案。Intrator和Kooperberg（1995）被改进的西格尔（1988）算法通过增加成本复杂度修剪。算法由Ciampi等人（1986年）使用Akaike信息准则（AIC）来选择与对数似然性密切相关的树大小，通过添加基于参数数量的惩罚。该方法假设AIC和交叉验证的渐近等价性，根据斯通（1974）.勒布朗和克劳利（1993）批评说，在这种特定的环境下，这种对等不太可能成立。相反，他们使用了与CART剪枝过程类似的具有最佳特性的剪枝算法，并使用重采样和置换技术来选择树的大小。Butler等人（1989）也使用log-rank测试统计数据进行拆分，但他们使用节点内度量来修剪和选择树大小。

最近，Hothorn等人（2006b）提出了一种递归划分的条件推理置换测试方法。基于置换测试理论，它使用第页值作为分割标准（即要求分割最小值第页值），并作为停止标准（即，在否时停止第页值低于预先指定的α-level），因此不依赖修剪程序来选择树的大小。他们表明，该算法克服了对具有许多可能分裂或缺失值的预测因子的选择偏差，这是CART方法中的一个基本问题。对于截尾响应的特殊情况，他们建议在计算中选择对数秩或萨维奇分数，然后进行单变量连续回归。

3.1. 可用的计算机软件

尽管已经提出了许多生存树算法，但只有少数算法得到了实现和提供，并且（最重要的）方便了实际研究人员的使用。两个R附加包-“rpart”(Therneau和Atkinson，2010年)和“派对”(Hothorn、Hornik、Strobl和Zeileis，2010年)为存活树提供实现。特别是，“rpart”使用拆分规则勒布朗和克劳利（1992），用户可以选择两个参数“minsplit”和“minbucket”的值以获得理想的树大小。“minspit”表示节点中要尝试拆分的最小观察数，“minbucket”表示任何终端节点中的最小观察值。“Party”通过以下方式实现条件推理程序Hothorn等人（2006b）。用户可以选择“mincriteria”的参数值（即1−α)选择树大小，但其他两个参数“minsplit”和“minbucket”也可用。Hothorn和Zeileis（2012）后来提供了一个工具包“partykit”，该工具包可以将使用“rpart”拟合的树转换为与使用“party”拟合的树共享相同功能的树，从而可以以标准化的方式可视化树结构。在我们的插图中，安装在“rpart”中的树都被转换并绘制为“party”树。

除此之外，张还根据张和辛格（1999）它实现了五个可选的划分标准：（a）似然性，（b）对数秩，（c）Gordon–Olshen，（d）自适应归一化，和（e）全局归一化。似然分裂准则基于勒布朗和克劳利（1992）方法稍作修改。日志库拆分来自Ciampi等人（1986年）和西格尔（1988）Gordon–Olshen方法，顾名思义，基于Gordon和Olshen的1985年文章。目前尚不清楚自适应归一化和全局归一化方法是如何工作的（这两种方法在书中似乎没有描述）。似乎类似的修剪程序遵循所有五个分割标准。

3.2. 评估生存树算法

接下来，我们通过模拟数据测试和比较三个生存树程序——（a）Zhang的STREE独立程序，（b）“rpart”包（在R中）和（c）“party”包（R中）。我们使用“rpart”（minsplit=20和minbucket=7）和“party”（mincriteria=.95、minsplit=20和minbudge=7）中的默认设置来确定树的大小。

这里假设真正的模型是一个简单的树结构。生存数据的设置与勒布朗和克劳利（1993）,Keles和Segal（2002），以及Hothorn等人（2004）生存时间按指数分布和条件生存分布S公司(z（z）|x个)=经验（−zΦ_x个)，带有危害的对数ϑ_x个=日志(Φ_x个). 两个独立预测因子X（X）₁和X（X）₂定义为在[0,1]上均匀分布。指定了两个树结构(图5a、b)，该模型可以用代数形式表示为：

ϑ_x个= 我(X（X）₁ > .6);

1a个

ϑ_x个= 我(X（X）₁ > .6) + 我(X（X）₁ ≤ .6 ∩ X（X）₂ > .4).

1亿

简单地说，我们在这个模拟中假设了零审查。样本大小设置为N个=200，接近累犯示例中的样本量194。

在单独的窗口中打开

图5

模拟中的真实树状结构。一个(顶部):型号1a; 5亿(底部):型号1b.

型号1a被“一方”成功识别（树图图6a)，拆分为X（X）₁由于随机误差，第572点略微偏离0.6点。“rpart”返回了一棵树(图6b)这比需要的要大得多，但我们注意到第一次拆分（0.617）是正确的。似然法、log-rank法、自适应归一化法和全局归一化方法都有类似的问题——它们能够正确地找到第一个分裂，但即使在修剪之后，树的大小仍然过大（“过盈”问题）。Gordon–Olshen方法未能找到正确的第一次分裂。

在单独的窗口中打开

在单独的窗口中打开

图6

模拟的生存树结果型号1a和型号1b.6a条(顶部)：的“参与方”结果型号1a; 第6页(底部)：的“rpart”结果型号1a; 第6页c(顶部)：的“聚会”结果型号1b; 6天(底部)：的“rpart”结果型号1b.

对于型号1b如果树中存在两个拆分，则“party”会正确拆分数据（请参见图6c)尽管拆分变量的顺序与图5b注意危险参数ϑ_x个协变量空间为零，其中X（X）₁≤0.6和X（X）₂≤0.4，其余一棵树。两棵树都反映了这个分区。“rpart”确定了协变量空间，其中ϑ_x个为零，但过盈问题仍然存在(图6d). 可能性、Gordon–Olshen、自适应归一化、全局归一化和对数库方法也出现了同样的问题，所有这些都会产生额外的不必要的分裂。

这两个简单的实验表明，在“party”中实现的条件推理生存树优于其他生存树算法，其主要问题在于树修剪的无效性，并且该问题会导致数据的过拟合和错误解释。然而，这并不否认这些方法的价值，稍后将讨论，这些方法在聚集在一棵完全生长的存活树上的存活集合中（即不修剪）。

4.救生数据打包

在解决单株树的不稳定性问题时(伯克，2008;Strobl等人，2009年)袋装的一般原则也适用于生存环境，但程序需要一些技术调整。Hothorn等人（2004）提出了一种套袋成活树的方法。与分类（终端节点中的多数投票）或回归（终端节点的平均响应）问题中点值的平均值不同，它们使用条件生存概率函数作为预测结果。具体来说，对于一个新的观测值，其生存概率函数的估计是基于具有“相近”协变量值的观测值的，也就是说，与新观测值本身属于同一生存树叶子的观测值。然后，根据从所有自举样本中聚合的“密切”观测值计算单个卡普兰–迈耶曲线，作为新观测的估计结果。“rpart”用于构建存活树，但有人建议可以使用任意的树生长算法来进行此装袋过程(Hothorn等人，2004年).

Hothorn等人（2004）使用综合Brier分数(Graf等人，1999年)作为预测优度的指标。他们通过模拟表明，套袋生存树在预测精度方面比单棵生存树有所提高，并且在较少的删失下，这种提高更为显著。他们还表明，当非信息协变量的数量增加时，套袋的预测性能几乎不受影响，表明它对数据中的噪声具有鲁棒性。

4.1. 可用的计算机软件

“party”包cforest（）中的一个函数实现了对生存树进行打包，只需将每个节点（mtry参数）计算的变量数量固定为可用的预测器数量。该装袋程序也已在R包“ipred”中实施(Peters、Hothorn、Ripley、Therneau和Atkinson，2009年). 用户可以选择要绘制的引导样本数（即树数）。除了bootstrap采样之外，还有其他可选的采样方法。可以获得新观测值的Kaplan–Meier估计值。在实际应用中，由于装袋过程中涉及随机抽样，Brier分数会因试验而异。通过检查试验结果的接近程度，用户可以了解稳定性达到了什么程度，并决定是否需要更多的树。

5.生存数据的随机森林

随机森林算法已通过以下方式适应生存响应布雷曼（2002）,2003年a,2003年3月),Hothorn、Bühlmann、Dudoit、Molinaro和van der Laan（2006年a），以及Ishwaran等人（2008年）.

布雷曼（2002）,2003年a,2003年3月)在他最后几年的工作中开发了他所称的“生存森林”。与其他所有算法不同，在构建生存树时，他划分了时间协变量空间，而不仅仅是协变量空间。特别是，分解为时间的概率为0.75，分解为一个协变量的概率为0.25。在节点的时间分割中，原始节点中的所有情况都在每个子节点中。分裂标准是增加观测数据的对数似然，假设每个节点内的风险模型是恒定的。树会一直生长，直到每个终端节点中只有一个未经检测的观测值。预测值是生存概率函数。布雷曼（2002）证明该程序在各种数据集中优于Cox回归，尤其是在Cox回归忽略了仅在有限时间内相关的预测因素的情况下（违反比例风险假设）。然而，他也指出，这种方法“仍在诞生，需要更多的测试、使用和扩展”(布雷曼，2002年).

Hothorn等人（2006年a）提出了一种基于加权方案的生存数据随机森林算法。观测值由截尾逆概率（IPC）权重加权，该权重定义了在自举抽样中选择观测值的概率。这与中使用的想法类似Molinaro等人（2004年）生存树算法。预测值是对数生存时间的加权平均值，因此剩余平方和可用于测量预测误差。这种方法的性能似乎取决于审查率。在审查率较高的情况下，该方法可能存在问题（如Ishwaran等人，2008年)，可能是因为，根据定义，截尾观测的权重为零，这意味着在构建树时根本不使用截尾观测。然而，当观察到大多数事件时，它似乎工作得很好（如所示Hothorn等人2006a).

Ishwaran等人（2008）开发了一种适应标准随机森林的“随机存活森林”方法(布雷曼，2003a,2003年3月)生存反应。在构建生存树时有四种可选的分割规则：对数-库分割、事件对话原则、对数-库得分（标准化对数-库统计）分割和随机对数-库分裂(Ishwaran等人，2008年). 在终端节点应至少有一个死亡的约束下，树将生长为完整大小。预测值为死亡率，由累积危险函数（CHF）得出。哈雷尔一致性指数（C指数；Harrell等人，1982年)用作预测性能的度量。与标准随机森林一样，可以为每个预测器计算一个变量重要性度量，它定义为原始预测误差减去通过随机化该预测器中的值而获得的预测误差，前提是森林不变。应用于经验数据集(Ishwaran等人，2008年)，该方法已被证明对数据中的删失和噪声变量具有鲁棒性。

5.1. 可用的计算机软件

生存森林算法布雷曼（2002）在他的网站上提供(http://www.stat.berkeley.edu网站/~breiman/sf.html)，作为用Fortran 77编写的自由软件。它还没有与他的其他数据挖掘技术一起嵌入到用户友好的商业软件中。森林算法Hothorn等人（2006年a）似乎没有在公开可用的程序中实现。随机生存森林算法在R包“randomSurvivalForest”中实现(Ishwaran&Kogalur，2010年). 用户可以在生长存活树的四个分割规则中选择一个，并可以选择“ntree”（树的数量）和“mtry”（为每个分割随机选择的协变量的数量）的值。变量重要性的计算是可用的，还有一个插补程序用于处理缺失数据，如Ishwaran等人（2008）.

6.评估存活树、袋装林和随机存活林

接下来我们比较四种方法：（a）Cox回归，（b）套袋存活树(Hothorn等人，2004年)，（c）随机存活森林(Ishwaran等人，2008年)，和（d）条件推理生存树(Hothorn等人，2006年b)通过在不同水平上操纵审查率的模拟数据。

生存时间的模拟方法与之前的设置相同，但这里的审查率控制在大约25%、50%和75%。我们假设观测时间均匀分布在[0，γ]. 对于任何观察，如果观察时间短于生存时间，结果将被审查。审查参数的值γ每个试验中使用的药物列于表3.

表3

审查参数的值γ用于仿真。

设置	审查率
	25%	50%	75%
2a个	2	.65	.17
2亿	.55	.16	.05

在单独的窗口中打开

与之前的设置类似，有两个独立的预测因子X（X）₁和X（X）₂在[0，1]上均匀分布。样本大小为N个= 200. 真正的模型是：

ϑ_x个= X（X）₁我(X（X）₁ ≤ .7) + 3X（X）₁我(X（X）₁ > .7);

2a个

ϑ_x个= 3X（X）₁+ X（X）₂+ X（X）₁X（X）₂.

2亿

型号2a是样条回归，其中X（X）₁当其超过0.7时，其影响是原来的三倍。型号2b包括对协变量和相互作用的主要影响。在拟合Cox回归时，X（X）₁,X（X）₂并考察了它们的乘积项。在每个装袋程序中抽取100个引导样本。对于随机存活森林，我们选择对数-库分裂规则来生长存活树。每片森林种植了500棵树，每片森林随机选择一个变量。结果显示于表4.

表4

模拟中Cox回归、套袋和随机存活森林的结果。

	Cox回归参数估计（SE）	Bagging OOB Brier得分	随机生存森林重要性可变
2a个
25%审查		两者均=.1522	错误率=32.31%
X（X）₁	3.56 (.70)	.1892	.2014
X（X）₂	.51 (.68)	.147	−.0110
X（X）₁X（X）₂	−.94 (1.14)	–	–
50%审查		两者均=.1696	错误率=28.86%
X（X）₁	2.90 (.89)	.2357	.2416
X（X）₂	−1.36（1.02）	.1664	.0079
X（X）₁X（X）₂	1.64 (1.49)	–	–
75%审查		两者均=.1306	错误率=30.39%
X（X）	5.38 (1.38)	.1998	.3224
X（X）₂	1.51 (1.64)	.1236	−.0246
X（X）₁X（X）₂	−2.28 (2.16)	–	–
2亿
25%审查		两者均=.1069	错误率=24.65%
X（X）₁	3.86 (.72)	.1719	.1436
X（X）₂	1.79 (.71)	.1336	.0221
X（X）₁X（X）₂	.31（1.07）	–	–
50%审查		两者均为0.1533	错误率=26.88%
X（X）₁	2.81 (.90)	.2127	.1849
X（X）₂	.08 (.98)	.1572	.0015
X（X）₁X（X）₂	1.65 (1.43)	–	–
75%审查		两者均为0.1476	错误率=29.58%
X（X）₁	2.43 (1.43)	.186	.1258
X（X）₂	.78 (1.54)	.1483	.0117
X（X）₁X（X）₂	1.31 (2.13)	–	–

在单独的窗口中打开

表中显示的OOB Brier分数是无协变量的装袋程序的预测误差。

对于型号2a，Cox回归确定X（X）₁作为所有三级审查中唯一的显著预测因子。但X（X）₁被高估了，尤其是在审查率很高（75%）的情况下。这不难解释，因为在目前的环境下，受审查的观察结果更多是那些危险性较低的，而那些危险性较小的X（X）₁值。如果没有这些观察结果X（X）₁系数趋于偏高。装袋表明X（X）₁导致所有审查级别的错误率更高，同时删除X（X）₂稍微降低了错误率。因此，装袋正确地反映了X（X）₁和琐碎X（X）₂在预测生存结果时，该方法的有效性似乎不受审查率的影响。随机存活森林也同样成功，森林的总体预测误差不受审查的影响。

对于型号2b，Cox回归没有足够的能力检测相互作用，并且随着审查率的增加，这两个主要影响也变得微不足道。相比之下，bagging显示，如果删除其中一个预测因子，预测误差就会增加，这表明这两个预测因子都可以预测结果。对于较弱的预测器X（X）₂当截尾率达到50%或更高时，预测误差变化很小。类似地，随机存活森林表明，变量重要性度量对于X（X）₁任何时候，但对于X（X）₂在50%和75%的审查水平。随着审查率的增加，总体预测误差趋于上升。

就树木结果而言，存活树木似乎对回归系数的变化很敏感型号2a-他们都在附近发现了裂缝图7a–c). 对于型号2b，树检测到所有三个审查级别的交互(图7d–f)尽管随着审查率的增加，分割的数量减少了。

在单独的窗口中打开

在单独的窗口中打开

图7

模拟的条件推理生存树型号2a和型号2b.7安(顶部):型号2a25%审查；7亿(左下角):型号2a，50%审查；第7页c(右下角):型号2a75%审查；7天(顶部):型号2b25%审查；第7页(底部):型号2b，50%审查；第7页：型号2b，75%的审查。

总之，模拟显示了两种Cox回归可能存在问题的情况：（a）当删失与解释变量相关时，它可能会有偏差；（b）高删失率显著影响统计能力。相比之下，袋装林和随机存活林似乎较少受到审查的影响。存活树有助于检测非线性关系的变化以及检测相互作用。

6.1. 重审累犯案例

然后，我们可以返回累犯数据，重新考虑不同方法获得的结果。第一个混淆是关于AGE的影响，除装袋外，所有方法都认为AGE是一个重要的预测因子。考虑到对型号2b影响X（X）₂当审查率为50%或75%时，几乎无法检测到。去除AGE后预测误差的减少可能是袋装程序中嵌入的随机抽样的结果。对于Cox回归，似乎没有明显违反模型假设的证据（即比例风险；参见图1)，因此我们可以相信Cox回归的结果是可靠的。此外，随机存活森林也将AGE确定为最重要的预测因子；在存活树中，AGE是第一个分裂的变量。因此，我们可以得出结论，AGE确实对再次逮捕的风险有影响，在这个例子中，装袋产生的结果似乎具有误导性。

我们通过模拟表明，样本大小相似(N个=200）和类似的审查率（50%），Cox回归可能没有足够的能力检测交互作用。生存树在累犯示例中提出了一种交互作用，但鉴于其探索性，在这里无法得出这样的结论。同样，AGE的影响可能是非线性的。探索性数据挖掘中的这些线索可以在未来的研究中加以检验。

7.讨论

7.1. 现有方法审查

在生存树算法中，由Hothorn等人（2006b）看起来更可靠，越限的可能性更小，这似乎是其他生存树算法的一个主要问题。然而，对于以预测为主要目标的生存集合方法，大多数生存树算法的过拟合问题变得不那么重要，因为这里使用的集合方法通常在大树（或未修剪的树）上聚合。对于集成方法的生存树算法的选择似乎没有进行过专门的研究，除了随机生存森林Ishwaran等人（2008）他表示，四种可选的树拆分规则都相当不错。

生存系综方法是最近才提出的，目前仍处于发展阶段。除上述方法外，Hothorn等人（2006年a）受另一种强大的统计学习设备boosting的启发，还开发了一种通用的梯度boosting算法(夏皮雷，1999). 它们仅通过有限数量的模拟和实际数据集进行了测试，潜在的缺陷仍可能被发现。例如，在累犯的例子中，基于bagging方法对协变量AGE的解释会产生误导(Hothorn等人，2004年). 在实际的实质性应用中(Zhou、Kadlec和McArdle，2014年)，作者发现了一种情况(Ishwaran等人，2008年)似乎失败了，例如，只有一个预测因子具有两个类别。在某些条件下，这些方法可能表现良好，在某些条件中，这些方法满足其极限。这些目前仍不清楚，需要在未来进行更多调查。此外，还存在一些模糊性，例如变量重要性值应该多大才能被判断为有意义的预测值。Strobl等人（2009年）建议采用保守策略，只包括重要性得分超过最大负分数幅度的预测因子，而Ishwaran等人（2008）向数据集添加噪声变量并将其用作参考变量。这也需要进一步调查。

7.2. 实际使用建议

正确解释结果是使用生存树方法的关键。由于这些方法相对不成熟，用户对这些过程有基本的了解似乎很重要。意识到它们的缺点和局限性可以避免做出误导性的陈述。这并不是要阻止使用存活树和集合，相反，我们建议使用它们，而是与其他传统方法结合使用。Cox回归在生存数据分析中非常流行，但它在各种情况下都有局限性(布雷曼，2002年)，并且在实践中经常在没有严格性的情况下使用（即，未仔细检查比例风险假设）。另一方面，我们不应该对数据挖掘过于乐观。如所示Ishwaran等人（2008）在一些数据集上，探索性方法的预测精度并不优于Cox回归，这表明这些方法的优越性并不总是显而易见的，只有在传统方法满足其局限性的情况下才会显现出来。但是，将它们作为补充工具使用从来都不会有什么坏处，使用它们可以从数据中获得常规生存分析无法获得的额外信息。

在几种条件下，存活的森林可以提供特别丰富的信息。首先，最典型的情况是当我们有大量预测因素和小样本时，Cox回归受到低统计能力的限制。此外，如果没有明确的理论或假设可用于仅测试少数特定协变量，那么在模型中包括所有主要影响以及高阶交互作用项似乎是不切实际的。相反，存活森林不受统计能力的限制，在检测相互作用方面具有优势。第二，Ishwaran等人（2008）结果表明，Cox回归的预测误差随着不相关协变量数量的增加而增加，而随机森林对数据中的噪声变量具有鲁棒性。第三，在违反比例风险假设的情况下，例如，当相关预测值的影响只存在有限的时间段时，该预测值可能被忽略(布雷曼，2002年)通过考克斯回归。生存树对比例风险假设不敏感（除非分割规则基于该假设）。第四，Cox回归的性能取决于审查率。我们发现，在审查率较高的情况下，当预测者负责审查时，Cox回归可能会产生有偏的结果。审查也可能严重影响Cox回归的统计能力。随机森林似乎不太受审查率的影响。

当目标是预测时，这些统计学习技术处于最佳状态。它们可以响应其他传统方法可能遗漏的数据特征，但这些特征仅反映在预测精度的提高上。当问题是预测因素如何与结果相关时，这些方法就像一个黑匣子。还请注意，从这些探索性方法得出的结论没有得到概率基础的支持，而概率基础作为假设检验范式的基础，仍然是该领域的核心科学要素。如果研究问题是正式证明预测器与结果的关系，即测试特定的先验理论，那么这些方法无法替代长期建立的可测试模型。

补充材料

Zhou&McArdle 2014_补充材料

单击此处查看。^{（43K，pdf格式）}

致谢

本研究得到了国家科学基金会SES-1124283的支持。我们感谢David Elashoff（加州大学洛杉矶分校）对这项工作早期草案的评论。

脚注

电子辅助材料本文的在线版本（doi:10.1007/s11336-014-9413-1）包含补充材料，可供授权用户使用。

参与者信息

兖州，加利福尼亚大学，洛杉矶。

John J.McArdle，南加州大学。

工具书类

伯克RA。从回归的角度进行统计学习。纽约州纽约市：斯普林格；2008[谷歌学者]
Breiman L.Bagging预测因子。机器学习。1996;24:123–140. [谷歌学者]
布雷曼L.随机森林。机器学习。2001;45:5–32. [谷歌学者]
布雷曼L。面向大众的软件。加利福尼亚大学统计系；伯克利：2002年。检索自http://www.stat.berkeley.edu网站/~breiman/wald2002-3.pdf。2014年7月1日查阅。[谷歌学者]
布雷曼L。如何使用生存森林。加利福尼亚大学统计系；伯克利：2003a。检索自http://www.stat.berkeley.edu网站/~breiman/SF_手册.pdf。2014年7月1日查阅。[谷歌学者]
布雷曼L。手动设置、使用和理解随机森林V4.0。2003年3月检索自http://www.stat.berkeley.edu网站/~breiman/Using_random_forests_v4.0.pdf。2014年7月1日查阅。
Breiman L、Friedman JH、Olshen R、Stone CJ。分类和回归树。纽约州纽约市：查普曼和霍尔；1984[谷歌学者]
Butler J、Gilpin E、Gordon L、Olshen R。树结构生存分析2。斯坦福大学生物统计系；1989年（技术报告）。[谷歌学者]
Ciampi A，Thiffault J，Nakache JP，Asselain B。通过逐步回归、对应分析和递归分割进行分层：对具有协变量的生存数据的三种分析方法的比较。计算统计与数据分析。1986;4:185–204. [谷歌学者]
Cox DR.回归模型和生命表。英国皇家统计学会期刊B辑。1972;34（2）：187–220。 [谷歌学者]
Cox DR、Oakes D。生存数据分析。伦敦：查普曼和霍尔；1984[谷歌学者]
Davis R，Anderson J.指数生存树。医学统计学。1989;8:947–961.[公共医学][谷歌学者]
DeWit DJ、Adlaf EM、Offord DR、Ogborne AC。首次饮酒年龄：酒精障碍发生的风险因素。美国精神病学杂志。2000;157(5):745–750.[公共医学][谷歌学者]
Gordon L，Olshen RA。树结构生存分析。癌症治疗报告。1985;69:1065–1069.[公共医学][谷歌学者]
Graf E，Schmoor C，Sauerbrei W，Schumacher M。生存数据预后分类方案的评估和比较。医学统计学。1999;18:2529–2545.[公共医学][谷歌学者]
Harrell F、Calif R、Pryor D、Lee K、Rosati R。评估医疗测试的结果。美国医学会杂志。1982;247:2543–2546.[公共医学][谷歌学者]
Henning KR，不列颠哥伦比亚省弗鲁厄。被监禁罪犯的认知行为治疗：对佛蒙特州惩教部认知自我改变计划的评估。刑事司法与行为。1996;23：523–541。 [谷歌学者]
Hothorn T、Bühlmann P、Dudoit S、Molinaro A、van der Laan MJ。生存合奏。生物统计学。2006年a；7(3):355–373.[公共医学][谷歌学者]
Hothorn T、Hornik K、Strobl C、Zeileis A。包“一方”：递归部分（y）定位实验室（R包0.9-9997版）[计算机软件]2010检索自http://cran.r-project.org/web/packages/party/index.html。2010年10月15日访问。
Hothorn T，Hornik K，Zeileis A.无偏递归划分：条件推理框架。计算与图形统计杂志。2006年b；15:651–674. [谷歌学者]
Hothorn T、Lausen B、Benner A、Radespiel-Tröger M.打包存活树木。医学统计学。2004;23：77–91。[公共医学][谷歌学者]
Hothorn T，Zeileis A。包“partykit”：递归Partytioning的工具包（R包版本0.1-6）[计算机软件]2012检索自http://cran.r-project.org/web/packages/partykit/index.html。2013年9月3日访问。
Intrator O，Kooperberg C.生存分析中的树和样条曲线。医学研究中的统计方法。1995;4(3):237–261.[公共医学][谷歌学者]
Ishwaran H，科加勒尔UB。“randomSurvivalForest”包：随机生存林。（R包版本3.6.3）[计算机软件]2010检索自http://cran.r-project.org/web/packages/randomSurvivalForest/index.html。2010年10月15日访问。
Ishwaran H、Kogalur UB、Blackstone EH、Lauer MS。随机生存森林。应用统计学年鉴。2008年；2(3):841–860. [谷歌学者]
KelešS，Segal MR.基于残差的树结构生存分析。医学统计学。2002;21:313–326.[公共医学][谷歌学者]
LeBlanc M，Crowley J.截尾生存数据的相对风险树。生物计量学。1992;48:411–425.[公共医学][谷歌学者]
LeBlanc M，Crowley J.通过分裂的好处生存树木。美国统计协会杂志。1993;88:457–467. [谷歌学者]
Mantel N.生存数据的评估及其考虑中出现的两个新的秩序统计。癌症化疗报告。1966;50(3):163–170.[公共医学][谷歌学者]
Mertens JR、Kline-Simon AH、Delucchi KL、Moore C、Weisner CM。私人酒精和药物门诊治疗缓解的十年稳定性：非问题使用者与戒除者。药物和酒精依赖。2012年；125(1):67–74. [PMC免费文章][公共医学][谷歌学者]
麦卡德尔JJ。在行为科学中使用CART进行探索性数据挖掘。作者：库珀·H、卡米克·P、朗·D、潘特·AT、林德斯科普夫·D、谢尔·K，编辑。APA心理学研究方法手册。华盛顿特区：美国心理协会；2011[谷歌学者]
Molinaro AM、Dudoit S、van der Laan MJ。基于树的多元回归和右偏数据密度估计。多元分析杂志。2004;90:154–177. [谷歌学者]
摩根·JN，Sonquist JA。调查数据分析中存在的问题及建议。美国统计协会杂志。1963;58:415–434. [谷歌学者]
Morita JG，Lee TW，Mowday RT。生存分析的回归模拟：离职研究的选择性应用。《管理学会杂志》。1993;36(6):1430–1464. [谷歌学者]
Peters A、Hothorn T、Ripley BD、Therneau T、Atkinson B。“ipred”包：改进的预测器。（R包版本0.9-3）[计算机软件]2009检索自http://cran.r-project.org/web/packages/ipred/index.html。2014年7月1日查阅。
Peto R，Peto J.渐近有效秩不变测试程序。英国皇家统计学会期刊A辑。1972;135(2):185–207. [谷歌学者]
Schemper M，Stare J.解释生存分析中的变异。医学统计学。1996;15:1999–2012.[公共医学][谷歌学者]
Segal MR.删失数据的回归树。生物计量学。1988;44:35–47. [谷歌学者]
夏皮雷RE。助推简介。第十六届国际人工智能联合会议记录（IJCAI 99）1999:1401–1405。 [谷歌学者]
歌手JD，Willett JB。模拟我们生活中的日子：在设计和分析事件持续时间和时间的纵向研究时使用生存分析。心理公告。1991;110(2):268. [谷歌学者]
歌手JD，Willett JB。应用纵向数据分析。纽约州纽约市：牛津；2003[谷歌学者]
Stone M.统计预测的选择和评估。英国皇家统计学会期刊B辑。1974;36:111–133. [谷歌学者]
Strobl C，Malley J，Tutz G.递归分区简介：分类和回归树、套袋和随机森林的合理、应用和特征。心理学方法。2009;14(4):323–348. [PMC免费文章][公共医学][谷歌学者]
Therneau TM，阿特金森B。包“rpart”：递归分区（R包版本3.1-48）[计算机软件]2010检索自http://cran.r-project.org/web/packages/rpart/index.html。2010年10月15日访问。
Therneau TM、Grambsch PM、Fleming TR。生存模型的基于鞅的残差。生物特征。1990;77(1):147–160. [谷歌学者]
张惠普，歌手B。健康科学中的递归划分。纽约州纽约市：斯普林格；1999[谷歌学者]
Zhou Y、Kadlec KM、McArdle JJ。夏威夷认知家庭研究中人口统计学和特定认知能力对死亡率的预测。收件人：McArdle JJ，Ritschard G，编辑。探索性数据挖掘中的当代问题。纽约州纽约市：劳特利奇；2014年，第429–449页。[谷歌学者]
Zosuls KM、Ruble DN、Tamis-LeMonda CS、Shrout PE、Bornstein MH、Greulich FK。婴儿性别标签的获得：性别类型游戏的含义。发展心理学。2009;45(3):688. [PMC免费文章][公共医学][谷歌学者]