rpartOrdinal: An R Package for Deriving a Classification Tree for Predicting an Ordinal Response

Kellie J. Archer

doi:10.18637/jss.v034.i07

J统计软件。作者手稿；PMC 2010年7月8日发布。

以最终编辑形式发布为：

J统计软件。2010年4月1日；34: 7.

数字对象标识：10.18637/jss.v034.i07版本

预防性维修识别码：项目经理2899711

美国国立卫生研究院：美国国立卫生研究院197286

PMID：20625561

rpartOrdinal：用于导出预测有序响应的分类树的R包

凯莉·J·阿彻

作者信息版权和许可信息 PMC免责声明

摘要

本文描述了一个R包，r零件序号，当兴趣在于预测有序响应时，它实现了用于拟合分类树的可选分割函数。这包括广义基尼杂质函数，该函数是作为一种预测有序响应的方法引入的，方法是将误分类成本包含在杂质函数中，以及由于Piccareta（2008）这不需要分配错误分类成本。程序包中还包括有序双峰分裂方法，该方法未定义为节点杂质的减少。由于在顺序响应设置中，将观测值误分类到相邻类别比将观测值错分类到远处类别的错误更小，因此该软件包还包括一个用于估计关联顺序度量的函数，即伽马统计量。

关键词：机器学习、分类树、递归划分、顺序响应、R

1.简介

对于许多高通量基因组研究，要预测的表型是有序的。有序反应的一些例子包括最近提倡的评估靶肿瘤病变治疗反应的方法，即实体肿瘤反应评估标准（RECIST）方法，有序结果定义为完全反应>部分反应>稳定疾病>进展性疾病。此外，大多数组织病理学测量是有序的，例如慢性肝炎患者肝活检标本的评分方法，包括Knodell肝活动指数、Ishak评分和METAVIR评分。统计方法，如相邻类别、比例优势和连续比率模型(Agresti 2002年)传统上用于对顺序反应建模，但当协变量的数量，第页，超过了观察次数，n个.

另一种类别预测方法，分类树（CT）能够预测响应，当n个<<第页(布雷曼等。1984). 假设n个待分类的独立观测值的特征是第页-预测因子的维数向量x个_我= (x个_我1,x个_我2, . . . ,x个_知识产权)和每次观察x个_我落入其中之一J型类。让ω用表示类ω=ω₁代表第1类中的观察结果，ω=ω₂代表类别2。，和ω=ω_J型代表类J型导出CT时，所有观察都从根节点开始，t吨然后，对于预测因子1、2，第页，确定最佳分裂，其中最优性被定义为导致节点杂质最大减少的分裂。

对于节点t吨，最优分割将观测值分为左右后代节点，t吨_L（左）和t吨_R（右）以及每个J型这些节点中的类被称为节点比例，第页(ω_j个|t吨)的j个= 1, . . . ,J型这样的话第页(ω₁|t吨) +第页(ω₂|t吨) + . . .+第页(ω_J型|t吨) = 1. 对于标称响应分类，节点内杂质测量最常用的是基尼准则(布雷曼等。1984)，定义为

我 (t吨) = \sum_{k个} \sum_{k个 \neq 我} 第页 (ω_{k个} Ş t吨) 第页 (ω_{我} Ş t吨) .

(1)

这是R编程环境中的默认杂质函数(R开发核心团队2009)rpart公司包装(塞尔诺和阿特金森1997)用于预测标称类响应。然而，当响应是有序的时，使用这个杂质函数并没有利用额外的信息。为此，广义基尼杂质函数(布雷曼等。1984),

我_{G公司 G公司} (t吨) = \sum_{k个} \sum_{k个 \neq 我} C类 (ω_{k个} Ş ω_{我}) 第页 (ω_{k个} Ş t吨) 第页 (ω_{我} Ş t吨),

(2)

哪些因素在C类(ω_k个|ω_我)，错误分类一个类的成本我观察属于课堂k个已提出用于顺序响应预测。

另一种提出的有序杂质函数，用于基于名义有序关联度量导出有序响应分类树(Piccareta 2001年)不需要分配误分类成本

我_{O（运行） S公司} (t吨) = \sum_{j个 = 1}^{J型} F类 (ω_{j个} Ş t吨) (1 - F类 (ω_{j个} Ş t吨))

(3)

哪里 $F类 (ω_{j个} Ş t吨) = \sum_{k个 = 1}^{j个} 第页 (ω_{k个} Ş t吨)$ (Piccareta 2008年).

顺序反应预测的一种非基于杂质的分裂方法是有序二分法(布雷曼等。1984). 尽管这本开创性的书中描述了这种方法布雷曼等。(1984)并已由Salford Systems在CART软件中实现(斯坦伯格和科拉1997；斯坦伯格和戈洛夫尼亚2006)，它还没有在R中实现。有序二分法通过将有序响应重新定义为二分响应向量进行，其中对于每个观察我，的j个-第二种两分反应被认为是

{C类}_{我 j个} = {\begin{matrix} 1 & 如果 ω_{我} = 1, \dots, j个 \\ 0 & 如果 ω_{我} = j个 + 1, \dots, J型 . \end{matrix}

(4)

对于节点t吨和二分反应C类_j个，分裂秒最大化

直径(秒, t吨, C类_j个) = 2第页_L（左）第页_R（右）(第页(C类_j个Şt吨_L（左）)−第页(C类_j个Şt吨_R（右）))²

(5)

超过第页协变量被认为是这种二分法反应的最佳分割C类_j个随后，拆分秒与二分反应相关

{j个}^{*} = 参数 \underset{j个}{最大值} ϕ (秒, t吨, {C类}_{j个})

（6）

然后选择用于拆分节点t吨在本文中，我们描述了r零件序号R包，它实现了有序双峰、广义基尼和有序杂质分裂方法。在推导顺序响应分类树时，应考虑使用这些拆分方法。

对于标称响应预测，错误分类率通常被检查为评估分类器性能的一种手段。对于序数响应预测问题，估计伽马统计量作为观察到的响应和预测响应之间关联的序数度量，作为衡量序数分类成功与否的一种手段，可能更有意义。简单地说，两个序数变量之间的关联X（X）和Y（Y）可以通过伽马统计进行估计(Agresti 2002年)，其中给出了交叉制表矩阵T型属于X（X）和Y（Y）有第页行和c（c）列，单元格（1，1）的协调对数(第页–1，c（c）–1）由给出

{C类}_{k个 我} = {T型}_{k个 我} \times \sum_{j个 = 我 + 1}^{c（c）} \sum_{我 = k个 + 1}^{第页} {T型}_{我 j个} .

(7)

类似地，单元格（1，2）到(第页– 1,c（c）)由提供

{D类}_{k个 我} = {T型}_{k个 我} \times \sum_{j个 = 1}^{我 - 1} \sum_{我 = k个 + 1}^{第页} {T型}_{我 j个} .

(8)

然后我们让 $C类 = \sum_{j个 = 1}^{c（c） - 1} \sum_{我 = 1}^{第页 - 1} {C类}_{我 j个}$ 和 $D类 = \sum_{j个 = 2}^{c（c）} \sum_{我 = 1}^{第页 - 1} {D类}_{我 j个}$ 这样有序关联的伽玛统计量定义为

\hat{γ} = \frac{C类 - D类}{C类 + D类} .

(9)

R包，r零件序号，它实现了所描述的顺序分割方法，以及一个用于估计γ统计量的函数，作为关联的顺序度量，可从综合R档案网络下载，网址为http://CRAN.R-project.org/package=rpartOrdinal.

2.说明性数据集

2.1. 低出生体重数据集

lowbwt数据集下载自ftp://ftp.wiley.com/public/sci_tech_med/logistic公司/包括189名女性的出生体重和相关风险因素(Hosmer和Lemeshow 2000). 为了便于说明，将从中定义的出生体重中导出顺序响应变量（类别）表1并添加到lowbwt数据集。

表1

低出生体重的正常反应水平（类别）。

1	体重>3500
2	3000<bwt≤3500
三	2500<bwt≤3000
4	体重≤2500

在单独的窗口中打开

除此顺序响应外，数据集还包括下列变量表2.

表2

描述低出生体重数据集中包含的协变量。

变量	描述
低的	二分结果：低出生体重（<2500克）与否
年龄	母亲的年龄，岁
轻水吨	母亲上次月经时的体重，磅
比赛	母亲种族（白人、黑人、其他）
烟	母亲吸烟状况（否，是）
聚四氟乙烯	以往早产人数
ht（高温）	母亲有高血压病史（否，是）
用户界面	子宫过敏（否，是）
自由电视	前三个月的医生就诊次数
bwt（重量）	出生体重（克）

在单独的窗口中打开

2.2. B细胞急性淋巴细胞白血病的基因表达

例如，使用高通量基因组数据集，急性淋巴细胞白血病ALL数据集从生物导体实验仓库http://www.bioconductor.org/packages/release/data/teriat/html/ALL.html其中包括128名患者、95名B细胞患者和33名T细胞白血病患者的基因表达微阵列数据(基亚雷蒂等。2004,2005). B细胞急性淋巴细胞白血病（B-ALL）患者根据白血病细胞是否表达不同的抗原（如CD19、HLA-DR、CD10）或免疫球蛋白（如表面免疫球蛋白或细胞质免疫球蛋白）进行分期。阶段是有序的，因此B1代表早期B ALL（不表示CD10）；随着CD10的表达，B2表示疾病比B1更严重，但尚未达到B3-B4阶段的标准；B3代表常见的ALL，CD10抗原表达但仍缺乏IgM；B4代表B前ALL，其中表达CD10和IgM。B-ALL阶段在临床上很重要，因为它是计划治疗的几个因素之一。在公开数据集中的95名B-ALL患者中，90名患者进行了分期（19名B1、36名B2、23名B3和12名B4患者）。请注意，此数据集需要的内存比标准Windows PC上通常可用的内存更多。因此，使用具有8GB RAM的MacBook Pro笔记本电脑（Mac OS X 10.5.7）分析B-ALL数据集。

3.实施

这个r零件序号包是在R编程环境中编写的(R开发核心团队2009)并且取决于rpart公司包装(塞尔诺和阿特金森1997). 目前，rpart公司包括导出回归树、分类树和存活树的方法。由于中的方法=选项rpart公司，用户可以定义自己的拆分方法，以便与rpart函数一起使用。传递给method=选项的用户定义方法必须是由三个名为eval、split和init的函数组成的列表。由于之前的研究将序数分裂方法与传统方法相比较，用于单树和bootstrap聚合分类树，已经证明，当要预测的响应是序数时，通常首选序数分裂法(Piccareta 2008年；Archer和Mas 2009)，我们实现了三种有序分裂方法，即有序二分法、有序杂质法和广义基尼法，用于与rpart公司.

3.1. 订购双人套餐

中的有序二重分裂准则方程式5已在中实现为可调用方法rpart公司这里，我们通过额外指定method=twoing，导出了一个序数分类树，用于预测低出生体重数据集Category中的序数响应。这种CT可能有助于探索与新生儿预后不良相关的因素。

R> 库（“rpartOrdinal”）R> 数据（“低bwt”）R> 低bwt$Category<–factor（ifelse（低bwt$bwt<=2500，3，+ifelse（低bwt$bwt<=3000，2，+ifelse（低bwt$bwt<=3500，1，0）），有序=TRUE）R> otwoing.rpart<–rpart（类别^~年龄+lwt+种族+烟雾+ptl++ht+ui+ftv，数据=lowbwt，方法=twoing）

可以使用plot（）和text（）函数以图形方式显示安装的CT。在使用这些函数创建的树状拓扑图中，符合给定节点上显示的标准的观测值将转至左侧子节点，而不符合给定节点处显示的标准，则转至右侧子节点。

R> 绘图（otwoing.rpart）R> 文本（otwoing.rpart，pretty=TRUE）

文本函数的附加pretty=TRUE参数不会将出现在树中的因子缩写为字母数字字符。或者，post（）函数可以用于生成包含树拓扑的postscript文件，该树拓扑更广泛地标记每个节点的拆分和预测类。

R> post（otwoing.rpart，filename=“TwoingLowbwt.ps”，使用.n=FALSE，+title=“”，水平=假）

3.2. 有序杂质函数

与twoing函数一样方程式3已在中实现为可调用方法rpart公司也就是说，在rpart函数中，用户应该指定method=ordinal，以便使用方程式3.

R> ordinal.rpart<–rpart（类别^~年龄+lwt+race+smoke+ptl++ht+ui+ftv，数据=低bwt，方法=序号）R> 绘图（序数.rpart）R> 文本（ordinal.rpart，pretty=TRUE）

有序二叉树和有序树的拓扑结构非常相似，例外是节点38在有序树中按lwt分割，而同一节点在有序二叉树中按年龄分割，子节点77的分割变量也不同。

3.3. 广义基尼杂质

中的广义Gini杂质函数方程式2已通过允许用户在rpart调用的可选parms参数中指定loss.matrix参数在该包中实现。loss.marix参数接受“线性”或“二次”，分别用于使用线性或二次损失。使用线性损失的低出生体重示例的具体语法如下。

R> linear.loss.rpart<–rpart（类别^~年龄+lwt+race+smoke+ptl++ht+ui+ftv，数据=lowbwt，方法=“class”，+parms=list（损失=loss.matrix（方法=“线性”，lowbwt$Category））R> 绘图（linear.loss.rpart）R> 文本（linear.loss.part，pretty=TRUE）

使用二次损失函数的低出生体重示例的具体语法为

R> quad.loss.rpart<–rpart（类别^~年龄+lwt+race+smoke+ptl++ht+ui+ftv，数据=lowbwt，方法=“class”，+parms=list（loss=loss.matrix（method=“quad”，lowbwt$Category））R> 绘图（quad.loss.rpart）R> 文本（quad.loss.rpart，pretty=TRUE）

使用广义基尼准则导出的两个CT使用lwt>=109.5分割根节点，并使用ui=0分割节点2。然而，线性和二次损失函数之间的其他分裂不同。

3.4. 伽马统计

序数伽玛函数估计伽玛统计量，这是两个序数变量交叉制表关联强度的度量。以下示例复制了中的表2.8阿格雷斯蒂（2002）.

R> 库（“rpartOrdinal”）R> 作业统计<–系数（c（1，代表（2，3），代表（3，10），代表，代表（4，6），代表，+代表（2，3），代表（3，10），代表，+2，重复（3，9），重复（4，11）），有序=真，+labels=c（“非常不满意”，“有点不满意”，+“中等满意”、“满意”）R> 收入<-系数（c（代表（1，20），代表（2，22），代表性（3，33）和代表性（4，21）），+有序=真，标签=c（“<15000”，“15000–25000”，“25000–40000”，+ “>40,000”))R> 表（工作统计、收入）

	收入
作业统计	<15000	15,000–25,000	25,000–40,000	>40,000
非常不满意	1	2	1	0
有点不满意	三	三	6	1
中等满意	10	10	14	9
满意的	6	7	12	11

在单独的窗口中打开

R> 序数γ（工作、统计、收入）[1] 0.2211009

回到低出生体重数据集的有序分类树，估计伽马统计量作为观察到的有序反应和预测的有序反应之间关联的有序度量可能是有趣的。然而，估计伽马统计量作为训练数据关联的序数度量，并不能提供有用的信息，说明当出现新数据时，预测器的泛化程度。因此，可以使用交叉验证方法。以下代码用于执行五重交叉验证，其中观察结果包含在V（V）-第个折叠存储在V（V）-组的第个组件。出租ℒ 表示完整的数据集，每种方法（有序、有序二分法、线性损失的广义基尼系数和二次损失的广义基尼系数）都使用ℒ∖ℒ_v（v）然后根据中的观测值获得预测的类别ℒ_v（v）.

R> V<-5R> n<–长度（低bwt$类别）R> 离开<–trunc（n/V）R> o<–样本（1:n）R> 组<–矢量（“列表”，V）R> 对于（1中的j：（V-1））{+jj<–（1+（j–1）*leave.out）+组[[j]]<–（o[jj:（jj+leave.out–1）]）+ }R> 组[[V]]<–o[（1+（V-1）*leave.out）：n]R> 线性拟合<–rep（NA，n）R> 四边形配合<–rep（NA，n）R> 序号fit<–rep（NA，n）R> 两件套头<–rep（NA，n）R> 对于（1:V中的j）{+ordinal.rpart<–rpart（类别^~年龄+lwt+种族+吸烟++ptl+ht+ui+ftv，数据=lowbwt，子集=-groups[[j]]，+方法=序号）+序数拟合[组[[j]]<-预测（序数rpart，+newdata=lowbwt[组[[j]]，]）+twoing.rpart<–rpart（类别^~年龄+体重+种族+吸烟++ptl+ht+ui+ftv，数据=lowbwt，子集=-groups[[j]]，+方法=两次）+twoing.fit[组[[j]]<-预测（twoing.rpart，+newdata=lowbwt[组[[j]]，]）+linear.rpart<–rpart（类别^~年龄+lwt+种族+吸烟++ptl+ht+ui+ftv，数据=低bwt，子集=–组[[j]]，+parms=list（损失=loss.matrix（方法=“线性”，lowbwt$Category））+phat<–预测（linear.rpart，newdata=lowbwt[组[[j]]，]）+线性拟合[组[[j]]<-适用（phat，1，which.max）+quadratic.rpart<–rpart（类别^~年龄+lwt+种族+吸烟++ptl+ht+ui+ftv，数据=低bwt，子集=–组[[j]]，+parms=list（loss=loss.matrix（method=“quad”，lowbwt$Category））+phat<–predict（quadratic.rpart，newdata=lowbwt[组[[j]]，]）+quad.fit[组[[j]]]<–apply（phat，1，which.max）+}R> 序号.gama（lowbwt$Category，twoing.fit）R> ordinal.gamma（lowbwt$Category，ordinal.fit）R> ordinal.gamma（lowbwt$Category，linear.fit）R> ordinal.gamma（lowbwt$Category，quad.fit）

对于低bwt数据集的这种随机划分，有序和有序两种方法具有相似的性能，并且无论是二次损失还是线性损失，都优于广义基尼(表3). 如果样本量较大，可以使用分割样本方法，其中rpart函数将应用于列车数据集，预测函数使用newdata=test。或者，可以很容易地构建引导程序，并使用带外观测值估计误差，如Archer和Mas（2009）.

表3

低出生体重数据集观察到的顺序反应和预测的顺序反应之间γ顺序关联测度的五倍交叉验证估计。

有序杂质	0.446
订购双人套餐	0.436
具有线性误分类代价的广义基尼系数	0.345
具有二次误分类代价的广义基尼系数	0.402

在单独的窗口中打开

3.5. B-ALL中的基因表达

在这里，我们演示了序贯分类方法在预测B-ALL分期中的应用。

R> 库（“rpartOrdinal”）R> 库（“ALL”）R> 数据（“ALL”）

类对象ALL是一个ExpressionSet，由生物导体项目(绅士等。2004)作为高通量基因组数据集的容器。此对象包括g×n矩阵基因表达数据，其中克表示高通量分析所查询的探针（即基因）数量，以及n个表示处理的样本数，以及n×p表型数据的数据框架，这里再次n个表示样本数和第页表示表型变量的数量。可以使用exprs（）提取器函数从ALL对象中提取基因表达矩阵，而可以使用pData（）提提器函数访问表型数据。如第2.2节所述，ALL对象包括128名患者、95名B细胞白血病患者和33名T细胞白血病患者的基因表达和表型数据。在本例中，我们将只关注那些同时分期为B1、B2、B3或B4的B细胞白血病患者。pData（ALL）对象包括一个向量BT，它存储疾病的类型（B或T）和阶段（1、2、3或4），并可用于子设置ALL对象。以下代码行用于将数据集限制为B1、B2、B3或B4级患者。有关ALL对象中存储的表型变量的更多信息，可以通过发出？所有。

R> BALL<–ALL[，即元素（pData（ALL）$BT，c（“B1”、“B2”、“B3”、”B4“）]

接下来，我们构造一个有序因子阶段，将B-ALL阶段表示为我们的序数结果。

R> 阶段<–因子（pData（BALL）$BT，级别=c（“B1”、“B2”、“B3”、”B4“），+有序=真）

序贯CT预测疾病阶段可能有助于探索导致B-ALL进展的遗传机制。在拟合CT之前，数据框架由序数结果阶段和转置的g×n必须构建基因表达矩阵。

R> Bcell<–数据帧（t（表达式（BALL）），阶段）

一旦构建了数据帧，就可以使用类似于lowbwt示例的语法来拟合有序分类树。以下语法分别用于使用有序二分法、序数法、带线性损失的广义基尼法和带二次损失的广义基尼法拟合CT。

R> otwoing.rpart<–rpart（阶段^~.，数据=Bcell，方法=twoing）R> 绘图（otwoing.rpart）R> 文本（otwoing.rpart）R> ord.rpart<–rpart（阶段^~.，数据=Bcell，方法=序号）R> 绘图（ord.rpart）R> 文本（ord.rpart）R> linear.loss.rpart<–rpart（阶段^~数据=Bcell，+parms=列表（损失=损失矩阵（方法=“线性”，Bcell$stage））R> 绘图（linear.loss.rpart）R> 文本（linear.loss.rpart）R> 四边形损失零件<–rpart（阶段^~.，数据=B单元，+parms=list（loss=loss.matrix（method=“quad”，Bcell$stage））R> 绘图（quad.loss.rpart）R> 文本（quad.loss.rpart）

有趣的是，所有四种方法都使用相同的变量和切点分割根节点。对于序数分类，使用五倍交叉验证来估计伽马统计量，作为观察到的和预测到的序数响应之间关联的序数度量，可能很有意义。以下代码用于执行五次交叉验证。

R> V<-5R> n<–长度（Bcell$阶段）R> 离开<–trunc（n/V）R> o<–样本（1:n）R> 组<–矢量（“列表”，V）R> 对于（1中的j：（V–1））{+jj<–（1+（j–1）*leave.out）+组[[j]]<–（o[jj:（jj+leave.out–1）]）+ }R> 组[[V]]<–o[（1+（V-1）*leave.out）：n]R> 线性拟合<–rep（NA，n）R> 四边形配合<–rep（NA，n）R> 序号fit<–rep（NA，n）R> 两件套头<–rep（NA，n）R> 对于（1:V中的j）{+列车<–Bcell[–组[[j]]，]+序号.rpart<–rpart（阶段^~.，数据=序列，方法=序号）+twoing.rpart<–rpart（舞台^~.，数据=列车，方法=双人）+linear.rpart<–rpart（阶段^~.，data=列车，+parms=列表（loss=loss.matrix（方法=“线性”，训练$stage））+quad.rpart<–rpart（阶段^~.，data=列车，+parms=list（loss=loss.matrix（方法=“quad”，train$stage））+rm（列车）+测试<–Bcell[组[[j]]，]+ordinal.fit[组[[j]]]<–预测（ordinal.rpart，newdata=测试）+twoing.fit[组[[j]]]<–预测（twoing.rpart，newdata=test）+phat<–预测（linear.rpart，newdata=测试）+线性拟合[组[[j]]<-适用（phat，1，which.max）+rm（相位）+phat<–预测（四部分，新数据=测试）+quad.fit[组[[j]]]<–apply（phat，1，which.max）+rm（序号.rpart，两个.rpart、线性.rpart和四个.rparts、phat和test）+ }R> ordinal.gamma（Bcell$stage，ordinal.fit）R> 序号.gamma（Bcell$stage，twoing.fit）R> 序数.gama（Bcell$stage，linear.fit）R> 序号.gamma（Bcell$stage，quad.fit）

B-ALL基因表达数据集的四种分裂方法中的每一种的伽马顺序关联度量列在表4.

表4

B-ALL数据集的观测和预测序数响应之间伽马序数关联测度的五倍交叉验证估计。

有序杂质	0.762
订购双人套餐	0.562
具有线性误分类代价的广义基尼系数	0.736
具有二次误分类代价的广义基尼系数	0.687

在单独的窗口中打开

4.总结

在这里，我们描述了r零件序号与rpart公司R编程环境中的包。该软件包提供了在响应正常时安装CT的方法。我们注意到另一个R包，聚会(Hothorn公司等。2009)，也可用于派生顺序条件推理树，其中选择用于分割给定节点的变量是通过推理测试确定的(Hothorn公司等。2006). 当待分析的数据集包含有序响应且协变量的数量超过样本大小时，这些方法可能会被证明是有用的。在这种情况下，传统的顺序响应方法（如比例优势模型）无法适用。二次数据分析是来自公共数据库（如基因表达综合数据库）的一种天然且理想的副产品。在高通量基因组环境中，大多数注意力都集中在二分反应的分类算法上。我们相信分析家会发现r零件序号在为高维数据集建模顺序响应时尤其有用。

保存图片、插图等的外部文件。对象名为nihms-197286-f0001.jpg

在单独的窗口中打开

图1

使用有序二次扫描的低出生体重数据集的CT。

保存图片、插图等的外部文件。对象名为nihms-197286-f0002.jpg

在单独的窗口中打开

图2

使用有序杂质函数对低出生体重数据集进行CT检查。

保存图片、插图等的外部文件。对象名为nihms-197286-f0003.jpg

在单独的窗口中打开

图3

使用广义基尼系数对低体重儿进行CT，误分类的线性代价。

保存图片、插图等的外部文件。对象名为nihms-197286-f0004.jpg

在单独的窗口中打开

图4

使用广义基尼系数和误分类二次代价对低体重儿进行CT。

保存图片、插图等的外部文件。对象名为nihms-197286-f0005.jpg

B-ALL的CT使用有序对偶。

使用有序杂质函数对B-ALL进行CT检查。

保存图片、插图等的外部文件。对象名为nihms-197286-f0007.jpg

在单独的窗口中打开

图7

B-ALL的CT使用广义基尼，误分类的线性代价。

保存图片、插图等的外部文件。对象名为nihms-197286-f0008.jpg

在单独的窗口中打开

图8

使用广义基尼和误分类二次代价的B-ALL CT。

致谢

本研究得到了国家图书馆医学研究所R03LM009347的支持。

工具书类

阿格雷斯蒂AA。分类数据分析。第二版John Wiley&Sons；新泽西州霍博肯：2002年。[谷歌学者]
Archer KJ，Mas VR。使用Bootstrap聚合进行顺序响应预测，并应用于高通量甲基化数据集。医学统计学。2009;28:3597–3610. [PMC免费文章][公共医学][谷歌学者]
Breiman L、Friedman JH、Olshen RA、Stone CJ。分类和回归树。华兹华斯高级图书与软件；加利福尼亚州贝尔蒙特：1984年。华兹华斯统计/概率系列。[谷歌学者]
Chiaretti S，Li X，Gentleman R，Vitale A，Vignetti M，Mandelli F，Ritz J，FoáR。成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的患者的不同亚群。鲜血。2004;103:2771–2778.[公共医学][谷歌学者]
Chiaretti S，Li X，Gentleman R，Vitale A，Wang K，Mandelli F，FoáR，Ritz J.B系成人淋巴细胞白血病的基因表达产物揭示了识别世系衍生和不同转化机制的遗传模式。临床癌症研究。2005;20:7209–7219.[公共医学][谷歌学者]
Gentleman RC、Carey VJ、Bates DM、Bolstad B、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leisch F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smyth G、Tierney L、Yang JYH、Zhang J。生物导体：计算生物学和生物信息学的开放软件开发。基因组生物学。2004年，第R80页。统一资源定位地址http://genomebiology.com/2004/5/10/R80.[PMC免费文章][公共医学]
霍斯默DW，莱梅肖S。应用Logistic回归。第二版John Wiley&Sons；纽约：2000年。[谷歌学者]
Hothorn T、Hornik K、Strobl C、Zeileis A。聚会：递归Partytioning实验室。2009.R包版本0.9-999，URLhttp://CRAN.R-project.org/package=party.
Hothorn T，Hornik K，Zeileis A.无偏递归划分：条件推理框架。计算与图形统计杂志。2006;15(3):651–674. [谷歌学者]
Piccareta R.一种新的名义普通联系衡量方法。应用统计学杂志。2001;28:107–120. [谷歌学者]
Piccareta R.顺序变量分类树。计算统计。2008;23:407–427. [谷歌学者]
R开发核心团队。R：统计计算语言和环境。R统计计算基金会；奥地利维也纳：2009年。ISBN 3-900051-07-0，网址网址：http://www.R-project.org/ [谷歌学者]
斯坦伯格D、科拉P。CART-分类和回归树。索尔福德系统公司；加利福尼亚州圣地亚哥：1997年。[谷歌学者]
Steinberg D，Golovnya M。CART 6.0用户手册。索尔福德系统公司；加利福尼亚州圣地亚哥：2006年。[谷歌学者]
Therneau TM，阿特金森EJ。技术报告61。梅奥诊所；罗切斯特：1997年。使用rpart公司常规。生物统计学部分。统一资源定位地址http://www.mayo.edu/hsr/techrpt/61.pdf.[谷歌学者]