Variable selection and importance in presence of high collinearity: an application to the prediction of lean body mass from multi-frequency bioelectrical impedance

Camillo Cammarota; Alessandro Pinto

doi:10.1080/02664763.2020.1763930

J应用统计。2021; 48(9): 1644–1658.

2020年5月13日在线发布。数字对象标识：10.1080/02664763.2020.1763930

预防性维修识别码：PMC9042145型

PMID：35706573

高共线性条件下的变量选择和重要性：应用多频生物电阻抗预测瘦体重

卡米洛·卡马罗塔^一和亚历山德罗·平托^b条

作者信息版权和许可证信息 PMC免责声明

关联数据

补充资料: 在线_补充.xls
CJAS_A_1763930_SM3481.xls公司（15公里）
GUID:4EC3ABA9-A8AC-4892-B44B-4BF17BE21312

摘要

在预测问题中，响应和协变量可能与第二组有影响力的回归变量（可被视为背景变量）具有高度相关性。一个重要的挑战是在存在这些变量的情况下对协变量进行变量选择和重要性评估。一个临床示例是通过生物阻抗（协变量）预测瘦体重（反应），其中人体测量起到背景变量的作用。我们引入了一个简化的数据集，其中变量被定义为相对于背景的残差，并在线性和随机森林模型中进行变量选择和重要性评估。使用多频率生物阻抗的临床数据集，我们展示了这种方法在选择人体测量之外的瘦体重最相关预测因素方面的有效性。

关键词：变量选择、重要性、线性模型、随机森林、生物阻抗、多频率、人体测量变量、瘦体重

1.简介

在生物医学研究中，一个典型的挑战是从使用非侵入性方法测量的一组协变量中预测使用侵入性方法测得的临床感兴趣的目标变量。此外，还需要在协变量中进行变量选择，以选择最具影响力的变量，并量化其应用的重要性。在此框架中，可能会出现两类问题。首先，协变量可能具有强共线性。第二个是不同组变量的作用：这些变量能够解释目标变量和协变量的很大一部分变异性，因此它们可以被视为具有影响力的“背景变量”[30]. 在一些情况下，目标和协变量之间的相关性在这些变量的条件下消失（虚假相关性）。

线性模型框架中的常用方法是将背景变量包含在回归变量中，但通常共线性会导致方差膨胀，而不是可靠的估计。在线性模型的框架中，变量重要性可以与每个回归变量相关联，这些回归变量是由 ${R（右）}^{2}$ ，如果变量与其他变量一起不重要[14,15]. 这种方法对于依赖的先验假设函数形式（线性）可能会受到严重限制。

基于树结构回归，随机森林提供了一种不同的方法[三,18]. 树回归在生物医学领域具有广泛的适用性[4,8,19,31,32]，如果它对结果的可解释性有用。随机森林被广泛用于预测和分类任务，以减少树回归的方差[31,34]和偏见[37]. 与其他学习机器方法相比，随机森林的主要优势在于能够识别高维数据中的相关变量，并对其重要性进行定量测量[11,17,20,35]. 如果预测因子具有较大的相关性，并且随机森林选择更具影响力的预测因子的能力已通过模拟进行了广泛研究，那么变量选择任务更具挑战性[1,26,30]. 预测因子之间相关性对变量重要性影响的理论研究[16]. 变量选择和重要性度量的理论和方法方面在[2].

推动这项工作的数据挑战是预测通过侵入性方法双能X射线吸收测定法（DXA）获得的瘦体重（LBM）[7,9,22]; 预测因子是人体在不同频率下对交流电的电阻，通过安全无创的方法测量[7,21,22]. 背景变量是受试者的人体测量值（性别、年龄、身高、体重）。很明显，在背景变量中，至少身高和体重对瘦体重和阻抗都有很大影响，而阻抗与手臂和腿的长度呈线性关系。

由于结果的可解释性及其在实践中的简单使用，预测任务和临床应用中变量的选择受到严重限制。首先，包括侵入性测量变量的所有临床数据库都不一定很大，因此不可能对背景变量进行有条件的预测。其次，要选择一些有影响的变量，通常是两个，以便于图形表示。第三，如果提出了不同的变量集，则必须选择一个能够在背景变量之外对目标进行最佳预测的变量。

在之前关于身体成分的临床研究中[5,27,29,33,36]这些问题只在线性模型的框架内进行了研究，没有对变量选择和重要性评估进行系统研究。这些研究的主要缺陷是没有考虑所有协变量之间的共线性。

解决共线性问题的一种可能方法是使用两个变量之间的部分相关概念，定义为两个线性模型的残差之间的相关性，将剩余的协变量作为回归变量。

在我们的研究中，我们对目标和一组解释变量相对于背景变量的残差感兴趣。自FWL定理以来，计量经济学文献中经常采用这种方法[23]. 为了评估解释变量的重要性并进行变量选择，我们对背景变量预测得到的残差进行了模型分析。我们考虑一个标准线性模型和一个非参数模型，即随机森林。

值得一提的是，人体测量的残差用于人体成分的临床研究[5,25]. 我们应用上述方法分析了135名接受DXA检查的健康受试者的临床数据库，收集了LBM、人体测量变量和10项阻抗测量，即五种频率下的电阻和电抗。

在下一节中，我们将描述变量选择的方法以及线性模型和随机森林的重要性。在第三部分中，我们应用上述方法来分析数据。在第四部分中，我们进行了模拟研究。在最后一节中，我们给出了结论。

2.方法

2.1. 简化的数据集

完整的数据集由目标变量组成年两个矩阵的和X（X）和B类，其中列 ${X（X）}_{. j个}, j个 = 1, \dots, 第页$ 是一组预测因子，列 ${B类}_{. k个}, k个 = 1, \dots, q个$ 是背景变量。

我们考虑完整的线性模型

\begin{aligned} 年_{我} & = \sum_{j个 = 1}^{第页} {X（X）}_{我 j个} β_{j个} + \sum_{k个 = 1}^{q个} {B类}_{我 k个} α_{k个} + ϵ_{我}, \\ 我 = 1, \dots, n个; j个 = 1, \dots, 第页; k个 = 1, \dots, q个 \end{aligned}

(1)

哪里ε是噪声项。

在标准最小二乘估计中存在高共线性时使用线性模型的主要限制是小时th参数被因子夸大了 $1 / (1 - {R（右）}_{小时}^{2})$ 哪里 ${R（右）}_{小时}^{2}$ 是倍数R（右）-回归的平方小时第个协变量位于其他协变量之上。根据标准，这可能会导致一些变量不重要t吨-测试，但R（右）-根据费希尔检验，模型的平方是显著的。

为了执行变量选择，我们考虑如下定义的简化数据集。我们表示 $年^{(B类)}$ 线性模型的残差年关于B类、和 ${X（X）}^{(B类)}$ 其列是列的回归残差的矩阵X（X）关于B类。我们呼吁简洁的“简化数据集”，即以变量为目标的新数据集 $年^{(B类)}$ 并预测变量 ${X（X）}^{(B类)}$ .

2.2. 简化线性模型

我们称“简化线性模型”为 $年^{(B类)}$ 在 ${X（X）}^{(B类)}$ 在这个预测问题中，解释变量 ${X（X）}^{(B类)}$ 和目标 $年^{(B类)}$ 是残差，即估计量和未观测量。在完全观测数据集的多元正态性和独立性假设下，残差也是多元正态的，但独立性不再成立。作为经验法则[6]如果解释变量的数量远小于样本数量，则残差可以被视为近似独立的。在本申请中，解释变量为背景，其数量为q个 = 3，样本数量为n个 = 135

在 ${R（右）}^{2}$ 完整模型和简化模型。在我们的数据中，完整的模型有 ${R（右）}^{2} = 0.90$ ，简化模型具有 ${R（右）}^{2} = 0.50$ 在简化模型中，响应 $年^{(B类)}$ 以及协变量 ${X（X）}^{(B类)}$ 都与背景列正交B类; 因此，人们可以期望从简化模型的分析中获得关于最具影响力的X（X）变量，独立于B类.

2.3. 相对重要性指标

线性模型的相对重要性度量如所述[14,15]它们在R（右）[28]包装关系[13]. 我们使用度量1毫克定义如下。对于带索引的回归变量k个在…之间第页回归因子，附加 ${R（右）}_{k个}^{2}$ 计算如下：给定一个置换π属于 $(1, \dots, 第页)$ 这个 ${R（右）}_{k个}^{2} (π)$ 是的增量 ${R（右）}^{2}$ 将此回归变量添加到前面的回归变量集k个在里面π. The ${R（右）}_{k个}^{2}$ 定义为所有排列的平均值π这个额外的 ${R（右）}_{k个}^{2} (π)$ :

{R（右）}_{k个}^{2} = \frac{1}{第页!} \sum_{π} {R（右）}_{k个}^{2} (π)

(2)

这个度量的显著特性是它提供了模型的加性分解 ${R（右）}^{2}$ 这与回归变量的顺序无关：

{R（右）}^{2} = \sum_{k个 = 1}^{第页} {R（右）}_{k个}^{2}

(3)

2.4. 随机森林

随机森林算法是一种基于树结构回归的非参数方法[三,18]. 我们将此算法应用于第节中定义的简化数据集2.1，其中目标变量和解释变量都是残差，关于正态性和独立性的假设在第节中讨论2.2.

树回归在以下几个方面实现R（右）包装；我们已经使用了这个函数ctree公司在中聚会包装[19]，可以总结如下：

在数据库中，其中年是目标变量 ${X（X）}_{1}, \dots, {X（X）}_{第页}$ 是预测因子，使用线性相关作为统计量，对Y和任何单个预测因子之间的关联进行测试。执行了任何预测因子与目标之间无关联的全局零假设，并对Bonferroni进行了多重测试调整。如果这个假设不能被拒绝，就停止。否则选择变量 ${X（X）}_{j个}$ 与年，通过超过0.95的1-p值计算。
范围 ${X（X）}_{j个}$ 分为两个区间以实现最佳分段常量拟合年; 更准确地说是分割值秒在范围内 ${X（X）}_{j个}$ 选择以下最小值
$\underset{秒}{最小值} \sum_{我 : {X（X）}_{我 j个} \leq 秒} (年_{我} - 年_{1})^{2} + \sum_{我 : {X（X）}_{我 j个} > 秒} (年_{我} - 年_{2})^{2}$
(4)
哪里 $年_{1}, 年_{2}$ 分别是指年在集合中 ${我 : {X（X）}_{我 j个} \leq 秒}, {我 : {X（X）}_{我 j个} > 秒}$ .
对于两组样本中的每一组 ${我 : {X（X）}_{我 j个} \leq 秒}, {我 : {X（X）}_{我 j个} > 秒}$ 复制前面的步骤，直到进程在没有重大关联时停止年发现任何协变量。可以选择不同的测试关联、拆分和停止标准；详情见[19].

基于学习样本构建的树可以被视为弱学习者，因为它们具有低偏差和高方差。为了获得方差减小的唯一预测值，构造了一组树，即森林。

随机选择学习集的引导样本。
和以前一样，在这个示例上生长一棵树，唯一的区别是在每个节点上米协变量 ${X（X）}_{j个}$ 从中随机选择第页可用。
剩余数据集中称为带外（OOB）样本的预测是所有树预测的平均值。数字米引导样本数是唯一要选择的参数。

2.5. 排列重要性

在随机森林框架中实现的可变重要性基于这样的想法：如果 ${X（X）}_{j个}$ 相关预测器的值（或响应值）的排列会破坏预测精度。重要性通过以下步骤计算：

选择由2/3个观测值组成的自举样本，并在其上生长一棵树。剩余的观测值被视为OOB观测值，用于测试预测。精度计算为均方误差（MSE）。
对于每个变量 ${X（X）}_{j个}$ 重要性是根据使用 ${X（X）}_{j个}$ 和置换版本 ${X（X）}_{j个}^{'}$ （或回应）。更准确地说，对于一棵树t吨OOB-MSE计算如下
${海外银行 - MSE公司}_{t吨} = \frac{1}{| O（运行） O（运行） {B类}_{t吨} |} \sum_{我 \in O（运行） O（运行） {B类}_{t吨}} (年_{我} - {\hat{年}}_{我}^{(t吨)})^{2}$
(5)
哪里 ${海外银行}_{t吨}$ 是树的终端节点集t吨和 ${\hat{年}}_{我}^{(t吨)}$ 预测是根据t吨。对置换变量计算相同的数量 ${X（X）}_{j个}^{'}$ （或响应），并计算与前一个的差异。
对所有引导样本（通常为1000个）重复该操作，并计算平均值。有关详细信息，请参阅[17,30,34]. 也使用MSE增加百分比（%IncMSE），定义为置换后的MSE减去置换前的MSE除以后者。该方法为每个预测值生成一个重要度的经验零分布；这个第页-将提取的值与原始重要性得分进行比较。

在这项工作中，我们对包中实现的重要性度量使用重要性测试rfPermute（排列）[10]. 通过排列响应变量获得显著性。

3.应用

3.1. 措施

我们以人体测量变量为背景，应用上述方法对生物阻抗数据进行变量选择和重要性评估，以预测瘦体重。数据摘自2017-2018年罗马大学萨皮恩扎实验医学系食品科学和人类营养研究室收集的数据库。为本研究提取的数据集作为补充材料附上。该数据集包含135名超重和肥胖女性，她们接受了双能X射线吸收仪（DXA）检查（Hologic 4500 RDR）。这个方法[9]提供身体成分的准确预测，通常用作验证生物阻抗预测方程的参考[7]. 根据标准化方案进行全身生物阻抗测量[7]，使用多频设备人类im Touch（Ds Medica，意大利米兰）。数据库收集了在五个频率（5、10、50、100、250 kHz）下测得的原始多频阻抗数据（电阻和电抗分别用R和X表示）。人体测量变量包括每个受试者的身高、体重、年龄。

3.2. 数据集的描述

研究中包含的变量的描述性统计见表1。为了评估变量分布的正态性，我们使用了R（右）包裹兰伯特W[12]其中使用了Shapiro-Wilk、Shapiro-Francia和Anderson-Darling正态性检验。电阻数据通常为非高斯（右偏），可以使用对数变换进行校正。这与[24]即与阻抗相关的随机效应具有对数正态分布。电抗数据正常。变量LBM、身高、体重正常；年龄与正常值有微小偏差，未经校正。

表1。

135名受试者的人体测量、阻抗数据和瘦体重（LBM）的汇总统计。单位：LBM（kg）、身高（m）、体重（kg）和年龄（岁）；R=电阻的对数（欧姆）；X=电抗（欧姆）。

统计的	N个	平均值	圣德夫。	分钟	马克斯
伦敦银行	135	55.15	8.18	36.59	74.95
高度	135	1.62	0.06	1.45	1.80
重量	135	97.74	17.58	56.20	136.80
年龄	135	44.86	13.23	18	69
R5级	135	6.31	0.14	5.94	6.68
10兰特	135	6.28	0.14	5.92	6.65
50兰特	135	6.18	0.14	5.83	6.54
100兰特	135	6.13	0.14	5.79	6.49
250兰特	135	6.05	0.14	5.73	6.42
X5系列	135	25.72	5.22	9.93	41.92
X10个	135	35.79	6.89	18.84	59.69
X50系列	135	49.39	8.38	29.81	74.41
X100像素	135	44.08	7.21	26.14	62.02
X250像素	135	30.67	5.77	17.10	44.97

在单独的窗口中打开

表2报告了变量之间的皮尔逊相关性。电阻显示出高共线性，相关性大于0.98；电抗中度相关（大于0.53）。正如预期的那样，目标变量LBM与重量（0.85）有很强的相关性，与电阻和电抗有中等程度的负相关性。电阻与重量呈负相关（-0.60），电抗与年龄呈负相关。

表2。

变量的皮尔逊相关性。

	伦敦银行	高度	重量	年龄	R5级	10兰特	50兰特	100兰特	250兰特	X5系列	X10个	X50系列	X100像素	X250像素
伦敦银行	1	0.42	0.87	−0.21	−0.59	−0.61	−0.62	−0.63	−0.63	−0.16	−0.24	−0.38	−0.45	−0.49
高度	0.42	1	0.21	−0.21	0.17	0.17	0.16	0.16	0.17	0.10	0.10	0.12	0.13	0.15
重量	0.87	0.21	1	−0.16	−0.59	−0.59	−0.59	−0.60	−0.59	−0.19	−0.31	−0.48	−0.53	−0.53
年龄	−0.21	−0.21	−0.16	1	−0.13	−0.12	−0.07	−0.04	−0.005	−0.41	−0.43	−0.47	−0.43	−0.33
R5级	−0.59	0.17	−0.59	−0.13	1	1	0.99	0.99	0.98	0.60	0.72	0.82	0.85	0.82
10兰特	−0.61	0.17	−0.59	−0.12	1	1	0.99	0.99	0.98	0.58	0.70	0.80	0.84	0.82
50兰特	−0.62	0.16	−0.59	−0.07	0.99	0.99	1	1	0.99	0.52	0.63	0.74	0.79	0.80
100兰特	−0.63	0.16	−0.60	−0.04	0.99	0.99	1	1	1	0.50	0.61	0.72	0.77	0.78
250兰特	−0.63	0.17	−0.59	−0.005	0.98	0.98	0.99	1	1	0.48	0.58	0.69	0.74	0.76
X5系列	−0.16	0.10	−0.19	−0.41	0.60	0.58	0.52	0.50	0.48	1	0.93	0.80	0.72	0.56
X10个	−0.24	0.10	−0.31	−0.43	0.72	0.70	0.63	0.61	0.58	0.93	1	0.92	0.85	0.68
X50系列	−0.38	0.12	−0.48	−0.47	0.82	0.80	0.74	0.72	0.69	0.80	0.92	1	0.98	0.86
X100像素	−0.45	0.13	−0.53	−0.43	0.85	0.84	0.79	0.77	0.74	0.72	0.85	0.98	1	0.93
X250像素	−0.49	0.15	−0.53	−0.33	0.82	0.82	0.80	0.78	0.76	0.56	0.68	0.86	0.93	1

在单独的窗口中打开

3.3. 线性模型

我们用等式中的普通最小二乘估计将标准线性模型拟合到完整的数据集(1)（完整线性模型），使用t吨-参数显著性检验和Fisher检验 ${R（右）}^{2}$ 。完整的线性模型有 ${R（右）}^{2} = 0.90$ 唯一重要的变量是截距、体重和身高。这一结果可以用电阻的高共线性来解释，因为电阻增大了估计值的方差。仅使用人体测量作为预测因子的模型 ${R（右）}^{2} = 0.81$ 这表明需要更深入地研究电阻和电抗在预测人体测量以外的目标中的作用。

我们分析了简化线性模型，即简化数据集的线性模型，根据第2.1和2.2验证残差的正态性，并计算协方差矩阵（此处未示出）。这个矩阵又揭示了共线性。简化线性模型在R平方的Fisher检验中非常重要 ${R（右）}^{2} = 0.50$ ，但在标准t检验中，这些变量都不显著。这可以像以前一样从估计值的膨胀方差中得到解释。

重要性度量，提供了 ${R（右）}^{2}$ 关于协变量，如图所示1适用于完整模型和简化模型。

保存图片、插图等的外部文件。对象名称为CJAS_A_1763930_F0001_OB.jpg

在单独的窗口中打开

图1。

完整数据集（上部）和简化数据集（下部）中LBM线性模型预测的可变重要性。酒吧高度总和为 ${R（右）}^{2}$ 模型。

在完整模型中 ${R（右）}^{2} = 0.90$ 人体测量变量身高和体重是最重要的，电阻比电抗更重要。在简化模型中 ${R（右）}^{2} = 0.50$ 电阻对电抗结果的重要性增加了。

3.4. 随机森林

我们将随机森林方法应用于完整数据集和根据第节所述程序获得的简化数据集中的变量重要性评估2.1在随机森林方法中，重要性的定义与线性模型中的方差分解无关，而是与基于排列的预测MSE减少有关。来自节2.4参数n个树（树的数量）设置为1000，并且参数米try（每个步骤随机选择的变量数）从1更改为6，没有观察到重要性分配的相关差异。在图中2上图显示，在人体测量变量中，重量具有更大的重要性，而在其他协变量中，100KHz下的电阻具有比其他协变量更大的重要性。下部面板显示了简化模型的结果。电阻的重要性大于电抗，图中显示电阻随频率增加而增加，最大值为250KHz。

保存图片、插图等的外部文件。对象名称为CJAS_A_1763930_F0002_OB.jpg

在单独的窗口中打开

图2。

完整数据集（上部）和精简数据集（下部）中LBM的随机森林预测的可变重要性。参数设置：n个树=1000，米try=4。

3.5. 排列测试

我们对简化数据集的重要性进行了测试，以选择比人体测量更有影响力的变量（电阻和电抗）。此测试通常在文献中采用[11,15,17]，基于MSE的排列增加，如第节所述2.5。在表中三我们报告测试结果。第一行显示简化模型每个变量的IncMSE百分比（200次重复的平均值），第二行显示200次重复经验分布获得的p值。唯一具有重要意义的变量是R250、R100、R50。

表3。

通过减少数据集中均方误差增加%定义的重要性度量的显著性测试。只有三个变量（R250、R100、R50）的重要性显著。

	R250卢比	100兰特	R50re（R50re）	R10re（R10re）	R5re（卢比）	X50re系列	X10re（X10re）	X100re（X100re）	X5re（X5re）	X250re型
%IncMSE公司	5.38	5.07	2.91	1.55	1.07	0.85	0.60	0.49	0.33	0.28
%IncMSE.pval公司	0	0	0.01	0.34	0.74	0.66	0.69	0.88	0.69	0.68

在单独的窗口中打开

4.仿真研究

本研究旨在评估该方法在不同相关方案中区分相关变量和无关变量的能力，其特点是共线性高。在相关性表中（表2)在观察到的数据集中，电阻具有非常高的相关性（最大值为0.99），不能增加。因此，我们研究了当最大值降低时，保持与观测值相似的相关方案时该方法的性能。我们使用了以下方法。给定一对变量 $x个, 年$ 考虑由定义的新对 ${x个}^{'} = x个 + {w个}_{x个}, 年^{'} = 年 + {w个}_{年}$ ，其中两个术语 ${w个}_{x个}, {w个}_{年}$ 相互独立x个,年，使用 $电子 ({w个}_{x个}) = 0, V（V）一第页 ({w个}_{x个}) = α^{2} V（V）一第页 (x个)$ 和类似的年然后将 ${x个}^{'}, 年^{'}$ 是从以下关系中获得的 $x个, 年$ 按系数降低 $1 + α^{2}$ .

在模拟中，我们生成了三种不同情况下135个观测值的数据集。在第一种情况下，观测值根据具有从观测值获得的平均值和协方差的多元正态分布。在第二种情况下，我们向每个变量中添加了一定量的噪声，其标准偏差等于变量标准偏差的10%（情况 $α = 0.1$ ); 在第三种情况下使用 $α = 0.2$ 在由100个模拟组成的每种情况下，我们都获得了由相对于背景的残差定义的简化数据集，并计算了线性和森林方法的重要性。图中总结了结果3–5其中，100个模拟的方框图显示了简化数据集中每个预测值。这些数字应与图的下面板进行比较1和2在整个模拟过程中保留了以下特征：在线性和森林法中，电阻比电抗更重要；森林法显示了电阻之间的差异，对较大频率（R100、R250）的电阻具有更大的重要性。

保存图片、插图等的外部文件。对象名称为CJAS_A_1763930_F0003_OB.jpg

在单独的窗口中打开

图3。

模拟研究1–100次lmg度量（上部）和置换度量（下部）模拟的简化数据集中预测因子重要性的方框图。

保存图片、插图等的外部文件。对象名称为CJAS_A_1763930_F0004_OB.jpg

在单独的窗口中打开

图4。

模拟研究2–简化数据集中预测因子重要性的方框图，用于100次lmg度量（上部）和置换度量（下部）模拟，其中每个变量都添加了噪声，标准偏差为其中一个变量的10%。

保存图片、插图等的外部文件。对象名称为CJAS_A_1763930_F0005_OB.jpg

在单独的窗口中打开

图5。

模拟研究3–简化数据集中预测因子重要性的方框图，用于100次lmg度量（上限）和置换度量（下限）模拟，其中每个变量都添加了噪声，标准偏差为其中一个变量的20%。

5.结论与讨论

我们考虑了高共线性条件下的变量选择任务，针对两组预测因子，其中一组起到影响背景变量的作用，另一组是临床感兴趣的变量。我们考虑了从残差中获得的关于所有其他变量背景变量线性拟合的简化数据集。可能会出现两个问题。首先，共线性也可能存在于简化的数据集中，这会妨碍使用标准方法进行变量选择。其次，当背景变量能够解释响应的很大一部分可变性时，不明显的是，简化的数据集能够揭示对协变量的剩余依赖性，这对应用很有用。

我们应用了两种变量选择方法：线性方法框架中的相对重要性度量和随机森林框架中的排列重要性。应用程序已在完整数据集和简化数据集中执行，以便比较结果。

本文的主要目的是从人体测量学（背景）以外的生物阻抗中选择对瘦体重预测影响最大的变量。主要结果如图所示1和2，是：

在完整的数据集中，人体测量在全球范围内比生物阻抗更为重要；在线性和随机森林预测中，最重要的变量是权重。事实上，根据人体测量对线性模型中的响应的预测 ${R（右）}^{2} = 0.81$ 从所有的预测结果来看 ${R（右）}^{2} = 0.90$ .
在简化的数据集中( ${R（右）}^{2} = 0.50$ )在线性预测和随机森林预测中，电阻比电抗更重要。
在这两种预测的简化数据集中，电阻的重要性随着频率的增加而增加，其最大值为250 KHz。显著性的经验检验仅选择电阻R50、R100和R250具有显著重要性。
完整数据集和精简数据集之间的比较表明，重要性分配可能不同：在完整数据集中，R100是最重要的，而在精简数据集中，R250是最重要的。这种反演在线性和随机森林方法中都存在。

在三种不同的相关方案中进行的模拟研究涉及简化模型中的预测，旨在对上述第2）点和第3）点提供见解。仿真结果表明，该方法能够区分两组预测器，对电阻的重要性大于对电抗的重要性，并且能够在电阻中选择更重要的高频电阻（R100、R250）。

随机森林中重要性度量的理论和方法方面仍然是研究对象，主要集中于调查预测因子高度相关时方法的性能[2]. 在加性回归模型的特殊情况下，可以描述相关性对排列重要性的影响，并显示算法选择少量变量的效率[16]. 这种方法和其他方法考虑了协方差方案的特殊示例，但还不够通用，无法像目前的方法那样包括临床应用。我们不知道对背景变量在重要性度量中的作用的调查，除了[30]其中定义了条件变量重要性。该方法计算从树生长过程中要调节的变量的分裂中获得的样本子集的置换重要性。这显然没有定义一个简化的数据集，在我们的方法中，该数据集用于应用不同的变量选择方法并比较结果。本文提出的方法可以通过以下事实来证明：用于计算残差的预测数远远小于样本数（分别为3和135），因此简化数据集中的样本可以被视为近似独立。仿真验证了该方法的有效性。

我们的临床导向应用提出了三个开放性问题：1）从理论上证明了使用与一组背景变量相关的残差来对其余临床感兴趣的变量组进行变量选择的合理性；2）提供一个测试来比较两个排列重要性；3）在具有不同生理作用的不同亚组中选择变量，如电阻和电抗。

这项研究对预测瘦体重的主要贡献是，有证据表明，相对于线性和随机森林方法中观察到的频率，阻力的重要性分配越来越大。一种可能的解释是，这种重要性的增加是由于众所周知的事实，即交流电越来越频繁地渗入细胞内的贫水。我们得出的结论是，R250，即250 KHz时的电阻，可以被选为除人体测量外最具影响力的预测因子。值得一提的是，为了预测身体成分，生物阻抗分析的传统临床实践使用在单一频率下获得的测量值，通常是R50和X50对[7].

补充材料

Online_Supplement.xls：

单击此处查看其他数据文件。^{（15K，xls）}

致谢

我们感谢裁判的宝贵意见和建议。

披露声明

提交人没有报告潜在的利益冲突。

工具书类

1Archer K.J.和Kimes R.V。，随机森林变量重要性测度的实证特征,计算。统计数据分析。 52（2008），第2249–2260页。doi:10.1016/j.csda.2007.08.015[交叉参考][谷歌学者]

2.Biau G.和Scornet E。，随机森林导览,测试 25（2016），第197-227页。doi:10.1007/s11749-016-0481-7[交叉参考][谷歌学者]

三。Breiman L.、Friedman J.H.、Olshen R.A.和Stone C.J。，分类和回归树，查普曼和霍尔，博卡拉顿，1998年。[谷歌学者]

4Cafri G.、Li L.、Paxton E.W.和Fan J。，使用随机森林预测不良健康事件的风险,J.应用。斯达。 45（2018），第2279-2294页。doi:10.1080/02664763.2017.1414166[交叉参考][谷歌学者]

5Deurenberg P.、Tagliabue A.和Schouten F.J.M。，多频阻抗法预测细胞外水和全身水,英国营养学杂志。 73（1995年），第349-358页。doi:10.1079/BJN19950038[公共医学] [交叉参考][谷歌学者]

6Draper N.R.和Smith H。，应用回归分析，威利，纽约，1998年。[谷歌学者]

7地球人C.P。，床边成人营养不良的身体成分评估工具,J.肠外营养。 39（2015），第787–822页。doi:10.1177/0148607115595227[公共医学] [交叉参考][谷歌学者]

8El Haouij N.、Poggi J.-M.、Ghozi R.、Sevestre-Ghalila S.和Jaídane M。，基于随机森林的驾驶员应激水平分类生理功能变量选择方法《统计方法应用》，2018年。

9Ellis K.J。，人体成分：体内方法,生理学。版次。 80（2000），第649-680页。doi:10.1152/physrev.2000.80.2649[公共医学] [交叉参考][谷歌学者]

10埃里克·A。，rfPermute：估计置换第页-随机森林重要性度量值, 2018. R包版本2.1.6。

11Genuer R.、Poggi J.-M.和Tuleau-Malot C。，使用随机森林的变量选择,图案。认可。莱特。 31（2010），第2225-2236页。doi:10.1016/j.patrec.2010.03.014[交叉参考][谷歌学者]

12Goerg总经理。，LambertW：分析和高斯化重尾、偏斜数据的概率模型, 2016. R包版本0.6.4。

13Grömping U.公司。，r中线性回归的相对重要性：包关系,J.统计软件。 17（2006），第1-27页。doi:10.18637/jss.v017.i01[交叉参考][谷歌学者]

14Grömping U.公司。，基于方差分解的线性回归相对重要性估计,美国统计局。 61（2007），第139-147页。doi:10.1198/000313007X188252[交叉参考][谷歌学者]

15Grömping U.公司。，回归中的变量重要性评估：线性回归与随机森林,美国统计局。 63（2009），第308–319页。doi:10.1198/tast.2009.08199[交叉参考][谷歌学者]

16Gregorutti B.、Michel B.和Saint-Pierre P。，随机森林中的相关性和变量重要性,统计计算。 27（2017），第659-678页。doi:10.1007/s11222-016-9646-1[交叉参考][谷歌学者]

17Hapfelmeier A.和Ulm K。，一种新的基于随机森林的变量选择方法,计算。统计数据分析。 60（2013），第50-69页。doi:10.1016/j.csda.2012.09.020[交叉参考][谷歌学者]

18Hastie T.、Tibshirani R.和Friedman J。，统计学习的要素，施普林格，纽约，2001年。[谷歌学者]

19Hothorn T.、Hornik K.和Zeileis A。，无偏递归划分：一个条件推理框架,J.计算。图表。斯达。 15（2006），第651-674页。doi:10.1198/106186006X133933[交叉参考][谷歌学者]

20Janitza S.、Celik E.和Boulesteix A.-L。，一种用于高维数据的随机森林计算快速变量重要性测试《数据分析和分类进展》，2016年。

21Khalil S.F.、Mohktar M.S.和Ibrahim F。，生物阻抗分析在疾病临床监测和诊断中的理论和基础,传感器 14（2014），第10895–10928页。数字对象标识代码：10.3390/s140610895[PMC免费文章][公共医学] [交叉参考][谷歌学者]

22Kyle U.G.、Bosaeus I.、De Lorenzo A.D.、Deurenberg P.、Elia M.、Kent Smith L.、Melchior J.C.、Pirlich M.和Scharfetter H。，生物电阻抗分析第一部分：原理和方法综述,临床营养师。 23（2004），第1226–1243页。doi:10.1016/j.clnu.2004.06.004[公共医学] [交叉参考][谷歌学者]

23洛弗尔M.C。，fwl定理的一个简单证明,《经济学杂志》。教育。 39（2008），第88–91页。doi:10.3200/JECE.39.188-91[交叉参考][谷歌学者]

24.McGree J.M.、Duffull S.B.、Eccleston J.A.和Ward L.C。，生物阻抗研究的优化设计,生理学。测量。 28（2007），第1465页。doi:10.1088/0967-3334/28/12/002[公共医学] [交叉参考][谷歌学者]

25Newman A.B.、Kupelian V.、Visser M.、Simonsick E.、Goodpaster B.、Nevitt M.、Kritchevsky S.B.、Tylavsky F.A.、Rubin S.M.和Harris T.B。，AMD健康ABC研究人员。肉芽肿：替代定义及其与下肢功能的关系,美国老年医学会杂志。 51（2003），第1602-9页。文件编号：10.1046/j.1532-5415.2003.51534.x[公共医学] [交叉参考][谷歌学者]

26Nicodemus K.K.、Malley J.D.、Strobl C.和Ziegler A。，预测相关下基于随机森林排列的变量重要性测度的行为,BMC生物信息。 11（2010），第110页。数字对象标识代码：10.1186/1471-2105-11-110[PMC免费文章][公共医学] [交叉参考][谷歌学者]

27Pichler G.P.、Amouzadeh-Ghadikolai O.、Leis A.和Skrabal F。，全身生物阻抗谱（BIS）的关键分析，用于评估健康和疾病中的身体部位,医学工程物理。 35（2013），第616–625页。doi:10.1016/j.medengphy.2012.07.006[公共医学] [交叉参考][谷歌学者]

28R开发核心团队，R：统计计算语言与环境《R统计计算基金会》，维也纳，2008年。国际标准图书编号（ISBN）3-900051-07-0。[谷歌学者]

29Seoane F.、Abtahi S.、Abtahi F.、Ellegard L.、Johannsson G.、Bosaeus I.和Ward L.C。，预测全身水分的平均预期误差：生物阻抗谱与单频回归方程的真实精度比较,生物识别。Res.Int.公司。 2015（2015），第656323页。[PMC免费文章][公共医学][谷歌学者]

30Strobl C.、Boulesteix A.-L.、Kneib T.、Augustin T.和Zeileis A。，随机森林的条件变量重要性,BMC生物信息。 9（2008），第307页。doi:10.1186/1471-2105-9-307[PMC免费文章][公共医学] [交叉参考][谷歌学者]

31Strobl C.、Malley J.和Tutz G。，递归分割简介：分类树、回归树、袋装林和随机林的原理、应用和特点,精神病。方法。 14（2009），第323–348页。doi:10.1037/00106973[PMC免费文章][公共医学] [交叉参考][谷歌学者]

32Tayefi M.、Esmaeili H.、Karimian M.S.、Zadeh A.A.、易卜拉希米M.、Safarian M.、Nematy M.、Parizadeh S.M.R.、Ferns G.A.和Ghayour-Mobarhan M。，决策树在建立高血压相关参数中的应用,计算。方法。程序。生物识别。 139（2017），第83-91页。doi:10.1016/j.cmpb.2016.10.20[公共医学] [交叉参考][谷歌学者]

33van Baar H.、Hulshof P.J.M.、Tieland M.和de Groot C.P.G.M。，生物阻抗分析在（预）虚弱老年人阑尾骨骼肌质量评估中的应用,临床。螺母。ESPEN公司。 10（2015），第e147–e153页。doi:10.1016/j.clnesp.2015.05.002[公共医学] [交叉参考][谷歌学者]

34Verikas A.、Gelzinis A.和Bacauskine M。，用随机森林挖掘数据：调查和新测试结果,图案。认可。 44（2011），第330-349页。doi:10.1016/j.patcog.2010.08.011[交叉参考][谷歌学者]

35王琦、阮T.-T.、黄J.Z.和阮T.T。，一种用于高维数据分类的高效随机森林算法《数据分析和分类进展》，2018年。

36Yamada Y.、Watanabe Y.、Ikenaga M.、Yokoyama K.、Yoshida T.、Morimoto T.和Kimura M。，老年人阑尾骨骼肌单频或多频生物电阻抗分析与波谱评估的比较,J.应用。生理学 115（2013），第812-8页。doi:10.1152/japplphysical.00010.2013[公共医学] [交叉参考][谷歌学者]

37张刚、陆毅。，回归中的偏差校正随机森林,J.应用。斯达。 39（2012），第151-160页。doi:10.1080/02664763.2011.578621[交叉参考][谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯