跳到主页面内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2009年12月;14(4):323-48.
doi:10.1037/a0016973。

递归分区简介:分类树、回归树、套袋和随机森林的原理、应用和特征

附属公司

递归分区简介:分类树、回归树、套袋和随机森林的原理、应用和特征

卡罗琳·斯特罗布等人。 心理学方法. 2009年12月.

摘要

递归划分方法已经成为许多科学领域中广泛使用的非参数回归和分类工具。尤其是随机森林,它可以处理大量预测变量,即使存在复杂的相互作用,在过去几年中已成功应用于遗传学、临床医学和生物信息学。高维问题不仅在遗传学中很常见,在心理学研究的某些领域也很常见,因为时间或成本限制,只能对少数受试者进行测量,但每个受试者都会产生大量数据。研究表明,随机森林在此类应用中具有较高的预测精度,并提供描述性变量重要性度量,反映每个变量在主要影响和交互作用中的影响。这项工作的目的是介绍标准递归划分方法的原理以及最近的方法学改进,以说明它们在低维和高维数据探索中的应用,同时也指出这些方法的局限性及其实际应用中的潜在缺陷。这些方法的应用通过R系统中用于统计计算的免费实现进行了说明。

PubMed免责声明

数字

图1
图1
通过二元分类树对吸烟数据进行划分。树表示(左)对应于特征空间的矩形递归分区(右)。在树的末端节点中,深色和浅灰色阴影区域分别表示每组中对吸烟意向问题的“是”和“否”回答的相对频率。矩形分区中的相应区域以多数响应的颜色着色。
图2
图2
吸烟数据二元分类树内部节点中两个响应类的相对频率。深色和浅灰色阴影区域再次代表了各组对吸烟意向的“是”和“否”回答的相对频率。
图3
图3
基尼指数和香农熵是一个反应类别相对频率的函数。仅包含一类观测值的纯节点的杂质值为零,而混合节点的杂质值更高。
图4
图4
基于吸烟数据变化的分类树,有两个主要影响(左)和交互作用(右)。图1中基于原始数据绘制的树也表示一种交互。
图5
图5
基于吸烟数据的四个自举样本的分类树,说明了单个树的不稳定性。
图6
图6
基于吸烟数据的四个自举样本的分类树(不停地生长或修剪),说明了装袋的原理。
图7
图7
基于吸烟数据的四个自举样本的分类树(在不停止或修剪的情况下生长,每个分割中随机预选两个变量),说明了随机森林的原理
图8
图8
来自装袋和随机森林的吸烟数据的预测变量的置换变量重要性得分。
图9
图9
反应时间数据的基于模型的分区。兴趣模型将睡眠剥夺的天数与反应时间联系起来。
图10
图10
原始和修改基因数据的可变重要性。

类似文章

引用人

工具书类

    1. Ambroise C,McLachlan GJ公司。基于微阵列基因表达数据的肿瘤分类中基因提取的选择偏差。美国国家科学院院刊。2002;99:6562–6566.-项目管理咨询公司-公共医学
    1. Austin P,Tu J.逻辑回归的自动变量选择方法产生了预测急性心肌梗死死亡率的不稳定模型。临床流行病学杂志。2004;57(11):1138–1146.-公共医学
    1. Azen R,Budescu DV公司。在多元回归中比较预测因素的优势分析方法。心理学方法。2003;8(2):129–48.-公共医学
    1. Azen R,Budescu DV,Reiser B.多元回归中预测因子的重要性。英国数学与统计心理学杂志。2001;54:201–225.-公共医学
    1. Baca-Garcia E、Perez-Rodriguez MM、Saiz-Gonzalez D、Basurte-Villamor I、Saiz-Ruiz J、Leiva-Murillo JM、de Prado-Cumplido M、Santiago-Mozos R、Artes-Rodriugez A、de Leon J。自杀未遂者样本中与家族自杀未遂相关的变量。神经心理药理学和生物精神病学进展。2007;31(6):1312–1316.-公共医学