摘要
随机森林算法作为一种灵活的非参数学习工具,已被广泛应用于各种实际应用中,即使在存在高维特征空间的情况下,也具有良好的经验性能。揭示潜在机制导致了一些关于随机森林算法及其变体一致性的重要理论结果。然而,据我们所知,几乎所有关于高维环境下随机森林一致性的现有研究都是针对各种修改后的随机森林模型建立的,其中分裂规则与响应无关;少数例外情况假设具有二进制特性的简单数据生成模型。有鉴于此,本文推导了与样本CART分裂准则相关联的随机森林算法的一致性率,该准则在原始版本的算法中使用(机器。学习。 45(2001)5–32),在一般高维非参数回归环境中,通过方差分解分析。我们的新理论结果表明,随机森林确实能够适应高维并允许不连续回归函数。我们的偏差分析明确地描述了随机森林偏差如何依赖于样本大小、树高和列子抽样参数。还讨论了我们当前结果的一些局限性。
资金筹措表
第一位作者得到了台湾国家科学技术委员会(National Science and Technology Council,Taiwan)111-2118-M-001-012-MY2的资助。
这项工作得到了NSF拨款DMS-1953356和西蒙斯基金会拨款的支持。
致谢
联合通讯作者:范莹莹(Yingying Fan)和吕金池(Jinchi Lv)。
作者衷心感谢编辑、副编辑和审稿人的建设性意见,这些意见有助于大幅改进论文。
引用
下载引文
池建明。
帕特里克·沃斯勒。
范莹莹。
吕金驰。
“高维随机森林的渐近特性。”
安。统计师。
50
(6)
3415 - 3438,
2022年12月。
https://doi.org/10.1214/22-AOS2234
问询处
收到日期:2022年4月1日;出版日期:2022年12月
欧几里德项目首次提供:2022年12月21日
数字对象标识符:10.1214/22-AOS2234
学科:
主要用户:62G05型,62G08号
次要:6220国集团,62甲12
关键词:一致性,高维性,非参数学习,随机森林,收敛速度,稀疏度
版权所有©2022数学统计研究所