摘要
稀疏回归模型中的变量选择是一项重要任务,从生物医学研究到计量经济学的应用都表明了这一点。特别是对于高维回归问题,作为响应和协变量之间的链接的回归函数无法直接检测,信息变量的选择具有挑战性。在这种情况下,随机森林方法是一种有用的工具,可以预测新的结果,同时提供变量选择的度量。一种常见的方法是使用排列重要性。由于其直观的思想和灵活的使用,探索基于随机森林的排列重要性正确指示信息协变量的情况非常重要。对于后者,我们在诸如特征相互独立等特定假设下为置换重要性测度的有效性提供了理论保证,并证明了它的(渐近)无偏性,而在稍微严格的假设下,建立了置换重要性度量的一致性。一项广泛的模拟研究支持了我们的发现。
资金筹措表
Burim Ramosaj的工作由NRW州文化和科学部(MKW NRW)通过研究大计划资助KI-起动器作者感谢多特蒙德技术大学(LiDO3)Linux HPC集群上提供的计算时间,该计算时间部分由德国研究基金会(DFG)的大型设备倡议项目271512359资助。
致谢
我们非常感谢杰拉德·比亚(Gérard Biau)和埃尔沃德·斯科内特(Erward Scornet)在索邦大学(Sorbonne Universityé)和埃科尔理工学院(Ecole Polytechnique)进行学术访问期间,就兰登森林(Random Forest)相关问题进行了卓有成效的讨论。此外,我们还要感谢两位专家裁判的宝贵而详细的评论,特别是他们指出了定理2中以前的推理问题。
引用
下载引文
布里姆·拉莫萨。
马库斯·保利。
“使用随机森林排列重要性在独立特征下进行一致且无偏的变量选择。”
伯努利
29
(3)
2101 - 2118,
2023年8月。
https://doi.org/10.3150/22-BEJ1534
问询处
收到日期:2021年5月1日;发布日期:2023年8月
首次在欧几里得项目中可用:2023年4月27日
数字对象标识符:10.3150/22-BEJ1534
关键词:一致性,袋外样品,排列重要性,随机森林,统计学习,无偏性