总结

可变重要性测度是用于分析随机森林黑箱机制的主要工具。虽然平均减少精度被广泛接受为随机森林最有效的变量重要性度量,但对其统计特性知之甚少。事实上,在主要的随机森林软件中,平均减少精度的定义各不相同。在本文中,我们的目标是严格分析主要平均值降低精度实现的行为。因此,我们对各种实现的均值降低精度算法进行了数学形式化,然后确定了它们在样本量增加时的限制。这种渐近分析表明,这些平均减少精度版本作为重要度量不同,因为它们收敛于不同的量。更重要的是,我们将这些限制分为三个部分:前两项与Sobol指数有关,Sobol指标是一种定义明确的衡量协变量对响应方差贡献的指标,广泛用于敏感性分析领域,而第三项则相反,其值随协变量内相关性的增加而增加。因此,我们从理论上证明,平均减少准确度没有针对在相关设置中检测有影响的协变量的正确数量,这一事实已经在实验中得到了注意。为了解决这个问题,我们为随机森林定义了一个新的重要性度量,Sobol-mean减少准确度,它修复了原始平均减少准确度的缺陷,并一致估计了在没有给定协变量的情况下重新训练的森林的准确度减少,但具有有效的计算成本。在变量选择的模拟和实际数据方面,Sobol-man递减精度在经验上均优于其竞争对手。

本文根据牛津大学出版社标准期刊出版模式的条款出版和分发(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)
您当前没有访问此文章的权限。