所有模型都是错误的,但许多模型都是有用的:通过同时研究一整类预测模型来了解变量的重要性

亚伦·费舍尔、辛西娅·鲁丁、弗朗西丝卡·多米尼克。

年份:2019年,数量:20,版本:177,页码:1−81


摘要

变量重要性(VI)工具描述了有多少协变量有助于预测模型的准确性。然而,一个性能良好的模型的重要变量(例如,线性模型$f(\mathbf{x})=\mathbf{x}^{T}\beta$,具有固定系数向量$\beta$s)对于另一个模型可能并不重要。在本文中,我们提出模型类依赖(MCR)作为预先指定类中所有性能良好的模型的VI值范围。因此,MCR通过考虑许多预测模型(可能具有不同的参数形式)可能很好地拟合数据这一事实,对重要性进行了更全面的描述。在推导MCR的过程中,我们根据随机森林中使用的VI度量,展示了基于排列的VI估计的几个有用结果。具体来说,我们推导了单个预测模型的置换重要性估计、U统计量、条件变量重要性、条件因果效应和线性模型系数之间的联系。然后,我们使用一种新颖的、可推广的技术给出了MCR的概率界。我们将MCR应用于布劳沃德县犯罪记录的公共数据集,以研究累犯预测模型对性别和种族的依赖性。在此应用中,MCR可用于帮助通知VI未知的专有模型。

PDF格式 BibTeX公司