×

通过置信区间和假设检验量化随机森林中的不确定性。 (英语) 兹比尔1360.62095

总结:这项工作为监督学习集成生成的预测开发了正式的统计推断程序。基于自举的集成方法,如套袋和随机森林,提高了单个树的预测准确性,但未能提供一个易于确定分布结果的框架。我们考虑通过对建立在训练集子样本上的树进行平均来进行预测,而不是聚合完整的引导样本,并证明得到的估计器采用U统计量的形式。因此,单个特征向量的预测是渐近正态的,允许置信区间伴随预测。实际上,子样本的子集用于计算速度;这里我们的估计采用不完全U统计量的形式,并导出了等价的结果。我们进一步证明,此设置为测试功能的重要性提供了一个框架。此外,我们开发的内部估计方法允许我们估计方差参数,并在不增加额外计算成本的情况下执行这些推理过程。提供了实际数据集上的模拟和图示。

MSC公司:

2012年12月62日 参数估计量的渐近性质
60F05型 中心极限和其他弱定理
62G09号 非参数统计重采样方法
62H30型 分类和区分;聚类分析(统计方面)

软件:

贝叶斯树
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接