卢卡斯·曼奇;贾尔斯·胡克 通过置信区间和假设检验量化随机森林中的不确定性。 (英语) 兹比尔1360.62095 J.马赫。学习。物件。 17,第26号论文,41页(2016年). 总结:这项工作为监督学习集成生成的预测开发了正式的统计推断程序。基于自举的集成方法,如套袋和随机森林,提高了单个树的预测准确性,但未能提供一个易于确定分布结果的框架。我们考虑通过对建立在训练集子样本上的树进行平均来进行预测,而不是聚合完整的引导样本,并证明得到的估计器采用U统计量的形式。因此,单个特征向量的预测是渐近正态的,允许置信区间伴随预测。实际上,子样本的子集用于计算速度;这里我们的估计采用不完全U统计量的形式,并导出了等价的结果。我们进一步证明,此设置为测试功能的重要性提供了一个框架。此外,我们开发的内部估计方法允许我们估计方差参数,并在不增加额外计算成本的情况下执行这些推理过程。提供了实际数据集上的模拟和图示。 引用于54文件 MSC公司: 2012年12月62日 参数估计量的渐近性质 60F05型 中心极限和其他弱定理 62G09号 非参数统计重采样方法 62H30型 分类和区分;聚类分析(统计方面) 关键词:树;U统计;装袋;分格;随机森林 软件:贝叶斯树 PDF格式BibTeX公司 XML格式引用 \textit{L.Mentch}和\textit{G.Hooker},J.Mach。学习。第17号决议,第26号论文,41页(2016年;Zbl 1360.62095) 全文: arXiv公司 链接