×

随机森林预测误差估计的统一框架。 (英语) Zbl 07370525号

摘要:我们介绍了一个基于条件预测误差分布函数的新估计量的随机森林预测误差估计的统一框架。我们的框架支持对关键预测不确定性度量进行简单的插件估计,包括随机森林和许多变体的条件均方预测误差、条件偏差和条件分位数。我们的方法特别适合于预测区间估计;我们通过仿真表明,我们提出的预测区间与现有方法具有竞争力,并且在某些情况下优于现有方法。为了为我们的框架奠定理论基础,我们证明了条件预测误差分布函数的更严格估计的逐点一致一致性。此处介绍的估算器在R(右)包裹forest错误.

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 苏珊·雅西、朱莉·蒂比西拉尼和斯特凡·瓦格。广义随机森林。《统计年鉴》,47(2):1148-11782019年·Zbl 1418.62102号
[2] G´erard Biau。随机森林模型分析。机器学习研究杂志,13:1063-10952012·Zbl 1283.62127号
[3] 格拉德·比亚(G´erard Biau)、吕克·德夫罗伊(Luc Devroye)和格阿布·卢戈西。随机森林和其他平均分类器的一致性。机器学习研究杂志,9:2015-20332008·Zbl 1225.62081号
[4] 利奥·布雷曼(Leo Breiman)。银行外估算。技术报告,加州大学伯克利分校统计系,1996年·Zbl 0849.68095号
[5] 利奥·布雷曼(Leo Breiman)。使用自适应打包借记回归。技术报告,加州大学伯克利分校统计系,1999年·Zbl 1052.68109号
[6] 利奥·布雷曼(Leo Breiman)。随机森林。机器学习,45(1):5-322001·Zbl 1007.68152号
[7] 利奥·布雷曼(Leo Breiman)。建立、使用和理解随机森林手册。技术报告,加州大学伯克利分校统计系,2002年。
[8] 彼得·贝鲁曼(Peter B–uhlmann)和余斌(Bin Yu)。分析装袋。《统计年鉴》,30(4):927-9612002年·兹比尔1029.62037
[9] 安东尼奥·克里米尼西(Antonio Criminisi)、杰米·肖顿(Jamie Shotton)、邓肯·罗伯逊(Duncan Robertson)和恩德·科努科格鲁(Ender Konukoglu)。用于CT研究中有效解剖检测和定位的回归森林。医学计算机视觉国际MICCAI研讨会,第106-117页,2010年。
[10] Dheeru Dua和Casey Graff。UCI机器学习库,2019年。网址:http://archive.ics.uci.edu/ml。
[11] Bradley Efron和Robert J.Tibshirani。引导程序简介。查普曼和霍尔/CRC,纽约,1994年。为9780412042317英镑·Zbl 0835.62038号
[12] 云芳、徐培荣、杨嘉良、秦玉芳。基于分位数回归森林的药物反应预测和预测可靠性评估方法。《公共科学图书馆·综合》,13(10):e02051552018年。
[13] 里娜·弗里德伯格(Rina Friedberg)、朱莉·蒂比西拉尼(Julie Tibshirani)、苏珊·阿西(Susan Athey)和斯特凡·瓦格(Stefan Wager)。当地线性森林。arXiv预印arXiv:1807.11408v32019。
[14] 杰罗姆·弗里德曼(Jerome H.Friedman)。多元自适应回归样条。《统计年鉴》,19(1):1-671991年·兹比尔0765.62064
[15] 杰罗姆·弗里德曼(Jerome H.Friedman)。贪婪函数近似:梯度推进机。《统计年鉴》,29(5):1189-1232,2001年·Zbl 1043.62034号
[16] Indrayudh Ghosal和Giles Hooker。增加随机森林以减少偏差;一步强化森林及其方差估计。arXiv预印本arXiv:1803.08000v32020。
[17] R.Grimm、T.Behrens、M.M¨arker和H.Elsenbeer。巴罗-科罗拉多岛土壤有机碳浓度和储量——使用随机森林分析的数字土壤制图。Geoderma,146:102-1132008年。
[18] 贾尔斯·胡克和卢卡斯·曼奇。集合方法的自举偏差修正。统计与计算,28(1):77-862018·Zbl 1384.62145号
[19] 乌尔夫·约翰逊(Ulf Johansson)、亨利克·博斯特朗(Henrik Bostr)、图夫·洛夫斯特朗(Tuve L–ofstr)和亨利克·利努森(Henrick Linusson)。随机森林回归保角预测。机器学习,97:155-1762014·Zbl 1319.68175号
[20] 井磊和拉里·瓦瑟曼。非参数回归的无分布预测带。《皇家统计学会杂志:B辑(统计方法)》,76:71-962014·Zbl 1411.62103号
[21] Jing Lei、Max G'Sell、Alessandro Rinaldo、Ryan J.Tibshirani和Larry Wasserman。回归的无分布预测推断。《美国统计协会杂志》,113:1094-11112018年·Zbl 1402.62155号
[22] 弗里德里希·利什和叶夫根妮娅·迪米特里亚杜。mlbench:机器学习基准问题。2010.R包版本2.1-1。
[23] Andy Liaw和Matthew Wiener。按randomForest进行分类和回归。R新闻,2(3):18-222002。
[24] Ranjan Maitra和Volodymyr Melnykov。模拟数据以研究有限混合建模和聚类算法的性能。《计算与图形统计学杂志》,19(2):354-3762010·Zbl 1190.62121号
[25] 尼古拉·明绍森(Nicolai Meinshausen)。分位数回归森林。机器学习研究杂志,7:983-9992006·Zbl 1222.68262号
[26] Volodymyr Melnykov、Wei-Chen Chen和Ranjan Maitra。MixSim:一个用于模拟数据以研究聚类算法性能的R包。《统计软件杂志》,51(12):1-252012。
[27] 卢卡斯·门奇和贾尔斯·胡克。通过置信区间和假设检验量化随机森林中的不确定性。机器学习研究杂志,17:1-412016·Zbl 1360.62095号
[28] 埃尔万·斯科内特(Erwan Scornet)。随机森林和核方法。IEEE信息理论汇刊,62(3):1485-15002016·Zbl 1359.94969号
[29] Erwan Scornet、G´erard Biau和Jean-Philippe Vert。随机森林的一致性。《统计年鉴》,43(4):1716-17412015年·Zbl 1317.62028号
[30] 约瑟夫·塞克斯顿和彼得·拉克。袋装和随机森林估计器的标准误差。计算统计与数据分析,53(3):801-8112009·Zbl 1452.62121号
[31] 本杰明·范·多伦(Benjamin M.Van Doren)和凯尔·霍顿(Kyle G.Horton)。预测鸟类迁徙的大陆系统。《科学》,361:1115-11182018。
[32] W.N.Venables和B.D.Ripley。《现代应用统计与S.Springer》,纽约,第四版,2002年。国际标准图书编号0-387-95457-0·Zbl 1006.62003号
[33] Stefan Wager和Susan Athey。利用随机森林估计和推断异质性处理效果。《美国统计协会杂志》,113:1228-12422018·Zbl 1402.62056号
[34] Stefan Wager和Guenther Walther。回归树的自适应集中,应用于随机森林。arXiv预印本arXiv:153.06388v32016。
[35] Stefan Wager、Trevor Hastie和Bradley Efron。随机森林的置信区间:刀切和无限小刀切。《机器学习研究杂志》,2014年15:1625-1651·Zbl 1319.62132号
[36] 齐林伟、吉尔伯特·T·罗、埃尔瓦·埃斯科巴尔·布里昂斯、安特耶·博提乌斯、托马斯·索特代尔、M.朱利安·卡利、尤斯里娅·索利曼、福尔克·赫特曼、方圆区、紫杉·余、C.罗兰·皮彻、理查德·哈德里奇、玛丽·K·维克斯滕、迈克尔·A·雷克斯、杰弗里·巴古雷、乔茨纳·夏尔马、罗伯特·丹诺瓦罗、伊恩·麦克唐纳、克利夫顿·纳利、乔迪·德明、,保罗·蒙塔格纳(Paul Montagna)、米兰妮·列夫斯克(M´elanie L´evesque)、扬·马金·韦斯拉夫斯基(Jan Marcin Weslawski)、玛丽亚·瓦尔祖克(Maria WlodarskaKowalczuk)、巴班·英格尔(Baban S.Ingole)、布莱恩·贝特(Brian J.Bett)、大卫·比列特(David S。使用随机森林的全球海底生物量模式和预测。公共科学图书馆·综合》,5(12):e153232010年。
[37] 张国义,卢燕。回归中的偏差校正随机森林。应用统计杂志,39(1):151-1602012·Zbl 1514.62010年
[38] 张浩哲(Haozhe Zhang)、乔舒亚·齐默尔曼(Joshua Zimmerman)、丹·内特尔顿(Dan Nettleton)和丹尼尔·诺德曼(Daniel J.Nordman)。随机森林预测间隔。《美国统计学家》,2019年第1-15页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。