维罗尼卡罗奇科娃;圣埃芬尼范德帕斯 贝叶斯回归树和森林的后验集中。 (英语) Zbl 1459.62057号 Ann.统计。 48,第4期,2108-2131(2020). 作者考虑了已经经典的非参数回归模型(Y_i=f_0(\mathbf{x}_i)+\epsilon_i\),其中{x} _ i=(x{i1},\dots,x{ip})'\),\(1\leqi\leqn)是潜在的协变量,\(Y_i)是响应,\(epsilon_i)则是噪声变量。统计问题是从样本(mathbf)中恢复(f_0{x} _ i\),\(Y_i\))。本文从一类非参数预测方法出发,考虑并研究了贝叶斯回归树和森林。如作者所述,本文的目标是为贝叶斯回归树提供最优性结果。他们引入了贝叶斯CART先验的新变体,用于降维和无模型变量选择,即尖峰树先验。提供了一组理论结果。第二节介绍了一些基础知识,第三节介绍了递归分区的定义。解释了有效分区、平衡分区、树分区、(k)-d树分区、树结构步骤函数等概念。第四节介绍了尖峰树先验的概念,并证明了贝叶斯CART先验下的后验分布具有最优性质。第五节详细分析了由单个树生成的分区单元的集体行为。第六节给出了当(f_0)具有加性结构时,贝叶斯加性回归树的后验集中的一个结果。下面是一些实现考虑因素以及对结果的简短讨论。第八节和题为“贝叶斯回归树和森林的后验集中”的补充材料,doi:10.1214/19-AOS1879SUPP文件包含详细的结果证明。审核人:Claudia Simionescu-Badea(维也纳) 引用于20文件 MSC公司: 62G08号 非参数回归和分位数回归 62克20 非参数推理的渐近性质 62H30型 分类和区分;聚类分析(统计方面) 62-08 统计问题的计算方法 关键词:加性回归;渐近极小性;巴特;贝叶斯CART;后浓度;递归分区;回归树 软件:巴蒂 PDF格式BibTeX公司 XML格式引用 \textit{V.Ročková}和\textit{S.van der Pas},Ann.Stat.48,No.4,2108--2131(2020;Zbl 1459.62057) 全文: 内政部 arXiv公司 欧几里得 参考文献: [1] 安德森·T·W(1966)。基于统计等效块的一些非参数多元程序。《多元分析》(Proc.Internat.Sympos.,Dayton,Ohio,1965)5-27。纽约学术出版社·Zbl 0245.62054号 [2] Bentley,J.L.(1975年)。用于关联搜索的多维二进制搜索树。Commun公司。ACM 18 509-517。Zentralblatt数学:0306.68061数字对象标识符:doi:10.1145/361002.361007·Zbl 0306.68061号 ·数字对象标识代码:10.1145/361002.361007 [3] Bhattacharya,A.、Pati,D.和Dunson,D.(2014)。使用多带宽高斯过程的各向异性函数估计。安。统计师。42 352-381. Zentralblatt数学:1360.62168数字对象标识符:doi:10.1214/13-AOS1192欧几里德项目:Euclid.aos/1395234981·兹比尔1360.62168 ·doi:10.1214/13-AOS1192 [4] Biau,G.(2012)。随机森林模型分析。J.马赫。学习。第13号决议1063-1095。Zentralblatt数学:1283.62127·Zbl 1283.62127号 [5] Biau,G.、Devroye,L.和Lugosi,G.(2008)。随机森林和其他平均分类器的一致性。J.马赫。学习。2015-2033年第9号决议。Zentralblatt数学:1225.62081·Zbl 1225.62081号 [6] Biau,G.和Scornet,E.(2016)。随机森林导览。测试25 197-227。Zentralblatt数学:1402.62133数字对象标识符:doi:10.1007/s11749-016-0481-7·Zbl 1402.62133号 ·doi:10.1007/s11749-016-0481-7 [7] Bleich,J.、Kapelner,A.、George,E.I.和Jensen,S.T.(2014)。BART变量选择:基因调控的应用。附录申请。Stat.8 1750-1781年。数学评论(MathSciNet):MR3271352Zentralblatt数学:1304.62132数字对象标识符:doi:10.1214/14-AOAS755欧几里德项目:Euclid.aoas/1414091233·Zbl 1304.62132号 ·doi:10.1214/14-AOAS755 [8] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. Zentralblatt数学:1007.68152数字对象标识符:doi:10.1023/A:1010933404324·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324 [9] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树。华兹华斯统计/概率系列。加利福尼亚州贝尔蒙特市沃兹沃斯,Zentralblatt数学:0541.62042·Zbl 0541.62042号 [10] Castillo,I.(2017)。Pólya树密度的后验分布。亨利·彭加雷·普罗巴布(Henri PoincaréProbab)安·Inst。统计53 2074-2102。Zentralblatt数学:1384.62156数字对象标识符:doi:10.1214/16-AIHP784欧几里得项目:Euclid.aihp/11117773739·Zbl 1384.62156号 ·doi:10.1214/16-AIHP784 [11] Castillo,I.和Rousseau,J.(2015)。半参数模型中光滑泛函的Bernstein-von Mises定理。安。统计师。43 2353-2383. Zentralblatt数学:1327.62302数字对象标识符:doi:10.1214/15-AOS1336欧几里德项目:Euclid.aos/1444222078·Zbl 1327.62302号 ·doi:10.1214/15-AOS1336 [12] Castillo,I.、Schmidt-Hieber,J.和van der Vaart,A.(2015)。稀疏先验贝叶斯线性回归。安。统计师。43 1986-2018. Zentralblatt数学:06502640数字对象标识符:doi:10.1214/15-AOS1334欧几里得项目:Euclid.aos/143806851·Zbl 1486.62197号 ·doi:10.1214/15-AOS1334 [13] Castillo,I.和van der Vaart,A.(2012年)。大海捞针:可能稀疏序列的后向集中。安。统计师。40 2069-2101. Zentralblatt数学:1257.62025数字对象标识符:doi:10.1214/12-AOS1029欧几里德项目:Euclid.aos/1351602537·Zbl 1257.62025号 ·doi:10.1214/12-AOS1029 [14] Chipman,H.、George,E.I.和McCulloch,R.E.(1997)。贝叶斯CART模型搜索。J.Amer。统计师。协会93 935-960。 [15] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。统计数据4 266-298。Zentralblatt数学:1189.62066数字对象标识符:doi:10.1214/09-AOAS285欧几里德项目:Euclid.aoas/1273584455·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285 [16] Coram,M.和Lalley,S.P.(2006年)。二元回归函数的Bayes估计的一致性。安。统计师。34 1233-1269。Zentralblatt数学:1113.62006数字对象标识符:doi:10.1214/0090536000000236欧几里德项目:Euclid.aos/1152540748·Zbl 1113.62006年 ·doi:10.1214/00905360000000236 [17] de Jonge,R.和van Zanten,H.(2013)。误差标准偏差的半参数Bernstein-von Mises。电子。《美国联邦法律大全》第7卷第217-243页。Zentralblatt数学:1337.62087数字对象标识符:doi:10.1214/13-EJS768·兹比尔1337.62087 ·doi:10.1214/13-EJS768 [18] Denison,D.G.T.、Mallick,B.K.和Smith,A.F.M.(1998)。贝叶斯CART算法。生物特征85 363-377。Zentralblatt数学:1048.62502数字对象标识符:doi:10.1093/biomet/85.2.363·Zbl 1048.62502号 ·doi:10.1093/biomet/85.2.363 [19] Devroye,L.和Györfi,L.(1985年)。回归函数分区估计的L_1误差的无分布指数界。《概率与统计决策理论》,A卷(Bad Tatzmannsdorf,1983)67-76。多德雷赫特·雷德尔·Zbl 0607.62040号 [20] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论。数学应用(纽约)31。纽约州施普林格·Zbl 0853.68150号 [21] Donoho,D.L.(1997年)。CART和best矫形器:一种连接。安。统计师。25 1870-1911. Zentralblatt数学:0942.62044数字对象标识符:doi:10.1214/aos/1069362377欧几里德项目:Euclid.aos/1069362377·Zbl 0942.62044号 ·doi:10.1214/aos/1069362377 [22] Engel,J.(1994)。递归分区方案中非参数回归的简单小波方法。《多元分析杂志》。49 242-254. Zentralblatt数学:0795.62034数字对象标识符:doi:10.1006/jmva.1994.1024·Zbl 0795.62034号 ·doi:10.1006/jmva.1994.1024 [23] Ghosal,S.、Ghosh,J.K.和van der Vaart,A.W.(2000)。后验分布的收敛速度。安。统计师。28 500-531. Zentralblatt数学:1105.62315数字对象标识符:doi:10.1214/aos/1016218228欧几里德项目:Euclid.aos/1016218228·Zbl 1105.62315号 ·doi:10.1214/aos/1016218228 [24] Ghosal,S.和van der Vaart,A.(2007年)。非i.i.d.观测的后验分布收敛率。安。统计师。35 192-223. Zentralblatt数学:1114.62060数字对象标识符:doi:10.1214/00905360000001172欧几里德项目:Euclid.aos/1181100186·兹比尔1114.62060 ·doi:10.1214/09053606000001172 [25] Gordon,L.和Olshen,R.A.(1980)。递归分区方案的一致非参数回归。《多元分析杂志》。10 611-627. Zentralblatt数学:0453.62035数字对象标识符:doi:10.1016/0047-259X(80)90074-3·Zbl 0453.62035号 ·doi:10.1016/0047-259X(80)90074-3 [26] Gordon,L.和Olshen,R.A.(1984)。递归分区方案中几乎可以确定一致的非参数回归。《多元分析杂志》。15 147-163. Zentralblatt数学:0542.62032数字对象标识符:doi:10.1016/0047-259X(84)90022-8·Zbl 0542.62032号 ·doi:10.1016/0047-259X(84)90022-8 [27] Kpotufe,S.(2010年)。非参数回归中的维数诅咒。ProQuest LLC,密歇根州安阿伯。加州大学圣地亚哥分校博士论文。 [28] Lian,H.(2007)。阶跃函数贝叶斯估计的一致性。统计师。普罗巴伯。莱特。77 19-24. Zentralblatt数学:1109.62024数字对象标识符:doi:10.1016/j.spl.2006.05.007·Zbl 1109.62024号 ·doi:10.1016/j.spl.2006.05.007 [29] Linero,A.R.(2018)。用于高维预测和变量选择的贝叶斯回归树。J.Amer。统计师。协会113 626-636。Zentralblatt数学:1398.62065数字对象标识符:doi:10.1080/01621459.2016.1264957·Zbl 1398.62065号 ·doi:10.1080/01621459.2016.1264957 [30] Linero,A.R.和Yang,Y.(2018年)。适应平滑性和稀疏性的贝叶斯回归树集合。J.R.统计社会服务。B.统计方法。80 1087-1110. 可从arXiv:1707.09461获取。arXiv:1707.09461Zentralblatt数学:1407.62138数字对象标识符:doi:10.1111/rssb.12293·Zbl 1407.62138号 ·doi:10.1111/rssb.12293 [31] Liu,L.和Wong,W.H.(2015)。通过自适应分区的多元密度估计(ii):后验浓度。预打印。可从arXiv:1508.04812获取。arXiv:1508.04812 [32] Liu,Y.、Rocková,V.和Wang,Y.(2018)。利用贝叶斯森林进行ABC变量选择。预印本。可从arXiv:1806.02304获得。arXiv公司:1806.02304 [33] Lu,L.,Jiang,H.和Wong,W.H.(2013)。基于贝叶斯序列划分的多元密度估计。J.Amer。统计师。协会108 1402-1410。Zentralblatt数学:1283.62165数字对象标识符:doi:10.1080/01621459.2013.813389·Zbl 1283.62165号 ·doi:10.1080/01621459.2013.813389 [34] 诺贝尔(1996)。使用数据相关分区的直方图回归估计。安。统计师。24 1084-1105. Zentralblatt数学:0862.62038数字对象标识符:doi:10.1214/aos/1032526958欧几里德项目:Euclid.aos/1032526958·Zbl 0862.62038号 ·doi:10.1214/aos/1032526958 [35] van der Pas,S.和Rocková,V.(2017年)。贝叶斯二元树和回归直方图。第31届神经信息处理系统国际会议论文集2086-2996。 [36] Rocková,V.和van der Pas,S.(2020年)。补充“贝叶斯回归树和森林的后验集中”https://doi.org/10.1214/19-AOS1879SUPP。 [37] Rocková,V.和Saha,E.(2019年)。BART程序理论。机器。学习。第89 2839-2848号决议。 [38] Scornet,E.、Biau,G.和Vert,J.-P.(2015)。随机森林的一致性。安。统计师。43 1716-1741. Zentralblatt数学:1317.62028数字对象标识符:doi:10.1214/15-AOS1321欧几里德项目:Euclid.aos/1434546220·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321 [39] Scricciolo,C.(2007年)。贝叶斯密度估计的收敛速度。扫描。《美国联邦法律大全》第34卷第626-642页。Zentralblatt数学:1150.62018数字对象标识符:doi:10.1111/j.1467-9469.2006.00540.x·Zbl 1150.62018年 ·doi:10.1111/j.1467-9469.2006.00540.x [40] Shen,X.和Wasserman,L.(2001)。后验分布的收敛速度。安。统计师。29 687-714. Zentralblatt数学:1041.62022数字对象标识符:doi:10.1214/aos/1009210686欧几里德项目:Euclid.aos/109210686·Zbl 1041.62022号 ·doi:10.1214/aos/1009210686 [41] Stone,C.J.(1977年)。一致非参数回归。安。统计师。5 595-645之间。Zentralblatt数学:0366.62051数字对象标识符:doi:10.1214/aos/1176343886欧几里德项目:Euclid.aos/1176343886·Zbl 0366.62051号 ·doi:10.1214/aos/1176343886 [42] Stone,C.J.(1982)。非参数回归的最优全局收敛速度。安。统计师。10 1040-1053. Zentralblatt数学:0511.62048数字对象标识符:doi:10.1214/aos/1176345969欧几里德项目:Euclid.aos/1176345969·Zbl 0511.62048号 ·doi:10.1214/aos/1176345969 [43] Stone,C.J.(1985)。渐近最优直方图选择规则。在纪念耶日·奈曼和杰克·基弗的伯克利会议记录,第二卷(加利福尼亚州伯克利,1983年)。华兹华斯统计师/普罗巴伯。序列号。513-520. 加利福尼亚州贝尔蒙特市沃兹沃斯,Zentralblatt数学:1373.62213·Zbl 1373.62213号 [44] van der Vaart,A.W.和van Zanten,J.H.(2008)。基于高斯过程先验的后验分布收缩率。安。统计师。36 1435-1463. Zentralblatt数学:1141.60018数字对象标识符:doi:10.1214/09053607000000613欧几里德项目:Euclid.aos/1211819570·Zbl 1141.60018号 ·doi:10.1214/009053607000000613 [45] Verma,N.、Kpotufe,S.和Dasgupta,S.(2009年)。哪些空间划分树适应内在维度?第二十五届人工智能不确定性会议论文集565-574。AUAI出版社。 [46] Wager,S.和Walther,G.(2015年)。回归树的自适应集中,适用于随机森林。预印本。可在arXiv:1503.06388购买。arXiv公司:1503.06388 [47] Yang,Y.和Tokdar,S.T.(2015)。高维极大极小最优非参数回归。安。统计师。43 652-674. Zentralblatt数学:1312.62052数字对象标识符:doi:10.1214/14-AOS1289欧几里德项目:Euclid.aos/1425398504·Zbl 1312.62052号 ·doi:10.1214/14-AOS1289 [48] W.Yoo·Zbl 1338.62121号 ·doi:10.1214/15-AOS1398 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。