×

测量随机集合的算法收敛性:回归设置。 (英语) 兹比尔1490.62161

小结:当实施随机集合方法(如袋装和随机森林)时,一个基本问题出现了:集合是否足够大?尤其是,从业者希望严格保证给定的集成将几乎与理想的无限集成(使用相同的数据进行训练)一样好。本论文的目的是开发一种bootstrap方法,用于在回归背景下解决这个问题——这是对我们在分类背景下的同伴论文的补充[M.E.洛佩斯《美国年鉴》第47卷第2期第1088–1112页(2019年;Zbl 1415.62045号)]. 与分类设置相比,当前的论文表明,在弱得多的假设下,可以为所提出的bootstrap建立理论保证。此外,我们通过展示如何适用于测量变量选择的算法收敛性来说明该方法的灵活性。最后,我们提供了数值结果,表明该方法在一系列情况下都能很好地工作。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G09号 非参数统计重采样方法
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] S.Arlot和R.Genuer,纯随机森林偏差分析,预印本,https://arxiv.org/abs/1407.3939, 2014. ·Zbl 1402.62131号
[2] J.Basilico、M.Munson、T.Kolda、K.Dixon和W.Kegelmeyer,《彗星:在海量数据上学习和使用大型信号群的秘诀》,载《第十一届IEEE国际数据挖掘会议(ICDM)论文集》,IEEE,华盛顿特区,2011年,第41-50页。
[3] P.Bertail,弱假设下无替换外推自举的二阶性质,Bernoulli,3(1997),第149-179页·Zbl 0919.62035号
[4] P.Bertail和D.N.Politis,子抽样分布估计的外推:i.i.D.和强混合情况,Canad。J.统计。,29(2001),第667-680页·Zbl 0998.62078号
[5] G.Biau,随机森林模型分析,J.Mach。学习。Res.,13(2012),第1063-1095页·Zbl 1283.62127号
[6] G.Biau、L.Devroye和G.Lugosi,《随机森林和其他平均分类器的一致性》,J.Mach。学习。第9号决议(2008年),第2015-2033页·Zbl 1225.62081号
[7] P.J.Bickel和A.Sakov,外推和引导,SankhyāSer。A、 64(2002),第640-652页·Zbl 1192.62125号
[8] P.J.Bickel和J.A.Yahav,Richardson推断和引导,J.Amer。统计师。Assoc.,83(1988),第387-393页·Zbl 0664.62014年
[9] R.Blaser和P.Fryzlewicz,《随机旋转系综》,J.Mach。学习。研究,17(2016),第126-151页·Zbl 1360.68666号
[10] L.Breiman,装袋预测,马赫。学习。,24(1996),第123-140页·Zbl 0858.68080号
[11] L.Breiman,《随机森林》,马赫。学习。,45(2001),第5-32页·Zbl 1007.68152号
[12] L.Breiman、J.Friedman、C.J.Stone和R.A.Olshen,《分类和回归树》,CRC,佛罗里达州博卡拉顿,1984年·Zbl 0541.62042号
[13] C.Brezinski和M.R.Zaglia,外推方法:理论与实践,Elsevier,纽约,2013年·Zbl 0744.65004号
[14] P.Buéhlmann和B.Yu,《分析装袋》,《统计年鉴》。,30(2002年),第927-961页·Zbl 1029.62037号
[15] T.I.Cannings和R.J.Samworth,随机投影集合分类(讨论),J.R.Stat.Soc.Ser。B统计方法。,79(2017),第959-1035页·兹比尔1373.62301
[16] V.Chernozhukov、D.Chetverikov、K.Kato和Y.Koike,高维改进中心极限定理和Bootstrap逼近,预印本,https://arxiv.org/abs/1912.10529, 2019.
[17] H.A.Chipman、E.I.George和R.E.McCulloch,BART:贝叶斯加性回归树,Ann.Appl。《统计》第4卷(2010年),第266-298页·Zbl 1189.62066号
[18] R.Diíaz-Uriarte和S.A.De Andres,基因选择和使用随机森林的微阵列数据分类,BMC生物信息学,7(2006),3。
[19] D.Dua和C.Graff,UCI机器学习库,http://archive.ics.uci.edu/ml, 2017.
[20] 方勇,平均隐式随机梯度下降的可缩放统计推断,Scand。《J Stat.》,46(2019),第987-1002页·Zbl 1444.62135号
[21] Y.Fang、J.Xu和L.Yang,随机梯度下降估计的在线自举置信区间,J.Mach。学习。第19号决议(2018年),第3053-3073页·Zbl 1476.62060号
[22] J.Friedman、T.Hastie和R.Tibshirani,《统计学习的要素》,纽约斯普林格出版社,2001年·Zbl 0973.62007号
[23] R.Genuer、J.-M.Poggi和C.Tuleau-Malot,使用随机森林的变量选择,模式识别快报。,31(2010年),第2225-2236页。
[24] R.Genuer、J.-M.Poggi和C.Tuleau-Malot,《VSURF:使用随机森林进行变量选择的R包》,《R期刊》,7(2015),第19-33页。
[25] A.Geíron,《使用Scikit-Lean和TensorFlow进行机器动手学习》,O'Reilly Media,https://github.com/ageron/handson-ml/tree/master/datasets, 2017.
[26] R.L.Graham、D.E.Knuth、O.Patashnik和S.Liu,《具体数学:计算机科学基础》,艾迪生和卫斯理,马萨诸塞州雷丁,1994年·Zbl 0836.00001号
[27] B.Gregorutti、B.Michel和P.Saint-Pierre,《随机森林中的相关性和变量重要性》,统计计算。,27(2017),第659-678页·Zbl 1505.62167号
[28] P.Hall和R.J.Samworth,袋装最近邻分类器的属性,J.R.Stat.Soc.Ser。B统计方法。,67(2005),第363-379页·Zbl 1069.62051号
[29] D.Hernández Lobato、G.Martínez Mun͂oz和A.Suárez,分类器集合应该有多大?,模式识别,46(2013),第1323-1336页·Zbl 1264.68128号
[30] H.Ishwaran,二元回归树和森林中的变量重要性,电子。《美国统计杂志》,第1卷(2007年),第519-537页·Zbl 1320.62158号
[31] P.Latinne、O.Debeir和C.Decastecker,《限制随机森林中树木的数量》,收录于《多分类器系统》,柏林斯普林格出版社,2001年,第178-187页·Zbl 0987.68896号
[32] T.Li、L.Liu、A.Kyrillidis和C.Caramanis,使用SGD进行统计推断,第三十二届AAAI人工智能会议,AAAI,2018,16619。
[33] A.Liaw和M.Wiener,randomForest的分类和回归,R News,2(2002),第18-22页,https://cran.r-project.org/web/packages/randomForest/randomForest.pdf。
[34] Y.Lin和Y.Jeon,《随机森林和自适应最近邻》,J.Amer。统计师。协会,101(2006),第578-590页·Zbl 1119.62304号
[35] M.E.Lopes,估计随机集合的尖锐收敛界限,预印本,https://arxiv.org/abs/1303.0727, 2016.
[36] M.E.Lopes,通过bootstrap估计随机集合的算法方差,Ann.Statist。,47(2019年),第1088-1112页·Zbl 1415.62045号
[37] M.E.Lopes、N.B.Erichson和M.W.Mahoney,通过引导程序对草图SVD进行误差估计,第37届机器学习国际会议论文集,奥地利维也纳,2020年,2978年。
[38] M.E.Lopes、Z.Lin和H.-G.Mueller,高维Bootstrapping max统计:弱方差衰减下的近参数率及其在函数和多项式数据中的应用,Ann.Statist。,48(2020年),第1214-1229页·Zbl 1464.62266号
[39] M.E.Lopes、S.Wang和M.W.Mahoney,通过bootstrap对随机最小二乘算法进行误差估计,《机器学习国际会议论文集》,瑞典斯德哥尔摩,2018年,第3223-3232页。
[40] M.E.Lopes、S.Wang和M.W.Mahoney,随机矩阵乘法中误差估计的自举方法,J.Mach。学习。决议,20(2019),第1-40页·Zbl 1484.62037号
[41] G.Louppe、L.Wehenkel、A.Sutera和P.Geurts,《理解随机树木森林中的变量重要性》,神经信息处理系统进展,NeurIPS,加利福尼亚州圣地亚哥,2013年,第431-439页。
[42] P.-G.Martinsson和J.Tropp,《随机数值线性代数:基础与算法》,《数值学报》。,出现;预印本,https://arxiv.org/abs/2002.01387,2020年。
[43] L.Mentch和G.Hooker,通过置信区间和假设检验量化随机森林中的不确定性,J.Mach。学习。研究,17(2016),第1-41页·Zbl 1360.62095号
[44] J.Moult、K.Fidelis、A.Kryshtafovych和A.Tramontano,蛋白质结构预测方法的关键评估-round\textupIX,蛋白质结构。功能。生物信息。,79(2011),第1-5页。
[45] S.Nembrini、I.R.Koönig和M.N.Wright,《基尼重要性的复兴?》?,生物信息学,34(2018),第3711-3718页。
[46] A.Y.Ng和M.I.Jordan,投票吉布斯分类器的收敛速度,及其在贝叶斯特征选择中的应用,《机器学习国际会议论文集》,马萨诸塞州威廉斯敦,2001年,第377-384页。
[47] K.K.Nicodemus、J.D.Malley、C.Strobl和A.Ziegler,预测相关性下基于随机森林排列的变量重要性测量的行为,BMC生物信息学,11(2010),110。
[48] T.M.Oshiro、P.S.Perez和J.A.Baranauskas,随机森林中有多少棵树?,《模式识别中的机器学习和数据挖掘》,Springer,纽约,2012年,第154-168页。
[49] P.Probst和A.-L.Boulesteix,调节或不调节随机森林中的树木数量,J.Mach。学习。决议,18(2018),第1-18页·Zbl 1468.68164号
[50] R.J.Samworth,最优加权最近邻分类器,Ann.Statist。,40(2012年),第2733-2763页·Zbl 1373.62317号
[51] M.Sandri和P.Zuccolotto,分类树中基尼变量重要性测度的偏差校正算法,J.Comput。图表。统计人员。,17(2008),第611-628页。
[52] A.Schwing、C.Zach、Y.Zheng和M.Pollefeys,自适应随机森林——在做出决定之前,有多少“专家”需要询问?,《IEEE计算机视觉和模式识别会议论文集》,IEEE,华盛顿特区,2011年,第1377-1384页。
[53] E.Scornet,《关于随机森林的渐近性》,《多元分析杂志》。,146(2016),第72-83页·Zbl 1337.62063号
[54] E.Scornet,Random forests and kernel methods,IEEE Trans。通知。《理论》,62(2016),第1485-1500页·Zbl 1359.94969号
[55] E.Scornet、G.Biau和J.-P.Vert,《随机森林的一致性》,《统计年鉴》。,43(2015),第1716-1741页·Zbl 1317.62028号
[56] J.Sexton和P.Laake,袋装和随机森林估计器的标准误差,计算。统计师。数据分析。,53(2009年),第801-811页·Zbl 1452.62121号
[57] A.Sidi,《实用外推方法:理论与应用》,剑桥大学出版社,英国剑桥,2003年·Zbl 1041.65001号
[58] C.Strobl、A.-L.Boulesteix、T.Kneib、T.Augustin和A.Zeileis,随机森林条件变量重要性,BMC生物信息学,9(2008),307。
[59] C.Strobl、A.-L.Boulesteix、A.Zeileis和T.Hothorn,《随机森林变量重要性度量的偏差:图解、来源和解决方案》,BMC生物信息学,8(2007),25。
[60] 苏伟杰和朱永明,在线学习的不确定性量化和通过递阶增量梯度下降的随机逼近,预印本,https://arxiv.org/abs/1802.04876, 2018.
[61] M.Talagrand,独立Banach空间值随机变量和的等高线和可积性,Ann.Probab。,17(1989),第1546-1570页·Zbl 0692.60016号
[62] S.Wager、T.Hastie和B.Efron,《随机森林的置信区间:折刀和无穷小折刀》,J.Mach。学习。Res.,15(2014),第1625-1651页·Zbl 1319.62132号
[63] H.Wickham,ggplot2:《数据分析的优雅图形》,第二版,纽约施普林格出版社,2016年·Zbl 1397.62006年
[64] F.Zhou、Q.Claire和R.D.King,《预测音乐的地理起源》,载于《2014年IEEE国际数据挖掘会议论文集》,IEEE,华盛顿特区,2014年,第1115-1120页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。