×

通过有限人口抽样中的随机森林进行模型辅助估计。 (英语) Zbl 07707236号

摘要:在调查中,兴趣在于估计有限的人口参数,如人口总数和平均数。在大多数调查中,在估计阶段可以获得一些辅助信息。该信息可纳入估算程序中,以提高其精度。在本文中,我们使用随机森林(RFs)来估计调查变量和辅助变量之间的函数关系。近年来,由于国家统计局现在可以访问各种数据源,可能会对大量变量进行大量观察,因此信息征询变得很有吸引力。我们建立了基于RFs的模型辅助过程的理论性质,并推导了相应的方差估计量。还讨论了处理多个测量变量的模型校准程序。模拟研究的结果表明,在各种环境下,所提出的点和估计程序在基于正态分布的置信区间的偏差、效率和覆盖范围方面表现良好。最后,我们使用法国观众公司梅迪亚梅特里(Médiamétrie)收集的广播观众数据应用了所提出的方法。本文的补充材料可在网上获得。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arnould,L.、Boyer,C.和Scornet,E.(2020),“分析深层森林的树木层结构”,arXiv:2010.15690。
[2] Bergstra,J。;Bardenet,R。;Y.本吉奥。;Kégl,B.,“超参数优化算法”,《神经信息处理系统进展》,242546-2554(2011)
[3] Biau,G.,“随机森林模型的分析”,《机器学习研究杂志》,第13期,1063-1095页(2012年)·Zbl 1283.62127号
[4] Biau,G。;Devroye,L。;奥尔,P。;A.克拉克。;Zeugmann,Th。;Zilles,S.,算法学习理论,Cecllular树分类器,8-17(2014),斯洛文尼亚
[5] Biau,G。;Devroye,L。;Lugosi,G.,“随机森林和其他平均分类器的一致性”,《机器学习研究杂志》,2015-2033年第9期(2008年)·Zbl 1225.62081号
[6] Biau,G。;Scornet,E.,“随机森林导览,测试,25197-227(2016)·Zbl 1402.62133号 ·doi:10.1007/s11749-016-0481-7
[7] Boistard,H。;Lopuhaä,H.P。;Ruiz-Gazen,A.,“拒绝抽样包含概率的近似及其在高阶相关性中的应用”,《电子统计杂志》,1967-1983(2012)·Zbl 1295.62009号 ·doi:10.1214/12-EJS736
[8] 布雷特,F。;Claeskens,G。;Opsomer,J.,“使用惩罚样条曲线进行复杂调查的模型辅助估计”,《生物统计学》,92831-846(2005)·Zbl 1151.62306号 ·doi:10.1093/biomet/92.4.831
[9] 布雷特,F.-J。;Opsomer,J.-D.,“调查抽样中的局部多项式回归估计”,《统计年鉴》,第28期,第1023-1053页(2000年)·Zbl 1105.62302号 ·doi:10.1214/aos/1015956706
[10] 布雷特,F.J。;Opsomer,J.D.,“利用现代预测技术进行模型辅助调查估算,统计科学,32190-205(2017)·Zbl 1381.62060号 ·doi:10.1214/16-STS589
[11] Breiman,L.,“随机森林,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[12] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984),佛罗里达州博卡拉顿:查普曼和霍尔/CRC,佛罗里达州波卡拉顿·Zbl 0541.62042号
[13] 巴斯柯克,T.D。;Kolenikov,S.(2015)
[14] Cardot,H。;Chaouch,M。;高加,C。;Labruère,C.,“基于设计的功能主成分分析的特性”,《统计规划与推断杂志》,140,75-91(2010)·Zbl 1178.62067号 ·doi:10.1016/j.jspi.2009.06.012
[15] Cardot,H。;Goga,C。;Lardin,P.,“采样函数数据平均值的模型辅助估计的一致收敛和渐近置信带”,《电子统计杂志》,第7562-596页(2013年)·Zbl 1336.62043号 ·doi:10.1214/13-EJS779
[16] Cardot,H。;Goga,C。;Lardin,P.,“高熵非等概率抽样设计抽样函数数据平均估计的方差估计和渐近置信带”,《斯堪的纳维亚统计杂志》,41,516-534(2014)·Zbl 1416.62075号 ·doi:10.1111/sjos.12048
[17] Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,“贝叶斯CART模型搜索,美国统计协会杂志,93,935-948(1998)·doi:10.1080/01621459.1998.10473750
[18] De Moliner,A。;Goga,C.,“小区域平均用电量曲线的基于样本的估计”,《调查方法》,44,193-214(2018)
[19] J-C·德维尔。;Särndal,C.-E.,“调查抽样中的校准估计器”,《美国统计协会杂志》,第87期,第376-382页(1992年)·Zbl 0760.62010号 ·doi:10.1080/01621459.1992.10475217
[20] Devroye,L。;Gyorfi,L。;Lugosi,G.,模式识别的概率理论(1996),纽约:Springer,纽约·Zbl 0853.68150号
[21] Díaz-Uriarte,R。;de Andrés,s.,“使用随机森林的基因选择和微阵列数据分类,BMC生物信息学,7,3(2006)·doi:10.1186/1471-2105-7-3
[22] 弗斯·D·。;Bennett,K.,“概率抽样中的稳健模型”,《皇家统计学会杂志》,B辑,60,3-21(1998)·兹比尔0910.62009 ·doi:10.1111/1467-9868.00105
[23] 弗莱文,L。;Lweesy,K。;Khasawneh,N。;Wenz,H。;Dickhaus,H.,“基于单个EEG通道时频分析和随机森林分类器的自动睡眠阶段识别系统,生物医学中的计算机方法和程序,108,10-19(2012)·doi:10.1016/j.cmpb.2011.1105
[24] Friedman,J.,“贪婪函数近似:梯度推进机器”,《统计年鉴》,291189-1232(2001)·Zbl 1043.62034号 ·doi:10.1214操作系统/1013203451
[25] Fuller,W.-A.,《抽样统计》(2009),新泽西州霍博肯:新泽西州威利·Zbl 1179.62019号
[26] Genuer,R.,“纯随机森林中的方差减少”,《非参数统计杂志》,24543-562(2012)·Zbl 1254.62050号 ·doi:10.1080/10485252.2012.677843
[27] Geurts,P。;Ernst,D。;Wehenkel,L.,“极端随机树,机器学习,63,3-42(2006)·Zbl 1110.68124号 ·doi:10.1007/s10994-006-6226-1
[28] Goga,C.,“辅助信息的方差缩减:非参数样条回归,加拿大统计杂志,33,163-180(2005)·Zbl 1071.62006年 ·doi:10.1002/cjs.5550330202
[29] Goga,C。;Ruiz-Gazen,A.,“使用非参数对非线性有限总体参数的有效估计,皇家统计学会期刊,B辑,76,113-140(2014)·Zbl 1411.62082号 ·doi:10.1111/rssb.12024
[30] 格里姆·R。;Behrens,T。;Märker,M。;Elsenbeer,H.,“巴罗科罗拉多岛土壤有机碳浓度和储量——使用随机森林分析进行数字土壤制图”,《地质学》,146102-113(2008)·doi:10.1016/j.geoderma.2008.05.008
[31] Hamza,M。;Larocque,D.,“基于分类树的集成方法的实证比较”,《统计计算与模拟杂志》,75,629-643(2005)·Zbl 1075.62051号 ·doi:10.1080/00949650410001729472
[32] Han,T。;江,D。;赵(Q.Zhao)。;Wang,L。;Yin,K.,“随机森林、人工神经网络和支持向量机在旋转机械智能诊断中的比较”,测控所学报,402681-2693(2018)·doi:10.1177/0142331217708242
[33] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2011),纽约:施普林格出版社,纽约
[34] Isaki,C.-T。;Fuller,W.-A.,“回归超人口模型下的调查设计”,《美国统计协会杂志》,77,49-61(1982)·2016年11月5日Zbl ·doi:10.1080/01621459.1982.1047770
[35] 詹姆斯·G。;威滕博士。;哈斯蒂,T。;Tibshirani,R.,《R中应用的统计学习导论》(2015),纽约:Springer Texts in Statistics,纽约
[36] 凯恩,M。;价格,N。;斯科奇,M。;Rabinowitz,P.,“ARIMA和随机森林时间序列模型预测禽流感h5n1爆发的比较,BMC生物信息学,15(2014)·doi:10.1186/1471-2105-15-276
[37] 科恩,C。;Klausch,T。;Kreuter,F.,“基于树的机器学习方法用于调查研究”,《调查研究方法》,第13期,第73-93页(2019年)
[38] 莱顿,R。;Veijanen,A.,“Logistic广义回归估计”,调查方法,24,51-56(1998)
[39] K.麦康维尔。;Breidt,F.J.,“模型辅助惩罚样条回归估计器的调查设计渐近性,非参数回归杂志,25745-763(2013)·Zbl 1416.62087号 ·doi:10.1080/10485252.2013.780057
[40] K.麦康维尔。;Toth,D.,“使用模型辅助回归树估计器自动选择地层后”,《斯堪的纳维亚统计杂志》,46,389-413(2019)·Zbl 1418.62039号 ·doi:10.1111/sjos.12356
[41] 蒙塔纳里,G。;Ranalli,M.G.,《抽样调查的多重和岭模型校准》(2009),加拿大渥太华
[42] Montanari,G.E。;Ranalli,M.G.,“调查抽样中的非参数模型校准”,《美国统计协会杂志》,1001429-1442(2005)·Zbl 1117.62403号 ·doi:10.1198/01621450000000141
[43] Najafabadi,M.M。;维拉努斯特雷,F。;Khoshgoftaar,T.M。;Seliya,北卡罗来纳州。;瓦尔德,R。;Muharemagic,E.,“大数据分析中的深度学习应用和挑战”,《大数据杂志》,2015年第2期,第11-21页·doi:10.1186/s40537-014-0007-7
[44] Opsomer,J。;Miller,C.,“在复杂调查的非参数回归估计中选择平滑量,非参数统计,17593-611(2005)·Zbl 1065.62071号 ·doi:10.1080/10485250500054642
[45] Opsomer,J.D。;布雷特·F·J。;莫伊森,G。;Kauermann,G.,“利用广义可加模型对森林资源进行模型辅助估计”,《美国统计协会杂志》,102,400-409(2007)·Zbl 1134.62389号 ·doi:10.1198/0162145000001491
[46] 齐,Y。;张,C。;Ma,Y.,集成机器学习,生物信息学随机森林,307(2012),纽约州纽约市:纽约州纽约州斯普林格·Zbl 1303.68022号 ·doi:10.1007/978-1-4419-9326-7
[47] 罗宾逊,P.M。;Särndal,C.-E.,“概率抽样中广义回归估计的渐近性质,SankhyáSer.B,45,240-248(1983)·Zbl 0531.62005号
[48] 罗格斯,G。;Rihan,J。;拉马林加姆,C。;Orrite,C。;Torr,P.,《人体姿势检测的随机树》,IEEE计算机视觉和模式识别会议(CVPR),1-8(2008),安克雷奇,阿拉斯加州
[49] Santacaterina,M。;Bottai,M.,“限制精度推理的最佳概率权重”,《美国统计协会杂志》,113983-991(2018)·Zbl 1402.62034号 ·网址:10.1080/01621459.2017.1375932
[50] Särndal,C.-E.,“关于概率抽样中的π-逆加权最佳线性无偏加权,生物统计学,67,639-650(1980)·Zbl 0445.62023号
[51] 塞恩达尔,C.-E。;斯文森,B。;Wretman,J.,《模型辅助调查抽样》(1992),《统计学中的Springer系列:统计学中的Springer系列》,纽约:Springer-Verlag·Zbl 0742.62008号
[52] 塞恩达尔,C.-E。;Wright,R.,“调查抽样中估算值的外观形式”,《斯堪的纳维亚统计杂志》,第11期,第146-156页(1984年)·Zbl 0545.62011号
[53] Scornet,E.,“关于随机森林的渐近性,多元分析杂志,146,72-83(2016)·Zbl 1337.62063号 ·doi:10.1016/j.jmva.2015.06.009
[54] Scornet,E.,“随机森林和内核方法,IEEE信息理论汇刊,621485-1500(2016)·Zbl 1359.94969号
[55] Scornet,E.,“随机森林中的调整参数,ESAIM:会议记录和调查,60,144-162(2017)·Zbl 1427.68273号
[56] Scornet,E。;Biau,G。;Vert,J.-P,“随机森林的一致性,统计年鉴,43,1716-1741(2015)·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[57] 斯特霍芬,D.J。;Buhlmann,P.,MissForest-混合型数据的非参数缺失值插补,生物信息学,28,112-118(2011)
[58] 斯特罗布尔,C。;A.布列斯特克斯。;泽利斯,A。;Hothorn,T.,“随机森林变量重要性度量的偏差:图解、来源和解决方案”,BMC生物信息学,25(2007)·doi:10.1186/1471-2105-8-25
[59] 蒂普顿,J。;Opsomer,J。;Moisen,G.,“利用遥感数据进行内生后分层估计的特性,环境遥感,139130-137(2013)·doi:10.1016/j.rse.2013.07.035
[60] 托斯·D。;Eltinge,J.L.,“从复杂样本数据构建一致回归树,美国统计协会期刊,1061626-1636(2011)·Zbl 1233.62017年 ·doi:10.1198/jasa.2011.tm10383
[61] Wager,S.(2014),“随机森林的渐进理论”,arXiv:1405.0352。
[62] Wang,L。;Wang,S.,“调查数据的非参数加性模型辅助估计,多变量分析杂志,1021126-1140(2011)·Zbl 1216.62064号 ·doi:10.1016/j.jmva.2011.03.006
[63] Wright,M.和Ziegler,A.(2015),“护林员:C++和r.中高维数据随机森林的快速实现”,arXiv:1508.04409。
[64] 吴,C。;Sitter,R.R.,“使用调查数据中完整辅助信息的模型校准方法”,《美国统计协会杂志》,96,185-193(2001)·Zbl 1015.62005号 ·doi:10.1198/016214501750333054
[65] Yang,S。;Kim,J.K.,“调查抽样中的统计数据整合:综述”,《日本统计与数据科学杂志》,第3625-650页(2020年)·Zbl 1466.62247号 ·doi:10.1007/s42081-020-00093-w
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。