×

使用高维数据对治疗效果进行基于邻域的交叉拟合方法。 (英语) Zbl 07711801号

摘要:高维数据在各种物理、生物和社会学科中越来越流行。为了解决高维统计中的过拟合问题,提出了一种现有的重复分裂数据的通用方法,但在高维中计算量较大。提出了一种计算高效的数据分割方法,并将其称为基于邻域的交叉拟合(NBCF)双机器学习,用于具有高维数据的结构因果模型的因果推理。该方法很好地解决了高维混杂情况下因果推理中的后选择偏差问题。它为无偏估计提供了与重复数据分裂等价的基础,建议通过经验处理方法扩大函数类的复杂度范围。数值模拟研究表明,与现有的样本分割方法相比,所提出的基于邻域的方法不仅计算效率更高,而且与其他现有方法相比,在减少偏差方面也更好。在一定条件下,仿真结果进一步表明,所提出的估计量是渐近无偏和正态分布的,这允许构造有效的置信区间。以一个实际数据集为例,说明了NBCF的实际应用。

MSC公司:

2008年6月62日 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿巴迪,A。;Imbens,G.W.,平均治疗效果匹配估计值的大样本特性,《计量经济学》,74235-267(2006)·兹比尔1112.62042
[2] 艾,C。;Chen,X.,含有未知函数的序列矩约束模型的半参数效率界,J.Econom。,170, 2, 442-457 (2012) ·Zbl 1443.62418号
[3] Andrews,D.,通过随机等度连续性的半参数经济计量模型的渐近性,《计量经济学》,62,1,43-72(1994)·Zbl 0798.62104号
[4] Angrist,J。;Krueger,A.,《学校教育回报率的样本工具变量估计》,J.Bus。经济。《统计》,第13、2、225-235页(1994年)
[5] 安东内利,J。;塞法鲁,M。;北卡罗来纳州帕尔默。;Agniel,D.,高维混杂调整的双稳健匹配估计量,生物统计学,74,4,1171-1179(2018)
[6] Ayyagari,R.,影响函数在半参数回归模型中的应用(2010),哈佛大学博士论文
[7] 贝洛尼,A。;陈,D。;切尔诺朱科夫,V。;Hansen,C.,《最优工具的稀疏模型和方法及其在征用领域的应用》,《计量经济学》,80,6,2369-2429(2012)·兹比尔1274.62464
[8] 贝洛尼,A。;切尔诺朱科夫,V。;Hansen,C.,《在高维对照中选择后对治疗效果的推断》,《经济学评论》。螺柱,81、2、608-650(2014)·Zbl 1409.62142号
[9] 贝洛尼,A。;切尔诺朱科夫,V。;F.-V.伊凡。;Hansen,C.,高维数据的程序评估和因果推断,计量经济学,85,1233-298(2017)·Zbl 1410.62197号
[10] 贝洛尼,A。;切尔诺朱科夫,V。;Hansen,C.,高斯工具变量模型的Lasso方法
[11] 伯克,R。;布朗,L。;Buja,A。;张凯。;Zhao,L.,有效的后选择推理,Ann.Stat.,41,2,802-837(2013)·Zbl 1267.62080号
[12] Bickel,P.,《关于自适应估计》,Ann.Stat.,10,3,647-671(1982)·Zbl 0489.62033号
[13] 比克尔,P。;克拉森,C。;Ritov,Y。;Wellner,J.,半参数模型的有效和自适应估计(1998),Springer·Zbl 0894.62005号
[14] 布洛尼亚兹,A。;刘,H。;张,C.-H。;Sekhon,J.S。;Yu,B.,《随机试验中治疗效果估计的Lasso调整》,Proc。国家。阿卡德。科学。美国,113,27,7383-7390(2016)·Zbl 1357.62098号
[15] Breiman,L.,装袋预测,马赫数。学习。,24, 2, 123-140 (1996) ·Zbl 0858.68080号
[16] 布鲁克哈特,文学硕士。;Schneeweiss,S.公司。;Rothman,K.J。;Glynn,R.J。;Avorn,J。;Stürmer,T.,倾向评分模型的变量选择,美国流行病学杂志。,163, 12, 1149-1156 (2006)
[17] 医学博士Cattaneo。;Jansson,M。;Newey,W.K.,《替代渐近和具有许多回归变量的部分线性模型》,Econom。理论,34,2,1-25(2016)
[18] Chamberlain,G.,半参数回归的效率界限,计量经济学,60,3567-596(1992)·Zbl 0774.62038号
[19] 陈,X。;林惇,O。;van Keilegom,I.,标准函数不光滑时半参数模型的估计,《计量经济学》,71,5,1591-1608(2018)·Zbl 1154.62325号
[20] 切尔诺朱科夫,V。;Chetverikov,D。;Demirer,M。;杜弗洛,E。;Hansen,C。;纽伊,W。;Robins,J.,《治疗和结构参数的双/脱苦机器学习》,经济学。J.,21,1,C1-C68(2018)·兹伯利07565928
[21] 切尔诺朱科夫,V。;Escanciano,J。;一村,H。;纽伊,W。;Robins,J.,局部稳健半参数估计
[22] 德卢纳,X。;瓦恩鲍姆,I。;Richardson,T.S.,平均治疗效果非参数估计的协变量选择,Biometrika,98,4,861-875(2011)·Zbl 1228.62139号
[23] O.杜克斯。;Vansteelandt,S.,倾向得分变量选择后如何获得有效测试和置信区间?,统计方法医学研究,29,3,677-694(2020)
[24] 恩格尔,S。;Pagiola,S。;Wunder,S.,《在理论和实践中设计环境服务的支付:问题概述》,《生态经济学》。经济。,65, 4, 663-674 (2008)
[25] Ertefaie,A。;Asgharian,M。;Stephens,D.,《使用同时惩罚法进行因果推理中的变量选择》,J.因果推理,6,1,550-560(2018)
[26] 范,J。;Li,R.,《通过非一致惩罚似然进行变量选择及其预言属性》,美国统计协会,96,456,1348-1360(2001)·Zbl 1073.62547号
[27] 范,J。;郭,S。;Hao,N.,超高维回归中使用改装交叉验证的变量估计,J.R.Stat.Soc.,Ser。B、 统计方法。,74, 1, 37-65 (2012) ·Zbl 1411.62199号
[28] 范,Q。;Hsu,Y.-C。;列利,R.P。;Zhang,Y.,用高维数据估计条件平均治疗效果,J.Bus。经济。统计,40,1,313-327(2022)
[29] Faraway,J.,线性模型(2015),CRC出版社:佛罗里达州博卡拉顿CRC出版社·Zbl 1341.62008年
[30] Farrell,M.H.,《关于平均治疗效果的稳健推断,协变量可能比观察值更多》,《经济学杂志》。,189, 1, 1-23 (2015) ·Zbl 1337.62113号
[31] Fithian,W。;Sun,D。;Taylor,J.,模型选择后的最优推理,arXiv预印本
[32] 格陵兰,S.,《受邀评论:控制多重混杂因素中的变量选择与收缩》,美国流行病学杂志。,167, 5, 523-529 (2008)
[33] 格陵兰,南部。;Robins,J.M.,《模型选择在非实验数据因果推断中的作用》,美国流行病学杂志。,123,3392-402(2017)
[34] Hahn,J.,《关于倾向评分在平均治疗效果有效半参数估计中的作用》,《计量经济学》,66,315-331(1998)·Zbl 1055.62572号
[35] Härdle,W。;Liang,H。;Gao,J.,部分线性模型(2012),Springer Science&Business Media
[36] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),Springer:Springer New York·Zbl 1273.62005年
[37] 赫尔曼,M。;Robins,J.,《估计流行病学数据中的因果影响》,J.流行病学。社区卫生,60,7,578-586(2006)
[38] Hirano,K。;Imbens,G.W。;Ridder,G.,《估计流行病学数据中的因果影响》,《计量经济学》,第71期,第1161-1189页(2003年)·Zbl 1152.62328号
[39] 洪,L。;库夫纳,T.A。;Martin,R.,《关于过拟合和选择后不确定性评估》,Biometrika,105,1,221-224(2018)·Zbl 07072407号
[40] Huber-Stearns,H.R。;Goldstein,J.H。;Cheng,A.S。;Toombs,T.P.,《美国西部流域服务支付的制度分析》,生态系统。服务。,16, 11, 83-93 (2015)
[41] Huber-Stearns,H.R。;Bennett,D.E。;波斯纳,S。;R.C.理查兹。;费尔,J.H。;Cousins,S.J.M。;Romulo,C.L.,《生态系统服务支付的社会生态有利条件》,生态。Soc.,22,1,18-93(2017)
[42] 伊布拉基莫夫,I.A。;Has’minskii,R.Z.,《统计估计:渐近理论》(1981),Springer-Verlag New York Inc·Zbl 0467.62026号
[43] Imbens,G.W。;鲁宾,D.B.,《统计、社会和生物医学科学中的因果推断》(2015),剑桥大学出版社·Zbl 1355.6202号
[44] Jack,B.K。;库斯基,C。;Sims,K.R.E.,《为生态系统服务设计支付:基于激励机制的以往经验教训》,Proc。国家。阿卡德。科学。美国,105,28,9465-9470(2008)
[45] 爪哇马德,A。;Montanari,A.,高维回归的置信区间和假设检验,J.Mach。学习。Res.,15,1,2869-2909(2014)·Zbl 1319.62145号
[46] 约瑟夫·V·R。;Vakayil,A.,《拆分:数据拆分的最佳方法》,Technometrics,1-11(2021)
[47] Keller,B.,因果效应估计的变量选择:随机森林的非参数条件独立性检验,J.Educ。行为。统计,45,2,119-142(2020)
[48] Kennard,R.W。;Stone,L.A.,计算机辅助实验设计,技术计量学,11,1,137-148(1969)·兹比尔0165.53102
[49] Kuchibhotla,A.K。;Brown,L.D。;Buja,A。;E.I.乔治。;Zhao,L.,无模型框架中线性回归的子模型界统一,arXiv预印本
[50] 莱西,F.P。;Stuart,E.A.,《联合使用倾向性和预后评分评估受试者的平均治疗效果:一项模拟研究》,Stat.Med.,33,20,3488-3508(2014)
[51] Lee,J.D。;Sun,D.L。;孙,Y。;Taylor,J.E.,《精确后选择推理及其在套索中的应用》,《安娜·Stat.》,44,3,907-927(2016)·Zbl 1341.62061号
[52] Levit,B.,关于一类非参数估计的效率,理论概率。申请。,20, 4, 723-740 (1975) ·Zbl 0367.62041号
[53] Linton,O.,半参数回归模型中minpin估计量的Edgeworth近似,经济学。理论,12,1,30-60(1996)
[54] Liu,H.,《高维非参数学习》(2010),卡内基梅隆大学博士论文
[55] 马,S。;朱,L。;张,Z。;蔡,C。;Carroll,R.J.,《基于稀疏充分降维的因果推理稳健有效方法》,《Ann.Stat.》,47,3,1505-1535(2019)·Zbl 1420.62178号
[56] 马克·S。;Joseph,V.R.,支持点,Ann.Stat.,46,6A,2562-2592(2018)·Zbl 1408.62030号
[57] Miller,H.J.,Tobler的第一定律和空间分析,Ann.Assoc.Am.Geogr。,92, 2, 284-289 (2004)
[58] Minnier,J。;田,L。;Cai,T.,正则回归估计推断的扰动方法,美国统计协会,106,496,1371-1382(2011)·Zbl 1323.62076号
[59] 迈尔斯,J.A。;Rassen,J.A。;加涅,J.J。;Huybrechts,K.F。;Schneeweiss,S。;Rothman,K.J。;Joffe,M.M。;Glynn,R.J.,正则回归估计推断的扰动方法,美国流行病学杂志。,174, 11, 1213-1222 (2011)
[60] Newey,W.K.,半参数效率界,J.Appl。经济。,5, 2, 947-962 (1990)
[61] Newey,W.K.,半参数估计的渐近方差,计量经济学,62,6,1349-1382(1994)·Zbl 0816.62034号
[62] 纽伊,W.K。;谢福林。;Robins,J.,欠平滑和偏差修正函数估计(1998),麻省理工学院(MIT),经济系,工作文件98-17
[63] 纽伊,W.K。;谢福林。;Robins,J.,半参数估计量的扭曲核和小偏差性质,计量经济学,72,31947-962(2004)·Zbl 1091.62024号
[64] Neyman,J.,复合统计假设的最优渐近检验,Probab。《统计》,第5、4、416-444页(1959年)
[65] Padowski,J.C。;Gorelick,S.M.,《勘误:城市地表水供应脆弱性的全球分析》(2014年环境研究快报9 104004),环境。Res.Lett.公司。,第9、11条,第119501页(2014年)
[66] 帕特里克·A·R。;Schneeweiss,S。;布鲁克哈特,文学硕士。;Glynn,R.J。;Rothman,K.J。;Avorn,J。;Stürmer,T.,药物流行病学中倾向评分变量选择策略的含义:实证说明,药物流行病学。药物安全。,20, 6, 551-559 (2011)
[67] Pearl,J.,《因果关系:模型、推理和推断》(2009),剑桥大学出版社·Zbl 1188.68291号
[68] 珀尔,J。;Mackenzie,D.,《为什么之书:因果新科学》(2018),基础书籍·Zbl 1416.62026号
[69] Pfanzagl,J.,《对一般渐近统计理论的贡献》,第13卷(1982年),Springer-Verlag纽约公司·Zbl 0512.62001号
[70] 雷迪,M。;Szabo,L.E。;Hofer-Szabo,G.,《共同原因的原则》(2013),剑桥大学出版社
[71] Reitermanova,Z.,数据分割,(WDS,第10卷(2010)),31-36
[72] 罗宾斯,J。;Rotnitzky,A.,《缺失数据多元回归模型的半参数效率》,美国统计协会,90,429,122-129(1995)·Zbl 0818.62043号
[73] 罗宾斯,J。;张,P。;阿亚加里,R。;洛根·R。;Tchetgen,E。;李,L。;卢姆利,A。;van der Vaart,A.,《半参数回归的新统计方法及其在空气污染研究中的应用》,Res.Rep.Health Eff。研究所,175,3-129(2013)
[74] Robinson,P.M.,根-一致半参数回归,计量经济学,56,4,931-954(1988)·Zbl 0647.62100号
[75] 罗慕洛,C.L。;波斯纳,S。;堂兄弟,S。;霍伊尔·费尔,J。;Bennett,D.E。;Huber-Stearns,H。;R.C.理查兹。;McDonald,R.I.,《大城市集水区服务的全球州和潜在投资范围》,国家通讯社。,9, 1, 1-10 (2018)
[76] 罗森鲍姆,P。;Rubin,D.,倾向评分在因果效应观察性研究中的中心作用,《生物统计学》,70,1,41-55(1983)·Zbl 0522.62091号
[77] Rotnitzky,A。;李,L。;Li,X.,关于逆概率加权估计中过度调整的注释,Biometrika,97,4,997-1001(2010)·Zbl 1204.62181号
[78] Rubin,D.,《使用匹配抽样和回归调整消除观察性研究中的偏差》,生物统计学,29,1,184-203(1973)
[79] Rubin,D.,在随机和非随机研究中估计治疗的因果效应,J.Educ。心理医生。,66, 5, 688-701 (1974)
[80] Rubin,D.,《对于客观因果推断,设计胜过分析》,Ann.Appl。统计,2,3,808-840(2008)·Zbl 1149.62089号
[81] Schick,A.,关于半参数模型中的渐近有效估计,Ann.Stat.,14,3,1139-1151(1986)·Zbl 0612.62062号
[82] Schisterman,E。;科尔,S。;Platt,R.,《流行病学研究中的过度调整偏差和不必要的调整》,流行病学,20,4,488-495(2009)
[83] 肖特里德,S.M。;Ertefaie,A.,《结果适应套索:因果推断的变量选择》,《生物统计学》,73,4,1111-1122(2017)·Zbl 1405.62203号
[84] Snee,R.D.,回归模型的验证:方法和示例,技术计量学,19,4,415-428(1977)·Zbl 0369.62065号
[85] 斯特霍芬,D.J。;Bühlmann,P.,混合型数据的Missforest-非参数缺失值插补,生物信息学,28,1,112-118(2012)
[86] Stone,M.,统计预测的交叉验证选择和评估,J.R.Stat.Soc.,Ser。B、 Methodol.方法。,36111-133(1974年)·Zbl 0308.62063号
[87] 斯温顿,S.M。;卢皮,F。;Robertson,G.P。;Hamilton,S.K.,《生态系统服务与农业:为不同利益培育农业生态系统》,Ecol。经济。,64, 2, 245-252 (2007)
[88] 谢凯利,G。;Rizzo,M.L.,《能源统计:基于距离的一类统计》,J.Stat.Plan。推理,143,8,1249-1272(2013)·Zbl 1278.62072号
[89] 泰勒,J。;Tibshirani,R.J.,《统计学习和选择性推理》,Proc。国家。阿卡德。科学。美国,112,25,7629-7634(2015)·Zbl 1359.62228号
[90] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.,Ser。B、 Methodol.方法。,58, 1, 267-288 (1996) ·Zbl 0850.62538号
[91] Tobler,W.R.,《模拟底特律地区城市增长的计算机电影》,《经济学》。地理位置。,46, 2, 234-240 (1996)
[92] Tobler,W.R.,《论地理学第一定律:答复》,Ann.Assoc.Am.Geogr。,94, 2, 304-310 (2004)
[93] 范德吉尔,S。;Bühlmann,P。;Ritov,Y。;Dezeure,R.,《在高维数据中构建基于倾向得分的估计量的合作控制套索》,《Ann.Stat.》,42,3,1166-1202(2014)·Zbl 1305.62259号
[94] 范德莱恩,M.J。;Gruber,S.,协同双稳健目标最大似然估计,国际生物统计杂志。,6、1、第17条pp.(2010年)
[95] 范德拉恩,M.J。;Rose,S.,《目标学习:观察和实验数据的因果推断》(2011),Springer Science&Business Media
[96] van der Vaart,A.,《关于可微泛函》,《美国统计年鉴》,第19卷,第1期,第178-204页(1991年)·Zbl 0732.62035号
[97] van der Vaart,A.,《渐进统计》(1998),剑桥大学出版社·Zbl 0910.62001号
[98] VanderWeele,T.J。;Shpitser,I.,《混杂因素选择的新标准》,《生物统计学》,67,4,1406-1413(2011)·Zbl 1274.62890号
[99] Vansteelandt,S。;贝卡尔特,M。;Claeskens,G.,《混杂因素选择的新标准》,《统计方法医学研究》,第21、1、7-30页(2012年)·Zbl 1365.62431号
[100] Wager,S。;Athey,S.,《使用随机森林评估和推断异质处理效应》,美国统计协会,113,523,1228-1242(2018)·Zbl 1402.62056号
[101] Wager,S。;杜,W。;泰勒,J。;Tibshirani,R.J.,随机实验中的高维回归调整,Proc。国家。阿卡德。科学。美国,113,45,12673-12678(2016)·Zbl 1407.62264号
[102] 王,C。;Parmigiani,G。;Dominici,F.,考虑调整不确定性的贝叶斯效应估计,生物统计学,68,3,661-671(2012)·Zbl 1274.62895号
[103] Wang,J。;何,X。;Xu,G.,高维模型中治疗效果的无偏推理,J.Am.Stat.Assoc.,115529442-454(2020)·Zbl 1439.62170号
[104] Weinberg,C.R.,《走向混淆的更清晰定义》,《美国流行病学杂志》。,137, 1, 1-8 (1993)
[105] Wilson,A。;Reich,B.J.,《通过受惩罚的可信区域进行Confounder选择》,《生物统计学》,70,4,852-861(2014)·Zbl 1393.62107号
[106] Winston,L.,《实验数据回归调整的不可知论注释:重新审视自由人的批判》,Ann.Appl。统计,7,1,295-318(2013)·Zbl 1454.62217号
[107] 吴,C。;Hamada,M.,《实验:规划、分析和优化》(2011),Wiley:Wiley Hoboken,NJ
[108] Xu,Y。;Goodacre,R.,《关于分裂训练和验证集:估计监督学习泛化性能的交叉验证、自举和系统抽样的比较研究》,J.R.Stat.Soc.,Ser。B、 统计方法。,2, 3, 249-262 (2018)
[109] Zhang,C.H。;Zhang,S.S.,高维线性模型中低维参数的置信区间,J.R.Stat.Soc.,Ser。B、 统计方法。,76, 1, 217-242 (2014) ·Zbl 1411.62196号
[110] 齐格勒,C.M。;Dominici,F.,倾向得分估计的不确定性:变量选择和模型平均因果效应的贝叶斯方法,J.Am.Stat.Assoc.,10950595-107(2014)
[111] Zou,H.,《自适应套索及其预言属性》,美国统计协会,101,476,1418-1429(2006)·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。