文件Zbl 07711801-zbMATH Open

奥卢瓦本加·大卫·阿格拉（Oluwagbenga David Agboola）;于、韩

使用高维数据对治疗效果进行基于邻域的交叉拟合方法。（英语） Zbl 07711801号

计算。统计数据分析。 186，文章ID 107780，35 p.（2023）.

摘要：高维数据在各种物理、生物和社会学科中越来越流行。为了解决高维统计中的过拟合问题，提出了一种现有的重复分裂数据的通用方法，但在高维中计算量较大。提出了一种计算高效的数据分割方法，并将其称为基于邻域的交叉拟合（NBCF）双机器学习，用于具有高维数据的结构因果模型的因果推理。该方法很好地解决了高维混杂情况下因果推理中的后选择偏差问题。它为无偏估计提供了与重复数据分裂等价的基础，建议通过经验处理方法扩大函数类的复杂度范围。数值模拟研究表明，与现有的样本分割方法相比，所提出的基于邻域的方法不仅计算效率更高，而且与其他现有方法相比，在减少偏差方面也更好。在一定条件下，仿真结果进一步表明，所提出的估计量是渐近无偏和正态分布的，这允许构造有效的置信区间。以一个实际数据集为例，说明了NBCF的实际应用。

MSC公司：

2008年6月62日

统计问题的计算方法

关键词：

结构因果模型;高维数据;混淆;数据拆分;支撑点;机器学习

软件：

miss森林;能量;ElemStatLearn（电子状态学习）

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿巴迪，A。；Imbens，G.W.，平均治疗效果匹配估计值的大样本特性，《计量经济学》，74235-267（2006）·兹比尔1112.62042
[2]	艾，C。；Chen，X.，含有未知函数的序列矩约束模型的半参数效率界，J.Econom。，170, 2, 442-457 (2012) ·Zbl 1443.62418号
[3]	Andrews，D.，通过随机等度连续性的半参数经济计量模型的渐近性，《计量经济学》，62，1，43-72（1994）·Zbl 0798.62104号
[4]	Angrist，J。；Krueger，A.，《学校教育回报率的样本工具变量估计》，J.Bus。经济。《统计》，第13、2、225-235页（1994年）
[5]	安东内利，J。；塞法鲁，M。；北卡罗来纳州帕尔默。；Agniel，D.，高维混杂调整的双稳健匹配估计量，生物统计学，74，4，1171-1179（2018）
[6]	Ayyagari，R.，影响函数在半参数回归模型中的应用（2010），哈佛大学博士论文
[7]	贝洛尼，A。；陈，D。；切尔诺朱科夫，V。；Hansen，C.，《最优工具的稀疏模型和方法及其在征用领域的应用》，《计量经济学》，80，6，2369-2429（2012）·兹比尔1274.62464
[8]	贝洛尼，A。；切尔诺朱科夫，V。；Hansen，C.，《在高维对照中选择后对治疗效果的推断》，《经济学评论》。螺柱，81、2、608-650（2014）·Zbl 1409.62142号
[9]	贝洛尼，A。；切尔诺朱科夫，V。；F.-V.伊凡。；Hansen，C.，高维数据的程序评估和因果推断，计量经济学，85，1233-298（2017）·Zbl 1410.62197号
[10]	贝洛尼，A。；切尔诺朱科夫，V。；Hansen，C.，高斯工具变量模型的Lasso方法
[11]	伯克，R。；布朗，L。；Buja，A。；张凯。；Zhao，L.，有效的后选择推理，Ann.Stat.，41，2，802-837（2013）·Zbl 1267.62080号
[12]	Bickel，P.，《关于自适应估计》，Ann.Stat.，10，3，647-671（1982）·Zbl 0489.62033号
[13]	比克尔，P。；克拉森，C。；Ritov，Y。；Wellner，J.，半参数模型的有效和自适应估计（1998），Springer·Zbl 0894.62005号
[14]	布洛尼亚兹，A。；刘，H。；张，C.-H。；Sekhon，J.S。；Yu，B.，《随机试验中治疗效果估计的Lasso调整》，Proc。国家。阿卡德。科学。美国，113，27，7383-7390（2016）·Zbl 1357.62098号
[15]	Breiman，L.，装袋预测，马赫数。学习。，24, 2, 123-140 (1996) ·Zbl 0858.68080号
[16]	布鲁克哈特，文学硕士。；Schneeweiss，S.公司。；Rothman，K.J。；Glynn，R.J。；Avorn，J。；Stürmer，T.，倾向评分模型的变量选择，美国流行病学杂志。，163, 12, 1149-1156 (2006)
[17]	医学博士Cattaneo。；Jansson，M。；Newey，W.K.，《替代渐近和具有许多回归变量的部分线性模型》，Econom。理论，34，2，1-25（2016）
[18]	Chamberlain，G.，半参数回归的效率界限，计量经济学，60,3567-596（1992）·Zbl 0774.62038号
[19]	陈，X。；林惇，O。；van Keilegom，I.，标准函数不光滑时半参数模型的估计，《计量经济学》，71，5，1591-1608（2018）·Zbl 1154.62325号
[20]	切尔诺朱科夫，V。；Chetverikov，D。；Demirer，M。；杜弗洛，E。；Hansen，C。；纽伊，W。；Robins，J.，《治疗和结构参数的双/脱苦机器学习》，经济学。J.，21，1，C1-C68（2018）·兹伯利07565928
[21]	切尔诺朱科夫，V。；Escanciano，J。；一村，H。；纽伊，W。；Robins，J.，局部稳健半参数估计
[22]	德卢纳，X。；瓦恩鲍姆，I。；Richardson，T.S.，平均治疗效果非参数估计的协变量选择，Biometrika，98，4，861-875（2011）·Zbl 1228.62139号
[23]	O.杜克斯。；Vansteelandt，S.，倾向得分变量选择后如何获得有效测试和置信区间？，统计方法医学研究，29，3，677-694（2020）
[24]	恩格尔，S。；Pagiola，S。；Wunder，S.，《在理论和实践中设计环境服务的支付：问题概述》，《生态经济学》。经济。，65, 4, 663-674 (2008)
[25]	Ertefaie，A。；Asgharian，M。；Stephens，D.，《使用同时惩罚法进行因果推理中的变量选择》，J.因果推理，6，1，550-560（2018）
[26]	范，J。；Li，R.，《通过非一致惩罚似然进行变量选择及其预言属性》，美国统计协会，96，456，1348-1360（2001）·Zbl 1073.62547号
[27]	范，J。；郭，S。；Hao，N.，超高维回归中使用改装交叉验证的变量估计，J.R.Stat.Soc.，Ser。B、统计方法。，74, 1, 37-65 (2012) ·Zbl 1411.62199号
[28]	范，Q。；Hsu，Y.-C。；列利，R.P。；Zhang，Y.，用高维数据估计条件平均治疗效果，J.Bus。经济。统计，40，1，313-327（2022）
[29]	Faraway，J.，线性模型对（2015），CRC出版社：佛罗里达州博卡拉顿CRC出版社·Zbl 1341.62008年
[30]	Farrell，M.H.，《关于平均治疗效果的稳健推断，协变量可能比观察值更多》，《经济学杂志》。，189, 1, 1-23 (2015) ·Zbl 1337.62113号
[31]	Fithian，W。；Sun，D。；Taylor，J.，模型选择后的最优推理，arXiv预印本
[32]	格陵兰，S.，《受邀评论：控制多重混杂因素中的变量选择与收缩》，美国流行病学杂志。，167, 5, 523-529 (2008)
[33]	格陵兰，南部。；Robins，J.M.，《模型选择在非实验数据因果推断中的作用》，美国流行病学杂志。，123,3392-402（2017）
[34]	Hahn，J.，《关于倾向评分在平均治疗效果有效半参数估计中的作用》，《计量经济学》，66，315-331（1998）·Zbl 1055.62572号
[35]	Härdle，W。；Liang，H。；Gao，J.，部分线性模型（2012），Springer Science&Business Media
[36]	哈斯蒂，T。；Tibshirani，R。；Friedman，J.，《统计学习的要素：数据挖掘、推断和预测》（2009），Springer:Springer New York·Zbl 1273.62005年
[37]	赫尔曼，M。；Robins，J.，《估计流行病学数据中的因果影响》，J.流行病学。社区卫生，60，7，578-586（2006）
[38]	Hirano，K。；Imbens，G.W。；Ridder，G.，《估计流行病学数据中的因果影响》，《计量经济学》，第71期，第1161-1189页（2003年）·Zbl 1152.62328号
[39]	洪，L。；库夫纳，T.A。；Martin，R.，《关于过拟合和选择后不确定性评估》，Biometrika，105，1，221-224（2018）·Zbl 07072407号
[40]	Huber-Stearns，H.R。；Goldstein，J.H。；Cheng，A.S。；Toombs，T.P.，《美国西部流域服务支付的制度分析》，生态系统。服务。，16, 11, 83-93 (2015)
[41]	Huber-Stearns，H.R。；Bennett，D.E。；波斯纳，S。；R.C.理查兹。；费尔，J.H。；Cousins，S.J.M。；Romulo，C.L.，《生态系统服务支付的社会生态有利条件》，生态。Soc.，22，1，18-93（2017）
[42]	伊布拉基莫夫，I.A。；Has’minskii，R.Z.，《统计估计：渐近理论》（1981），Springer-Verlag New York Inc·Zbl 0467.62026号
[43]	Imbens，G.W。；鲁宾，D.B.，《统计、社会和生物医学科学中的因果推断》（2015），剑桥大学出版社·Zbl 1355.6202号
[44]	Jack，B.K。；库斯基，C。；Sims，K.R.E.，《为生态系统服务设计支付：基于激励机制的以往经验教训》，Proc。国家。阿卡德。科学。美国，105，28，9465-9470（2008）
[45]	爪哇马德，A。；Montanari，A.，高维回归的置信区间和假设检验，J.Mach。学习。Res.，15，1，2869-2909（2014）·Zbl 1319.62145号
[46]	约瑟夫·V·R。；Vakayil，A.，《拆分：数据拆分的最佳方法》，Technometrics，1-11（2021）
[47]	Keller，B.，因果效应估计的变量选择：随机森林的非参数条件独立性检验，J.Educ。行为。统计，45，2，119-142（2020）
[48]	Kennard，R.W。；Stone，L.A.，计算机辅助实验设计，技术计量学，11，1，137-148（1969）·兹比尔0165.53102
[49]	Kuchibhotla，A.K。；Brown，L.D。；Buja，A。；E.I.乔治。；Zhao，L.，无模型框架中线性回归的子模型界统一，arXiv预印本
[50]	莱西，F.P。；Stuart，E.A.，《联合使用倾向性和预后评分评估受试者的平均治疗效果：一项模拟研究》，Stat.Med.，33，20，3488-3508（2014）
[51]	Lee，J.D。；Sun，D.L。；孙，Y。；Taylor，J.E.，《精确后选择推理及其在套索中的应用》，《安娜·Stat.》，44，3，907-927（2016）·Zbl 1341.62061号
[52]	Levit，B.，关于一类非参数估计的效率，理论概率。申请。，20, 4, 723-740 (1975) ·Zbl 0367.62041号
[53]	Linton，O.，半参数回归模型中minpin估计量的Edgeworth近似，经济学。理论，12，1，30-60（1996）
[54]	Liu，H.，《高维非参数学习》（2010），卡内基梅隆大学博士论文
[55]	马，S。；朱，L。；张，Z。；蔡，C。；Carroll，R.J.，《基于稀疏充分降维的因果推理稳健有效方法》，《Ann.Stat.》，47，3，1505-1535（2019）·Zbl 1420.62178号
[56]	马克·S。；Joseph，V.R.，支持点，Ann.Stat.，46，6A，2562-2592（2018）·Zbl 1408.62030号
[57]	Miller，H.J.，Tobler的第一定律和空间分析，Ann.Assoc.Am.Geogr。，92, 2, 284-289 (2004)
[58]	Minnier，J。；田，L。；Cai，T.，正则回归估计推断的扰动方法，美国统计协会，106，496，1371-1382（2011）·Zbl 1323.62076号
[59]	迈尔斯，J.A。；Rassen，J.A。；加涅，J.J。；Huybrechts，K.F。；Schneeweiss，S。；Rothman，K.J。；Joffe，M.M。；Glynn，R.J.，正则回归估计推断的扰动方法，美国流行病学杂志。，174, 11, 1213-1222 (2011)
[60]	Newey，W.K.，半参数效率界，J.Appl。经济。，5, 2, 947-962 (1990)
[61]	Newey，W.K.，半参数估计的渐近方差，计量经济学，62，6，1349-1382（1994）·Zbl 0816.62034号
[62]	纽伊，W.K。；谢福林。；Robins，J.，欠平滑和偏差修正函数估计（1998），麻省理工学院（MIT），经济系，工作文件98-17
[63]	纽伊，W.K。；谢福林。；Robins，J.，半参数估计量的扭曲核和小偏差性质，计量经济学，72，31947-962（2004）·Zbl 1091.62024号
[64]	Neyman，J.，复合统计假设的最优渐近检验，Probab。《统计》，第5、4、416-444页（1959年）
[65]	Padowski，J.C。；Gorelick，S.M.，《勘误：城市地表水供应脆弱性的全球分析》（2014年环境研究快报9 104004），环境。Res.Lett.公司。，第9、11条，第119501页（2014年）
[66]	帕特里克·A·R。；Schneeweiss，S。；布鲁克哈特，文学硕士。；Glynn，R.J。；Rothman，K.J。；Avorn，J。；Stürmer，T.，药物流行病学中倾向评分变量选择策略的含义：实证说明，药物流行病学。药物安全。，20, 6, 551-559 (2011)
[67]	Pearl，J.，《因果关系：模型、推理和推断》（2009），剑桥大学出版社·Zbl 1188.68291号
[68]	珀尔，J。；Mackenzie，D.，《为什么之书：因果新科学》（2018），基础书籍·Zbl 1416.62026号
[69]	Pfanzagl，J.，《对一般渐近统计理论的贡献》，第13卷（1982年），Springer-Verlag纽约公司·Zbl 0512.62001号
[70]	雷迪，M。；Szabo，L.E。；Hofer-Szabo，G.，《共同原因的原则》（2013），剑桥大学出版社
[71]	Reitermanova，Z.，数据分割，（WDS，第10卷（2010）），31-36
[72]	罗宾斯，J。；Rotnitzky，A.，《缺失数据多元回归模型的半参数效率》，美国统计协会，90，429，122-129（1995）·Zbl 0818.62043号
[73]	罗宾斯，J。；张，P。；阿亚加里，R。；洛根·R。；Tchetgen，E。；李，L。；卢姆利，A。；van der Vaart，A.，《半参数回归的新统计方法及其在空气污染研究中的应用》，Res.Rep.Health Eff。研究所，175，3-129（2013）
[74]	Robinson，P.M.，根-一致半参数回归，计量经济学，56，4，931-954（1988）·Zbl 0647.62100号
[75]	罗慕洛，C.L。；波斯纳，S。；堂兄弟，S。；霍伊尔·费尔，J。；Bennett，D.E。；Huber-Stearns，H。；R.C.理查兹。；McDonald，R.I.，《大城市集水区服务的全球州和潜在投资范围》，国家通讯社。，9, 1, 1-10 (2018)
[76]	罗森鲍姆，P。；Rubin，D.，倾向评分在因果效应观察性研究中的中心作用，《生物统计学》，70，1，41-55（1983）·Zbl 0522.62091号
[77]	Rotnitzky，A。；李，L。；Li，X.，关于逆概率加权估计中过度调整的注释，Biometrika，97，4，997-1001（2010）·Zbl 1204.62181号
[78]	Rubin，D.，《使用匹配抽样和回归调整消除观察性研究中的偏差》，生物统计学，29，1，184-203（1973）
[79]	Rubin，D.，在随机和非随机研究中估计治疗的因果效应，J.Educ。心理医生。，66, 5, 688-701 (1974)
[80]	Rubin，D.，《对于客观因果推断，设计胜过分析》，Ann.Appl。统计，2，3，808-840（2008）·Zbl 1149.62089号
[81]	Schick，A.，关于半参数模型中的渐近有效估计，Ann.Stat.，14，3，1139-1151（1986）·Zbl 0612.62062号
[82]	Schisterman，E。；科尔，S。；Platt，R.，《流行病学研究中的过度调整偏差和不必要的调整》，流行病学，20，4，488-495（2009）
[83]	肖特里德，S.M。；Ertefaie，A.，《结果适应套索：因果推断的变量选择》，《生物统计学》，73，4，1111-1122（2017）·Zbl 1405.62203号
[84]	Snee，R.D.，回归模型的验证：方法和示例，技术计量学，19，4，415-428（1977）·Zbl 0369.62065号
[85]	斯特霍芬，D.J。；Bühlmann，P.，混合型数据的Missforest-非参数缺失值插补，生物信息学，28，1，112-118（2012）
[86]	Stone，M.，统计预测的交叉验证选择和评估，J.R.Stat.Soc.，Ser。B、 Methodol.方法。，36111-133（1974年）·Zbl 0308.62063号
[87]	斯温顿，S.M。；卢皮，F。；Robertson，G.P。；Hamilton，S.K.，《生态系统服务与农业：为不同利益培育农业生态系统》，Ecol。经济。，64, 2, 245-252 (2007)
[88]	谢凯利，G。；Rizzo，M.L.，《能源统计：基于距离的一类统计》，J.Stat.Plan。推理，143，8，1249-1272（2013）·Zbl 1278.62072号
[89]	泰勒，J。；Tibshirani，R.J.，《统计学习和选择性推理》，Proc。国家。阿卡德。科学。美国，112，25，7629-7634（2015）·Zbl 1359.62228号
[90]	Tibshirani，R.，《通过套索进行回归收缩和选择》，J.R.Stat.Soc.，Ser。B、 Methodol.方法。，58, 1, 267-288 (1996) ·Zbl 0850.62538号
[91]	Tobler，W.R.，《模拟底特律地区城市增长的计算机电影》，《经济学》。地理位置。，46, 2, 234-240 (1996)
[92]	Tobler，W.R.，《论地理学第一定律：答复》，Ann.Assoc.Am.Geogr。，94, 2, 304-310 (2004)
[93]	范德吉尔，S。；Bühlmann，P。；Ritov，Y。；Dezeure，R.，《在高维数据中构建基于倾向得分的估计量的合作控制套索》，《Ann.Stat.》，42，3，1166-1202（2014）·Zbl 1305.62259号
[94]	范德莱恩，M.J。；Gruber，S.，协同双稳健目标最大似然估计，国际生物统计杂志。，6、1、第17条pp.（2010年）
[95]	范德拉恩，M.J。；Rose，S.，《目标学习：观察和实验数据的因果推断》（2011），Springer Science&Business Media
[96]	van der Vaart，A.，《关于可微泛函》，《美国统计年鉴》，第19卷，第1期，第178-204页（1991年）·Zbl 0732.62035号
[97]	van der Vaart，A.，《渐进统计》（1998），剑桥大学出版社·Zbl 0910.62001号
[98]	VanderWeele，T.J。；Shpitser，I.，《混杂因素选择的新标准》，《生物统计学》，67，4，1406-1413（2011）·Zbl 1274.62890号
[99]	Vansteelandt，S。；贝卡尔特，M。；Claeskens，G.，《混杂因素选择的新标准》，《统计方法医学研究》，第21、1、7-30页（2012年）·Zbl 1365.62431号
[100]	Wager，S。；Athey，S.，《使用随机森林评估和推断异质处理效应》，美国统计协会，113，523，1228-1242（2018）·Zbl 1402.62056号
[101]	Wager，S。；杜，W。；泰勒，J。；Tibshirani，R.J.，随机实验中的高维回归调整，Proc。国家。阿卡德。科学。美国，113，45，12673-12678（2016）·Zbl 1407.62264号
[102]	王，C。；Parmigiani，G。；Dominici，F.，考虑调整不确定性的贝叶斯效应估计，生物统计学，68，3，661-671（2012）·Zbl 1274.62895号
[103]	Wang，J。；何，X。；Xu，G.，高维模型中治疗效果的无偏推理，J.Am.Stat.Assoc.，115529442-454（2020）·Zbl 1439.62170号
[104]	Weinberg，C.R.，《走向混淆的更清晰定义》，《美国流行病学杂志》。，137, 1, 1-8 (1993)
[105]	Wilson，A。；Reich，B.J.，《通过受惩罚的可信区域进行Confounder选择》，《生物统计学》，70，4，852-861（2014）·Zbl 1393.62107号
[106]	Winston，L.，《实验数据回归调整的不可知论注释：重新审视自由人的批判》，Ann.Appl。统计，7，1，295-318（2013）·Zbl 1454.62217号
[107]	吴，C。；Hamada，M.，《实验：规划、分析和优化》（2011），Wiley:Wiley Hoboken，NJ
[108]	Xu，Y。；Goodacre，R.，《关于分裂训练和验证集：估计监督学习泛化性能的交叉验证、自举和系统抽样的比较研究》，J.R.Stat.Soc.，Ser。B、统计方法。，2, 3, 249-262 (2018)
[109]	Zhang，C.H。；Zhang，S.S.，高维线性模型中低维参数的置信区间，J.R.Stat.Soc.，Ser。B、统计方法。，76, 1, 217-242 (2014) ·Zbl 1411.62196号
[110]	齐格勒，C.M。；Dominici，F.，倾向得分估计的不确定性：变量选择和模型平均因果效应的贝叶斯方法，J.Am.Stat.Assoc.，10950595-107（2014）
[111]	Zou，H.，《自适应套索及其预言属性》，美国统计协会，101，476，1418-1429（2006）·Zbl 1171.62326号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	括号

示例

领域

操作员

使用高维数据对治疗效果进行基于邻域的交叉拟合方法。 （英语） Zbl 07711801号

MSC公司：

关键词：

软件：

参考文献：

使用高维数据对治疗效果进行基于邻域的交叉拟合方法。（英语） Zbl 07711801号