林哲晓;丁、彭;韩方 基于最近邻匹配的估计:从密度比到平均治疗效果。 (英语) Zbl 07846528号 计量经济学 91,第6号,2187-2217(2023). 摘要:最近邻(NN)匹配在因果关系的观察性研究中被广泛使用。A.阿巴迪和G.W.伊姆本斯[同上,74,第1号,235–267(2006年;Zbl 1112.62042号)]提供了第一个神经网络匹配的大样本分析。他们的理论关注的是NN数量固定的情况。我们从他们的研究中发现了一些新的东西,并表明一旦允许(M)与样本大小发生偏离,他们分析中的一个内在统计就构成了关于治疗组和对照组协变量的密度比的一致估计值。因此,对于发散(M),NN与A.阿巴迪和G.W.伊姆本斯[J.Bus.Econ.Stat.29,第1期,第1-11页(2011年;Zbl 1214.62031号)]如果密度函数足够光滑,且结果模型是一致估计的,则偏差校正产生平均处理效果的双稳健估计,并且是半参数有效的。因此,它可以被视为双机器学习估计器的前身。©2023计量经济学协会 引用于1文件 MSC公司: 93至XX 系统论;控制 关键词:基于图形的统计;随机几何学;双重稳健性;双机器学习;倾向得分 引文:Zbl 1112.62042号;Zbl 1214.62031号 PDF格式BibTeX公司 XML格式引用 \textit{Z.Lin}等人,《计量经济学》91,No.6,2187-2217(2023;Zbl 07846528) 全文: DOI程序 arXiv公司 参考文献: [1] Abadie、Alberto和Guido W.Imbens(2006):“平均治疗效果匹配估计的大样本特性”,《计量经济学》,第74期,第235-267页·Zbl 1112.62042号 [2] Abadie、Alberto和Guido W.Imbens(2008):“关于匹配估计器的引导失败”,《计量经济学》,76(6),1537-1557·Zbl 1153.91752号 [3] Abadie、Alberto和Guido W.Imbens(2011):“平均治疗效果的偏差修正匹配估计”,《商业与经济统计杂志》,29,1-11·Zbl 1214.62031号 [4] Abadie、Alberto和Guido W.Imbens(2012):“匹配估计器的鞅表示法”,《美国统计协会杂志》,107(498),833-843·Zbl 1261.62008年 [5] Abadie,Alberto和Guido W.Imbens(2016):“估计倾向得分的匹配”,《计量经济学》,84781-807·Zbl 1410.62065号 [6] Armstrong、Timothy B.和MichalKolesár(2021):“无基础条件下平均治疗效果的有限样本最优估计和推断”,《计量经济学》,第89期,第1141-1177页·Zbl 1478.62075号 [7] Athey、Susan、Guido W.Imbens、Jonas Metzger和Evan Munro(2023年):“使用Wasserstein生成对手网络进行蒙特卡罗模拟设计”,《计量经济学杂志》(即将出版)。 [8] Bang、Heejung和James M.Robins(2005):“缺失数据和因果推断模型中的双重稳健估计”,《生物计量学》,61(4),962-973·Zbl 1087.62121号 [9] Bentley,Jon L.(1975):“用于关联搜索的多维二叉搜索树”,《ACM通信》,18(9),509-517·Zbl 0306.68061号 [10] Berrett、Thomas B.、Richard J.Samworth和MingYuan(2019):“通过k‐最近邻距离进行有效的多元熵估计”,《统计学年鉴》,47(1),288-318·Zbl 1473.62177号 [11] Bhattacharya,Bhaswar B.(2019):“基于无分布图的两样本测试的一般渐进框架”,《皇家统计学会杂志》。B系列,81(3),575-602·Zbl 1420.62214号 [12] Biau、Gérard和LucDevroye(2015):最近邻法讲座。斯普林格·Zbl 1330.68001号 [13] Borgeaud、Sebastian、ArthurMensch、JordanHoffmann、TrevorCai、ElizaRutherford、KatieMillican、Georgevan denDriessche、Jean‐BaptisteLespiau、BogdanDamoc、AidanClark等人(2021):《通过检索万亿代词改进语言模型》,第39届国际机器学习会议论文集,第162卷。机器学习研究论文集,2206-2240。 [14] Brookhart、M.Alan、Sebastian Schneeweiss、Kenneth J.Rothman、Robert J.Glynn、JerryAvorn和TilStürmer(2006):“倾向评分模型的变量选择”,《美国流行病学杂志》,163(12),1149-1156。 [15] Chapin,F.Stuart(1947):《社会学研究中的实验设计》。哈珀兄弟。 [16] Chen,Xiaohong和Timothy M.Christensen(2015):“弱相依和弱条件下序列估计的最优一致收敛率和渐近正态性”,《计量经济学杂志》,188(2),447-465·Zbl 1337.62101号 [17] Chernozhukov、Victor、DenisChetverikov、MertDemirer、EstherDuflo、Christian Hansen、Whitney Newey和James Robins(2018):“治疗和结构参数的双/负机器学习”,《计量经济学杂志》,21(1),C1-C68·Zbl 07565928号 [18] Cochran、William G.和Donald B.Rubin(1973):“观测研究中的控制偏差:综述”,Sankhyá,A辑,35(4),417-446·Zbl 0291.62012号 [19] Cover,Thomas M.和JoyThomas(2006):信息理论的要素(第二版)。约翰·威利父子·Zbl 1140.94001号 [20] 斯科特·坎宁安(2021):因果推理:混合带。耶鲁大学出版社。 [21] Dehejia、Rajeev H.和SadekWahba(1999):“非实验研究中的因果关系:重新评估培训计划的评估”,《美国统计协会杂志》,94(448),1053-1062。 [22] Devroye、Luc、LászlóGyörfi、GáborLugosi和HarroWalk(2017):“关于Voronoi细胞的测量”,《应用概率杂志》,54(2),394-408·Zbl 1400.60012号 [23] Evans、Lawrence C.和Ronald F.Garzepy(2018):函数的度量理论和精细特性。劳特利奇。 [24] Farrell,Max H.(2015):“关于协变变量可能多于观察值的平均治疗效果的稳健推断”,《计量经济学杂志》,189(1),1-23·Zbl 1337.62113号 [25] Ferman,Bruno(2021年):“将估计值与少数经过处理的观测值和许多对照观测值进行匹配”,《计量经济学杂志》,225,295-307·Zbl 07414293号 [26] Friedman、Jerome H.和Lawrence C.Rafsky(1979):“Wald‐Wolfowitz和Smirnov双样本检验的多元综合”,《统计学年鉴》,7(4),697-717·Zbl 0423.62034号 [27] Friedman、Jerome H.、Jon L.Bentley和Raphael A.Finkel(1977):“在对数预期时间内寻找最佳匹配的算法”,《ACM数学软件交易》,3(3),209-226·Zbl 0364.68037号 [28] 格林伍德,欧内斯特(1945):实验社会学。哥伦比亚大学出版社。 [29] Hahn,Jinyong(1998):“关于倾向得分在平均治疗效果有效半参数估计中的作用”,《计量经济学》,66(2),315-331·Zbl 1055.62572号 [30] Han,Yanjun,JiantaoJiao,Tsachy Weissman,and Yihong Wu(2020):“Lipschitz Balls上熵估计的最佳速率”,《统计学年鉴》,48(6),3228-3250·Zbl 1464.62258号 [31] Hansen,Ben B.(2008):“倾向评分的预测类比”,《生物统计学》,95(2),481-488·Zbl 1437.62485号 [32] Henze,Norbert(1988):“基于最近邻型巧合数量的多元双样本检验”,《统计年鉴》,16(2),772-783·Zbl 0645.62062号 [33] Henze、Norbert和Mathew D.Penrose(1999):“关于多元运行测试”,《统计年鉴》,27(1),290-298·Zbl 0944.62057号 [34] Ho,Daniel E.,KosukeImai,GaryKing,and Elizabeth A.Stuart(2007):“匹配作为非参数预处理用于降低参数因果推断中的模型依赖性”,《政治分析》,15(3),199-236。 [35] Imbens,Guido W.(2004):“外生性下平均治疗效果的非参数估计:综述”,《经济学与统计学评论》,86(1),4-29。 [36] Imbens,Guido W.和Donald B.Rubin(2015):统计学、社会科学和生物医学中的因果推断。剑桥大学出版社·Zbl 1355.6202号 [37] Kallus,Nathan(2020):“因果推断的广义最佳匹配方法”,《机器学习研究杂志》,21,1-54·Zbl 1498.62035号 [38] Kpotufe,Samory(2017):“Lipschitz密度比、结构化数据和数据驱动调整”,2017年国际人工智能与统计会议。PMLR,1320-1328年。 [39] Kremer、Jan、FabianGieseke、K.SteenstrupPedersen和ChristianIgel(2015):“天文大尺度应用的最近邻密度比估计”,《天文学与计算》,第1267-72页。 [40] LaLonde,Robert J.(1986):“用实验数据评估培训项目的计量经济学评估”,《美国经济评论》,76(4),604-620。 [41] 利马、马科斯、卡洛斯·库尼亚、HiroakiOyaizu、约书亚·弗里曼、HuanLin和埃林·谢尔顿(2008):“估算光度星系样品的红移分布”,《皇家天文学会月刊》,390(1),118-130。 [42] Lin,Zheshao,and FangHan(2023):“关于增强查特吉等级相关性的力量”,Biometrika,110(2),283-299·Zbl 1516.62059号 [43] Lin,Zhexiao,PengDing,and FangHan(2023):“对‘基于最近邻匹配的估计:从密度比到平均治疗效果’的补充”,《计量经济学补充材料》,91,https://doi.org/10.3982/ECTA20598。 ·Zbl 07846528号 ·doi:10.3982/ECTA20598 [44] Liu、Regina Y.和KesarSingh(1993):“基于数据深度和多元秩检验的质量指数”,《美国统计协会杂志》,88(421),252-260·Zbl 0772.62031号 [45] Morgan、Stephen L.和David J.Harding(2006):“因果效应的匹配估计:理论和实践中的前景和陷阱”,《社会学方法与研究》,35(1),3-60。 [46] Newey,Whitney K.(1997):“级数估计的收敛速度和渐近正态性”,《计量经济学杂志》,79(1),147-168·Zbl 0873.62049号 [47] Nguyen、XuanLong、Martin J.Wainwright和Michael I.Jordan(2010):“通过凸风险最小化估计发散函数和似然比”,IEEE信息理论汇刊,56(11),5847-5861·Zbl 1366.62071号 [48] Noshad、Morteza、Kevin R.Moon、Salimeh Y.Sekeh和Alfred O.Hero(2017):“使用最近邻比率直接估计信息分歧”,2017年IEEE国际信息理论研讨会(ISIT),903-907。 [49] Otsu、Taisuke和YoshiyasuRai(2017):“平均治疗效果匹配估计值的Bootstrap推断”,美国统计协会杂志,112(520),1720-1732。 [50] Póczos、Barnabás和JeffSchneider(2011):“关于α偏离的估计”,2011年国际人工智能与统计会议,609-617。 [51] Rosenbaum,Paul R.(2010):观察研究的设计。斯普林格·Zbl 1308.62005号 [52] Rosenbaum、Paul R.和Donald B.Rubin(1983):“倾向评分在因果效应观察研究中的中心作用”,《生物特征》,70(1),41-55·Zbl 0522.62091号 [53] Donald B.Rubin(1973):“匹配以消除观测研究中的偏差”,《生物统计学》,29(1),159-183。 [54] 鲁宾,唐纳德·B(1974):“评估随机和非随机研究中治疗的因果效应”,《教育心理学杂志》,66(5),688-701。 [55] 鲁宾,唐纳德·B(2006):因果效应的匹配抽样。剑桥大学出版社·Zbl 1118.62113号 [56] Rubin、Donald B.和NealThomas(2000):“结合倾向得分匹配和预测协变量的额外调整”,《美国统计协会杂志》,95(450),573-585。 [57] Scharfstein、Daniel O.、Andrea Rotnitzky和James M.Robins(1999):“使用半参数非响应模型调整不可忽视的辍学”,《美国统计协会杂志》,94(448),1096-1120·Zbl 1072.62644号 [58] Sekhon,Jasjeet S.(2008):“具有自动平衡优化的多元和倾向得分匹配软件:R的匹配包”,《统计软件杂志》,42(7),1-52。 [59] Shadish,William R.、Margaret H.Clark和Peter M.Steiner(2008):“非随机实验能产生准确的答案吗?随机实验比较随机和非随机分配”,《美国统计协会杂志》,103(484),1334-1344·Zbl 1286.62013年 [60] Shi、Hongjian、Mathias-Drton和FangHan(2022):“关于查特吉等级相关性的力量”,《生物特征》,109(2),317-333·Zbl 07543326号 [61] Shi、Hongjian、Mathias-Drton和FangHan(2023):“关于Azadkia‐Chatterjee的条件依赖系数”,Bernoulli(即将出版)。 [62] Smith,Herbert L.(1997):“在观察性研究中与多重对照相匹配以估计治疗效果”,社会学方法论,27(1),325-353。 [63] Stein,Elias M.(2016):奇异积分和函数的可微性。普林斯顿大学出版社·Zbl 0207.13501号 [64] Sugiyama、Masashi、TaijiSuzuki和TakafumiKanamori(2012):机器学习中的密度比估计。剑桥大学出版社·Zbl 1274.62037号 [65] Sugiyama、Masashi、TaijiSuzuki、Shinichi Nakajima、HisashimaKashima、PaulvonBünau和MotoakiKawanabe(2008):“协变移位适应的直接重要性估计”,《统计数学研究所年鉴》,60(4),699-746·Zbl 1294.62069号 [66] Tsiatis,Anastasios A.(2006):半参数理论和缺失数据。斯普林格·Zbl 1105.6202号 [67] Tsybakov,Alexandre B.(2009):非参数估计导论。斯普林格·兹比尔1176.62032 [68] 沃罗诺伊(Voronoi,Georges)(1908年):“Paramètres的新应用延续了四边形的形式。Deuxième Mémoire。Recherches sur les Parallelélloédres Primitifs”,《科学杂志》(Crelles Journal),1908(134),198-287。 [69] Wald、Abraham和Jacob Wolfowitz(1940):“关于两个样本是否来自同一人群的测试”,《数理统计年鉴》,11(2),147-162。 [70] Wang,Yixin和JoséR.Zubizarreta(2023):“平衡匹配的大样本属性”,《统计》,第33期,1789-1808页·Zbl 07769922号 [71] Yang,Shu和YunshuZhang(2023):“平均和分位数处理效果的多重稳健匹配估计”,《斯堪的纳维亚统计杂志》,50,235-265·Zbl 07677036号 [72] 赵普宁和李凤来(2020):“连续分布KL发散的最小极大最优估计”,IEEE信息理论汇刊,66(12),7787-7811·Zbl 1457.62097号 [73] 赵普宁,李凤来(2022):“KNN密度估计分析”,IEEE信息理论汇刊,68(12),7971-7995。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。