王天宇;马尔科·莫里奇;阿旺,M.Usaid;刘亚萌;罗伊,苏迪帕;辛西娅·鲁丁;亚历山大·沃尔夫斯基 FLAME:一种快速、大规模、几乎完全匹配的因果推理方法。 (英语) Zbl 07370548号 J.马赫。学习。物件。 22,第31号论文,41页(2021年). 概要:因果推理中的一个经典问题是匹配,即需要根据协变量信息将治疗单位与控制单位进行匹配。在这项工作中,我们提出了一种计算高维分类数据集的高质量近似精确匹配的方法。此方法称为FLAME(快速大尺度几乎完全匹配),使用保持训练数据集学习用于匹配的距离度量。为了有效地对大型数据集进行匹配,FLAME利用了数据库管理领域查询处理的自然技术,并提供了两种FLAME实现:第一种使用SQL查询,第二种使用位向量技术。该算法首先构建最高质量的匹配(所有协变量的精确匹配),然后依次删除变量,以便尽可能多的变量精确匹配,同时仍保持治疗组和对照组之间可解释的高质量匹配和平衡。我们利用这些高质量的匹配来评估条件平均治疗效果(CATE)。我们的实验表明,FLAME可以扩展到具有数百万个观测值的大型数据集,而现有的最先进的方法都失败了,并且它比其他匹配方法取得了显著更好的性能。 引用于4文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 关键词:观测研究;距离度量学习;异质处理效应;算法;数据库 软件:UCI-毫升;火焰;PostgreSQL;火焰女神;玻璃纤维 PDF格式BibTeX公司 XML格式引用 \textit{T.Wang}等人,J.Mach。学习。第22号决议,第31号论文,41页(2021;Zbl 07370548) 全文: arXiv公司 链接 参考文献: [1] 阿尔贝托·阿巴迪和吉多·维本斯。匹配估计量的鞅表示。《美国统计协会杂志》,107(498):833-8432012年·Zbl 1261.62008年 [2] 杰森·阿布雷瓦亚(Jason Abrevaya)。使用匹配面板数据方法估计吸烟对出生结果的影响。应用计量经济学杂志,21(4):489-5192006。 [3] 凯瑟琳·亚当斯(Kathleen E Adams)、文森特·米勒(Vincent P Miller)、卡拉·恩斯特(Carla Ernst)、布兰达·西村(Brenda K Nishimura)、凯西·梅尔文(Cathy Melvin)和罗伯特·梅里特(Robert Merritt)。与怀孕期间吸烟有关的新生儿保健费用。《健康经济学》,11(3):193-2062002。 [4] Susan Athey、Julie Tibshirani、Stefan Wager等。广义随机森林。《统计年鉴》,47(2):1148-11782019年·Zbl 1418.62102号 [5] M.Usaid Awan、Yameng Liu、Marco Morucci、Sudeepa Roy、Cynthia Rudin和Alexander Volfovsky。可解释的几乎与工具变量完全匹配。《第三十五届人工智能不确定性会议论文集》,阿拉伯联合酋长国,2019年。 [6] M.Usaid Awan、Marco Morucci、Vittorio Orlandi、Sudeepa Roy、Cynthia Rudin和Alexander Volfovsky。最精确地匹配网络干扰下的处理效果评估。第23届国际人工智能与统计会议记录,AISTATS,2020年。 [7] 亚历山大·贝洛尼(Alexandre Belloni)、维克托·切尔诺朱科夫(Victor Chernozhukov)和克里斯蒂安·汉森(Christian Hansen)。在高维对照中选择后对治疗效果的推断。《经济研究评论》,81(2):608-650,2014年·Zbl 1409.62142号 [8] M Alan Brookhart、Sebastian Schneeweiss、Kenneth J Rothman、Robert J Glynn、Jerry Avorn和Til St¨urmer。倾向得分模型的变量选择。美国流行病学杂志,163(12):1149-11562006。 [9] Matias D Cattaneo和Max H Farrell。利用协变量的子类化有效估计可忽略的剂量反应函数。《计量经济学进展》,27:93,2011年·Zbl 1443.62027号 [10] F.S.查宾。社会学研究中的实验设计。哈珀;纽约,1947年。 [11] Hugh A Chipman、Edward I George、Robert E McCulloch等。BART:贝叶斯加性回归树。应用统计年鉴,4(1):266-2982010·Zbl 1189.62066号 [12] William G Cochran和Donald B Rubin。观察性研究中的控制偏差:综述。桑基?a:《印度统计杂志》,a辑,第417-446页,1973年·Zbl 0291.62012号 [13] 亚历克西斯·戴蒙德(Alexis Diamond)和贾斯吉特·塞孔(Jasjeet S.Sekhon)。估计因果效应的遗传匹配:在观察性研究中实现平衡的通用多元匹配方法。《经济学与统计学评论》,95(3):932-9452013年。 [14] 阿瓦迪昂、刘亚萌、苏迪帕·罗伊、辛西娅·鲁丁和亚历山大·沃尔福夫斯基。因果推理的可解释近似精确匹配。《人工智能与统计学报》(AISTATS),第2445-2453页,2019年。 [15] Vincent Dorie、Jennifer Hill、Uri Shalit、Marc Scott和Dan Cervone。因果推理的自动化方法与自制方法:从数据分析竞赛中吸取的教训。统计科学,34(1):43-682019·兹比尔1420.62345 [16] 埃弗罗林森文学硕士。多元回归分析。数字计算机的数学方法,第191-203页,1960年。 [17] 马克斯·法雷尔。对平均治疗效果进行稳健推断,协变量可能比观察值更多。计量经济学杂志,189(1):1-232015·Zbl 1337.62113号 [18] Max H Farrell、Tengyuan Liang和Sanjog Misra。用于估计和推断的深度神经网络:应用于因果效应和其他半参数估计。arXiv预印本arXiv:1809.099532018。 [19] 欧内斯特·格林伍德。实验社会学:方法研究。国王皇冠出版社,1945年。 [20] Neha R.Gupta、Vittorio Orlandi、Chia-Rui Chang、Tianyu Wang、Marco Morucci、Pritam Dey、Thomas J.Howell、Xian Sun、Angikar Ghosal、Sudeepa Roy、Cynthia Rudin和Alexander Volfovsky。dame-flame:一个python库,为因果推理提供快速可解释的匹配。arXiv 2101.018672021年。 [21] 金庸哈恩。因果推理中的功能限制和效率。《经济与统计评论》,86(1):73-762004年。 [22] G¨unter J Hitsch和Sanjog Misra。异质性处理效果和最优目标政策评估。2018年第3111957号SSRN提供。 [23] MA Honein、LJ Paulozzi和ML Watkins。母亲吸烟与出生缺陷:影响评估出生证明数据的有效性。《公共卫生报告》,116(4):3272001。 [24] 斯特凡诺·米亚库斯(Stefano M Iacus)、加里·金(Gary King)和朱塞佩·波罗(Giuseppe Porro)。没有平衡检查的因果推断:粗糙的精确匹配。政治分析,20(1):1-242011a·Zbl 1396.62011年 [25] 斯特凡诺·米亚库斯(Stefano M Iacus)、加里·金(Gary King)和朱塞佩·波罗(Giuseppe Porro)。单调不平衡边界的多元匹配方法。《美国统计协会杂志》,106(493):345-3612011b·Zbl 1396.62011年 [26] Guido W Imbens和Donald B Rubin。统计、社会和生物医学科学中的因果推理。剑桥大学出版社,2015年·Zbl 1355.6202号 [27] Mariana Caricati Kataoka、Ana Paula Pinho Carvalheira、Anna Paula Ferrari、Ma´ıra Barreto Malta、Maria Antonieta de Barros Leite Carvalhaes和Cristina Maria Garcia de Lima Parada。怀孕期间吸烟与降低出生体重的危害:一项横断面研究。BMC怀孕和分娩,18(1):1-10,2018。 [28] 安东尼·孔德拉基(Anthony J Kondracki)。根据母亲特征,妊娠前和妊娠早期和晚期吸烟的患病率和模式:基于2003年出生证明修订的第一份全国数据,美国,2016年。生殖健康,16(1):1422019。 [29] 安东尼·孔德拉基(Anthony J Kondracki)。足月单胞胎低出生体重介导了母亲吸烟强度暴露状态与立即新生儿重症监护室入院之间的关系:e值评估。BMC怀孕和分娩,20:1-9,2020年。 [30] M.利奇曼。UCI机器学习库,2013年。统一资源定位地址http://archive.ics.uci.edu/毫升。 [31] 马利尼·马亨德拉(Malini Mahendra)、马蒂娜·斯特雷尔·穆勒(Martina Steurer-Muller)、塞缪尔·霍曼(Samuel F Hohmann)、罗伯塔·凯勒(Roberta L Keller),阿尼尔·阿斯瓦尼(Anil Aswani)和R Adams Dudley。预测近期和足月低视力婴儿的NICU入院情况。《围产期医学杂志》,第1-8页,2020年。 [32] 罗伯特·L·麦考纳克。多元回归中三种预测因子选择技术的比较。《心理学》,35(2):257-2711970年·Zbl 0195.48703号 [33] Marco Morucci,马里兰州Noor-E-Alam和Cynthia Rudin。对匹配方法选择稳健的假设检验。arXiv预印本arXiv:1812.022272018。 [34] 马可·莫里奇(Marco Morucci)、维托里奥·奥兰迪(Vittorio Orlandi)、苏迪帕·罗伊(Sudeepa Roy)、辛西娅·鲁丁(Cynthia Rudin)和亚历山大·沃尔福夫斯基(Alexander Volfovsky)。自适应超盒匹配用于可解释的个体化治疗效果评估。《第三十六届人工智能不确定性会议论文集》,UAI,2020年。 [35] 国家卫生统计中心。2010年出生率公共使用文件用户指南。技术报告,疾病控制和预防中心(CDC),2010年。 [36] M.Noor-E-Alam和C.Rudin。自然实验中因果推理的稳健非参数检验。工作文件,2015年。 [37] Harsh Parikh、Cynthia Rudin和Alexander Volfovsky。麦尔斯:学会拉伸后的匹配。arXiv电子版:arXiv:1811.07415,2018年11月。 [38] Harsh Parikh、Cynthia Rudin和Alexander Volfovsky。学习拉伸后匹配(MALTS)在ACIC 2018因果推理挑战数据中的应用。《观察研究》,第118-130页,2019年。 [39] PostgreSQL。PostgreSQL,2016年。统一资源定位地址http://www.postgresql.org。 [40] Jeremy A Rassen和Sebastian Schneeweiss。在分布式医疗产品安全监测系统中使用高维倾向评分来自动化混杂控制。药物流行病学与药物安全,21(S1):41-492012。 [41] Mar´a Resa和Jos´e R Zubizarreta。子集匹配方法和协变量平衡形式的评估。《医学统计》,35(27):4961-49792016。 [42] 保罗·罗森鲍姆。在观察性研究中对最优匹配施加极小极大和分位数约束。《计算与图形统计杂志》,2016年。 [43] Paul R Rosenbaum和Donald B Rubin。因果效应观察性研究中倾向评分的中心作用。《生物统计学》,70(1):41-551983年·Zbl 0522.62091号 [44] Michelle E Ross、Amanda R Kreider、Yuan-Shung Huang、Meredith Matone、David M Rubin和A Russell Localio。用于分析观察数据的倾向性评分方法,如随机实验:罕见结果和暴露的挑战和解决方案。《美国流行病学杂志》,181(12):989-9952015。 [45] 唐纳德·鲁宾(Donald B Rubin),通过匹配消除观察研究中的偏见。生物统计学,第159-183页,1973a。 [46] Donald B Rubin。在观察性研究中使用匹配抽样和回归调整来消除偏差。生物统计学,第185-203页,1973b。 [47] Donald B Rubin,等百分比偏差减少的多元匹配方法,i:一些例子。《生物统计学》,第109-120页,1976年·Zbl 0326.62043号 [48] 唐纳德·鲁宾(Donald B.Rubin)。使用潜在结果的因果推理:设计、建模、决策。《美国统计协会杂志》,100:322-3312005年·Zbl 1117.62418号 [49] 辛西娅·鲁丁。停止解释高风险决策的黑箱机器学习模型,而使用可解释模型。《自然机器智能》,2019年5月1:206-215。 [50] 塞巴斯蒂安·施尼维斯(Sebastian Schneeweiss)、杰里米·拉森(Jeremy A Rassen)、罗伯特·J·格林(Robert J Glynn)、杰里·阿沃恩(Jerry Avorn)、海伦·莫根(Helen Mogun)和M·艾伦·布鲁克哈特(M Alan Brookhart)。使用医疗索赔数据进行治疗效果研究中的高维倾向得分调整。流行病学,20(4):5122009。 [51] Mark J Van Der Laan和Daniel Rubin。目标最大似然学习。国际生物统计学杂志,2(1),2006年。 [52] Stefan Wager和Susan Athey。使用随机森林评估和推断异质处理效果。《美国统计协会杂志》,113(523):1228-12422018年·Zbl 1402.62056号 [53] 杰伊·扎戈斯基(Jay L Zagorsky)。婚姻和离婚对财富的影响。《社会学杂志》,41(4):406-4242005。 [54] 何塞·祖比扎雷塔。在手术后肾功能衰竭的观察性研究中使用混合整数规划进行匹配。《美国统计协会杂志》,107(500):1360-13712012·Zbl 1258.62119号 [55] Jos´e R Zubizarreta、Ricardo D Paredes、Paul R Rosenbaum等。智利营利性和非营利性高中有效性的观察性研究中的平衡匹配、异质性配对。应用统计年鉴,8(1):204-2312014·Zbl 1454.62510号 [56] Jose R.Zubizarreta和Luke Keele。集群观察研究中的最优多级匹配:大型代金券制度下私立学校有效性的案例研究。《美国统计协会杂志》,112(518),2017年。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。