×

因果推断的贝叶斯回归树模型:正则化、混淆和异质效应(附讨论)。 (英语) Zbl 1475.62102号

小结:本文提出了一种新的非线性回归模型,用于评估异质性治疗效应,特别适用于效应大小较小、异质性效应和可观察到的强混杂的情况。标准非线性回归模型在预测方面可能非常有效,但在用于估计非均质处理效果时,有两个明显的缺点。首先,当适合具有强烈混淆的数据时,它们可以产生严重偏差的治疗效果估计。本文提出的贝叶斯因果森林模型避免了这一问题,它直接将倾向函数的估计纳入响应模型的规范中,隐含地在回归函数上引入一个与协方差相关的先验。其次,响应面建模的标准方法不能充分控制效应异质性的正则化强度。贝叶斯因果森林模型允许将治疗效果异质性与控制变量的预测效果分开进行正则化,从而可以在信息上“缩小到同质性”。虽然我们专注于观察数据,但我们的方法对于从随机对照实验中推断异质治疗效果同样有用,因为仔细的正则化稍微不那么复杂,但也同样重要。我们通过重新分析一项评估吸烟对医疗支出因果影响的观察性研究以及广泛的模拟研究来说明这些好处。

MSC公司:

62D20型 观察性研究的因果推断
2015年1月62日 贝叶斯推断
62J02型 一般非线性回归
62J07型 岭回归;收缩估计器(拉索)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Athey,S.、Tibshirani,J.、Wager,S.等人(2019)。“广义随机森林”,《统计年鉴》,47(2):1148-1178·Zbl 1418.62102号 ·doi:10.1214/18-AOS1709
[2] Bang,H.和Robins,J.M.(2005)。“缺失数据和因果推断模型中的双重稳健估计”,《生物计量学》,61(4):962-973·Zbl 1087.62121号 ·文件编号:10.1111/j.1541-0420.2005.00377.x
[3] Breiman,L.(2001)。《随机森林》,机器学习,45(1):5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Carvalho,C.M.、Polson,N.G和Scott,J.G.(2010年)。“稀疏信号的马蹄形估计器”,Biometrika,97(2):465-480。牛津大学出版社·Zbl 1406.62021号 ·doi:10.1093/biomet/asq017
[5] Chernozhukov,V.、Chetverikov,D.、Demirer,M.、Duflo,E.、Hansen,C.等人(2016)。“治疗和因果参数的双机器学习”。arXiv预印本arXiv:1608.00060。
[6] Chipman,H.、George,E.和McCulloch,R.(1998)。“贝叶斯CART模型搜索”,《美国统计协会杂志》,93(443):935-948。
[7] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树〉,《应用统计年鉴》,266-298·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[8] Dorie,V.和Hill,J.(2017年)。acicomp2016:大西洋因果推论大会2016模拟比赛。R包版本0.1-0。
[9] Dorie,V.、Hill,J.、Shalit,U.、Scott,M.、Cervone,D.等人(2019年)。“因果推理的自动化方法与自制方法:从数据分析竞赛中吸取的教训”,《统计科学》,34(1):43-68·Zbl 1420.62345号 ·doi:10.1214/18-STS667
[10] Efron,B.(2014)。“模型选择后的估计和准确性”,《美国统计协会杂志》,109(507):991-1007·Zbl 1368.62071号 ·doi:10.1080/01621459.2013.823775
[11] Friedberg,R.、Tibshirani,J.、Athey,S.和Wager,S.(2018年)。“当地线性森林”。arXiv预印本arXiv:1807.11408。
[12] Ganin,Y.、Ustinova,E.、Ajakan,H.、Germain,P.、Larochelle,H.,Laviolette,F.、Marchand,M.和Lempitsky,V.(2016)。“神经网络的领域-变量训练”,《机器学习研究杂志》,17(1):2096-2030·Zbl 1360.68671号
[13] Gelman,A.等人(2006年)。“层次模型中方差参数的先验分布(对Browne和Draper的文章的评论)。”贝叶斯分析,1(3):515-534·Zbl 1331.62139号 ·doi:10.1214/06-BA117A
[14] Giles,D.和Rayner,A.(1979年)。《最大似然和自然共轭贝叶斯回归估计的均方误差》,计量经济学杂志,11(2):319-334·Zbl 0421.62046号 ·doi:10.1016/0304-4076(79)90043-5
[15] Gramacy,R.B.和Lee,H.K.(2008年)。“贝叶斯树高斯过程模型及其在计算机建模中的应用”,《美国统计协会杂志》,103(483)·Zbl 1205.62218号 ·doi:10.1198/0162145000000689
[16] Green,D.P.和Kern,H.L.(2012)。“用贝叶斯加性回归树模拟调查实验中的异质处理效应”,《公众舆论季刊》,nfs036。
[17] Gustafson,P.和Greenland,S.(2006年)。“暴露错误分类的贝叶斯调整中的奇怪现象”,《医学统计》,25(1):87-103。
[18] Hahn,P.R.和Carvalho,C.M.(2015)。“贝叶斯线性模型中的解耦收缩和选择:后验总结视角”,《美国统计协会杂志》,110(509):435-448·Zbl 1373.62036号 ·doi:10.1080/01621459.2014.993077
[19] Hahn,P.R.、Dorie,V.和Murray,J.S.(2018年)。2017年大西洋因果推断会议(ACIC)数据分析挑战赛。
[20] Hahn,P.R.、Puelz,D.、He,J.和Carvalho,C.M.(2016)。“用于治疗效果评估的线性回归中的正则化和混淆”,贝叶斯分析·Zbl 06873722号 ·doi:10.1214/16-BA1044
[21] Hansen,B.B.(2008)。“倾向评分的预后类似物”,《生物特征》,95(2):481-488·Zbl 1437.62485号 ·doi:10.1093/biomet/asn004
[22] He,J.(2019)。“用于正规监督学习的随机树集合”,芝加哥大学布斯商学院技术报告。
[23] Heckman,J.J.、Lopes,H.F.和Piatek,R.(2014)。《治疗效果:贝叶斯视角》,计量经济学评论,33(1-4):36-67·Zbl 1491.62218号
[24] Hill,J.、Su,Y.-S.等人(2013年)。“使用贝叶斯非参数评估因果推断中缺乏共同支持:评估母乳喂养对儿童认知结果影响的意义”,《应用统计年鉴》,7(3):1386-1420·Zbl 1283.62220号 ·doi:10.1214/13-AOAS630
[25] Hill,J.L.(2011)。“因果推理的贝叶斯非参数建模”,《计算与图形统计杂志》,20(1)。
[26] Imai,K.,Ratkovic,M.等人(2013年)。“评估随机方案评估中的治疗效果异质性”,《应用统计年鉴》,7(1):443-470·Zbl 1376.62036号 ·doi:10.1214/12-AOAS593
[27] Imai,K.和Van Dyk,D.A.(2004年)。“一般治疗方案的因果推断:倾向评分的泛化”,《美国统计协会杂志》,99(467):854-866·兹比尔1117.62361 ·doi:10.1198/0162145000001187
[28] Imbens,G.W.和Rubin,D.B.(2015)。统计、社会和生物医学科学中的因果推断。剑桥大学出版社·Zbl 1355.6202号
[29] Johnson,E.、Dominici,F.、Griswold,M.和Zeger,S.L.(2003)。“吸烟导致的疾病病例及其医疗费用:国家医疗费用调查分析”,《计量经济学杂志》,112(1):135-151·Zbl 1038.62101号 ·doi:10.1016/S0304-4076(02)00157-4
[30] Kern,H.L.、Stuart,E.A.、Hill,J.和Green,D.P.(2016)。“将实验影响估计推广到目标人群的评估方法”,《教育有效性研究杂志》,9(1):103-127。
[31] Künzel,S.R.、Sekhon,J.S.、Bickel,P.J.和Yu,B.(2019)。“使用机器学习评估异质治疗效果的元学习者”,《国家科学院学报》,116(10):4156-4165。
[32] Li,M.和Tobias,J.L.(2014)。“治疗效果模型的贝叶斯分析”,载于Jeliazkov,I.和Yang,X.S.(编辑),《社会科学中的贝叶斯推断》,第3章,63-90。威利。
[33] Linero,A.R.和Yang,Y.(2018年)。“适应平滑度和稀疏度的贝叶斯回归树集合”,《皇家统计学会杂志:B辑(统计方法)》,80(5):1087-1110·Zbl 1407.62138号 ·doi:10.1111/rssb.12293
[34] McCaffrey,D.F.、Griffin,B.A.、Almirall,D.、Slaughter,M.E.、Ramchand,R.和Burgette,L.F.(2013)。“使用广义增强模型对多种治疗进行倾向评分估计的教程”,《医学统计》,32(19):3388-3414。
[35] McCaffrey,D.F.、Ridgeway,G.和Morral,A.R.(2004)。“在观察性研究中,使用增强回归评估因果效应的倾向得分估计”,《心理学方法》,9(4):403。
[36] McCandless,L.C.、Gustafson,P.和Austin,P.C.(2009年)。“观测数据的贝叶斯倾向得分分析”,《医学统计学》,28(1):94-112。
[37] McConnell,K.J.和Lindner,S.(2019年)。“用机器学习评估治疗效果”,《卫生服务研究》。
[38] Murray,J.S.(2017)。《多项式Logistic和计数回归模型的对数线性贝叶斯加性回归树》,arXiv预印本arXiv:1701.01503。
[39] Nie,X.和Wager,S.(2017)。“异质处理效应的准有序估计”,arXiv预印本arXiv:1712.04912。
[40] Polson,N.G.、Scott,J.G.等人(2012年)。“全球尺度参数的半柯西先验”,贝叶斯分析,7(4):887-902·Zbl 1330.62148号 ·doi:10.1214/12-BA730
[41] Powers,S.、Qian,J.、Jung,K.、Schuler,A.、Shah,N.H.、Hastie,T.和Tibshirani,R.(2018年)。“高维异质治疗效果评估的一些方法”,《医学统计学》,37(11):1767-1787。
[42] Robins,J.M.、Mark,S.D.和Newey,W.K.(1992年)。“通过建模以混杂因素为条件的暴露预期来估计暴露效应。”生物计量学,479-495·Zbl 0768.62099号 ·doi:10.2307/2532304
[43] Robins,J.M.和Ritov,Y.(1997年)。“面向半参数模型的维数灾难(CODA)渐近理论”,《医学统计学》,16(3):285-319。
[44] Rocková,V.和Saha,E.(2019年)。《BART理论》,第22届国际人工智能与统计会议,2839-2848。
[45] Rocková,V.和van der Pas,S.(2017年)。“贝叶斯回归树和森林的后验集中”,《统计年鉴》(修订版),1-40·Zbl 1459.62057号
[46] Rosenbaum,P.R.和Rubin,D.B.(1983年)。“倾向评分在因果效应观察性研究中的中心作用”,Biometrika,41-55·Zbl 0522.62091号 ·doi:10.1093/biomet/70.1.41
[47] Roy,J.、Lum,K.J.、Zeldow,B.、Dworkin,J.D.、Re III,V.L.和Daniels,M.J.(2017)。“随机协变量缺失因果推断的贝叶斯非参数生成模型”,《生物计量学》。
[48] Shalit,U.、Johansson,F.D.和Sontag,D.(2017年)。“估计个体治疗效果:泛化界限和算法”,摘自第34届国际机器学习会议论文集——第70卷,3076-3085。JMLR.org。
[49] Sivaganesan,S.、Müller,P.和Huang,B.(2017年)。“通过贝叶斯加性回归树发现子组”,《医学统计学》。
[50] Su,X.,Kang,J.,Fan,J.、Levine,R.A.和Yan,X.(2012)。“促进大型观察研究的得分和因果推理树”,《机器学习研究杂志》,13(10月):2955-1994·Zbl 1433.68382号
[51] Taddy,M.、Gardner,M.,Chen,L.和Draper,D.(2016)。“数字实验中异质处理效应的非参数贝叶斯分析”,《商业与经济统计杂志》,34(4):661-672。
[52] van der Laan,M.J.(2010年a)。“基于目标最大似然的因果推断:第一部分”,《国际生物统计学杂志》,6(2)。
[53] van der Laan,M.J.(2010年b)。“基于目标最大似然的因果推断:第二部分”,《国际生物统计学杂志》,6(2)。
[54] Wager,S.和Athey,S.(2018年)。“使用随机森林评估和推断异质处理效果”,《美国统计协会期刊》,113(523):1228-1242·Zbl 1402.62056号 ·doi:10.1080/01621459.2017.1319839
[55] Wager,S.、Hastie,T.和Efron,B.(2014年)。“随机森林的置信区间:折刀和无穷小折刀”,《机器学习研究杂志》,15(1):1625-1651·Zbl 1319.62132号
[56] Wang,C.、Parmigiani,G.和Dominici,F.(2012)。“贝叶斯效应估计对调整不确定性的解释”,《生物计量学》,68(3):661-671·Zbl 1274.62895号 ·doi:10.1111/j.1541-0420.2011.01731.x
[57] Wendling,T.、Jung,K.、Callahan,A.、Schuler,A.、Shah,N.和Gallego,B.(2018)。“利用卫生保健数据库的观察数据比较不同治疗效果的评估方法”,《医学统计》,37(23):3309-3324。
[58] Yang,Y.、Cheng,G.和Dunson,D.B.(2015)。“半参数Bernstein-von Mises定理:二阶研究”,arXiv预印本arXiv:1503.04493。
[59] Yeager,D.S.,Hanselman,P.,Walton,G.M.,Murray,J.S.,Crosnoe,R.,Muller,C.,Tipton,E.,Schneider,B.,Hulleman,C.S.,Hinojosa,C.P.,Paunesku,D.,Romero,C.,Flint,K.,Roberts,A.,Trott,J.,Iachan。S.(2019年)。“一项全国性的实验揭示了成长心态在哪里可以提高成就。”《自然》,573(7774):364-369。统一资源定位地址https://doi.org/10.1038/s41586-019-1466-y。
[60] Zaidi,A.和Mukherjee,S.(2018年)。《用于评估非均匀处理效果的高斯过程混合物》,arXiv预印本arXiv:1812.07153。
[61] Zeger,S.L.、Wyant,T.、Miller,L.S.和Samet,J.(2000)。《明尼苏达州诉烟草工业案中关于损害赔偿的统计证词》,载于《法庭统计科学》,303-320。斯普林格。
[62] Zellner,A.(1986年)。“关于评估先验分布和使用g-先验分布的贝叶斯回归分析”,贝叶斯推理和决策技术:Bruno De Finetti荣誉论文,6:233-243·Zbl 0655.62071号
[63] 齐格勒,C。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。