×

在不重叠的情况下估计人群平均因果效应:天然气压缩机站暴露对癌症死亡率的影响。 (英语) 兹比尔1423.62149

摘要:大多数因果推断研究都依赖重叠假设来估计总体或样本的平均因果效应。当数据不重叠时,由于数据支持不足,估计这些估计值需要依赖模型规范。所有现有的解决非重叠问题的方法,如在数据支持较差的地区对数据进行裁剪或向下加权,都会改变估计值,从而无法对样本或潜在人群进行推断。在研究结果通常旨在影响政策的环境卫生研究环境中,人口层面的推断可能至关重要,而评估的变化可能会减少研究结果的影响,因为评估可能无法代表决策者感兴趣的人群的影响。研究人员可能愿意做出额外的、最小的建模假设,以保持估计总体平均因果效应的能力。我们力求就这一主题作出两项贡献。首先,我们提出了一个灵活的、数据驱动的倾向得分重叠和非重叠区域的定义。其次,我们开发了一个新的贝叶斯框架来估计存在非重叠和因果效应异质性时,具有较小模型依赖性和适当较大不确定性的总体平均因果效应。在这种方法中,估计重叠和非重叠区域的因果影响的任务被委托给两个不同的模型,这两个模型适合于每个区域的数据支持程度。树系综用于非参数估计重叠区域中的个别因果效应,在重叠区域中,数据可以自言自语。在数据支持不足意味着需要依赖模型规范的非重叠区域,通过样条模型从重叠区域外推趋势来估计个别因果影响。我们的方法的良好性能在仿真中得到了验证。最后,我们利用我们的方法对天然气压缩机站暴露对癌症结局的因果影响进行了新的调查。Github上提供了实现该方法并再现所有仿真和分析的代码和数据(https://github.com/rachelnethery/overlap)。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
第60页 统计学在工程和工业中的应用;控制图
62J12型 广义线性模型(逻辑模型)
65D07年 使用样条曲线进行数值计算
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 奥斯汀,P.C.(2011)。介绍在观察性研究中减少混淆影响的倾向评分方法。多变量。行为。第46号决议399-424。
[2] Bonato,V.、Baladadayuthapani,V.,Broom,B.M.、Sulman,E.P.、Aldape,K.D.和Do,K.-A.(2011年)。基因表达数据中生存预测的贝叶斯集成方法。生物信息学27 359-367。
[3] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。统计数据4 266-298·Zbl 1189.62066号
[4] Cole,S.R.和Hernán,M.A.(2008年)。构造边际结构模型的逆概率权重。美国流行病学杂志168 656-664。
[5] Cristianini,N.和Shawe-Taylor,J.(2000)。支持向量机和其他基于内核的学习方法简介。剑桥大学出版社,剑桥·Zbl 0994.68074号
[6] Crump,R.K.、Hotz,V.J.、Imbens,G.W.和Mitnik,O.A.(2009年)。处理平均治疗效果评估中的有限重叠。生物鉴定96 187-199·Zbl 1163.62083号
[7] D'Amour,A.、Deng,P.、Feller,A.、Lei,L.和Sekhon,J.(2017)。高维协变量观察性研究中的重叠。可从arXiv:1711.02582获取·Zbl 1471.62501号
[8] Di,Q.,Dai,L.,Wang,Y.,Zanobetti,A.,Choirat,C.,Schwartz,J.D.和Dominici,F.(2017a)。短期接触空气污染与老年人死亡率的关系。JAMA318 2446-2456。
[9] Di,Q.、Wang,Y.、Zanobetti,A.、Wang,Y.、Koutrakis,P.、Choirat,C.、Dominici,F.和Schwartz,J.D.(2017b)。医疗保险人群中的空气污染和死亡率。北英格兰。《医学杂志》376 2513-2522。
[10] Finkel,M.L.(2016)。宾夕法尼亚州西南部页岩气开发与癌症发病率。公共卫生141 198-206。
[11] Golding,B.和Watson,W.(1999年)。苯暴露后致癌的可能机制。IARC科学。出版物150 75-88。
[12] Gutman,R.和Rubin,D.B.(2015)。未经证实的研究中二元处理因果效应的估计。统计医学34 3381-3398。
[13] Hahn,P.R.、Murray,J.和Carvalho,C.M.(2018年)。因果推理的贝叶斯回归树模型:正则化、混淆和异质效应。预打印。可从arXiv:1706.09523v2获得·Zbl 1475.62102号
[14] Hill,J.L.(2011)。因果推理的贝叶斯非参数建模。J.计算。图表。统计20 217-240。
[15] Hill,J.和Su,Y.-S.(2013年)。使用贝叶斯非参数评估因果推断缺乏共同支持:评估母乳喂养对儿童认知结果影响的意义。附录申请。统计数据7 1386-1420·兹比尔1283.62220
[16] Ho,D.E.、Imai,K.、King,G.和Stuart,E.A.(2007年)。匹配作为非参数预处理,用于减少参数因果推理中的模型依赖性。政治分析.15 199-236。
[17] Kassotis,C.D.、Tillitt,D.E.、Lin,C.-H.、McElroy,J.A.和Nagel,S.C.(2016)。内分泌干扰物化学品和石油天然气作业:潜在环境污染和评估复杂环境混合物的建议。环境。健康展望124 256。
[18] Kindo,B.P.、Wang,H.和Peña,E.a.(2016)。多项式概率贝叶斯加性回归树。统计5 119-131。
[19] King,G.和Zeng,L.(2005)。极端反事实的危险。政治分析.14 131-159。
[20] Kloczko,N.(2015)。压缩机站和健康影响概述。https://www.environmentalhealthproject.org/sites/default/files/assets/downloads/a-brief-review-of-compressor-stations-11.2015.pdf。
[21] Li,F.、Morgan,K.L.和Zaslavsky,A.M.(2018年)。通过倾向得分加权平衡协变量。J.Amer。统计师。协会113 390-400·Zbl 1398.62075号
[22] Li,F.和Thomas,L.E.(2018)。通过重叠权重解决极端倾向得分。美国流行病学杂志kwy201。
[23] Linero,A.R.(2018)。用于高维预测和变量选择的贝叶斯回归树。J.Amer。统计师。协会113 626-636·Zbl 1398.62065号
[24] Liu,Y.、Traskin,M.、Lorch,S.A.、George,E.I.和Small,D.(2015)。评估医院绩效的风险调整方法。医疗保健管理。科学.18 58-66。
[25] Maltoni,C.、Ciliberti,A.、Cotti,G.、Conti,B.和Belpoggi,F.(1989)。苯,一种实验性多潜能致癌物:博洛尼亚肿瘤研究所进行的长期生物检测结果。环境。健康展望82 109。
[26] McKenzie,L.M.、Allshouse,W.B.、Byers,T.E.、Bedrick,E.J.、Serdar,B.和Adgate,J.L.(2017)。儿童血液癌和住宅区靠近石油和天然气开发。公共科学图书馆ONE12 e0170423。
[27] Messersmith,D.、Brockett,D.和Loveland,C.(2015)。了解天然气压缩机站。宾夕法尼亚州立大学扩建。
[28] Mokdad,A.H.、Dwyer Lindgren,L.、Fitzmaurice,C.、Stubbs,R.W.、Bertozzi Villa,A.、Morozoff,C.、Charara,R.、Allen,C.、Naghavi,M.等人(2017)。1980-2014年美国各州癌症死亡率差异的趋势和模式。JAMA317 388-406。
[29] Nethery,R.C,Mealli,F.和Dominici,F.(2019年)。补充“在非重叠情况下估计人口平均因果影响:天然气压缩机站暴露对癌症死亡率的影响”DOI:10.1214/18-AOAS1231SUPP·Zbl 1423.62149号
[30] 橡树岭国家实验室(2017年)。天然气压缩机站。https://hifld-dhs-gii.opendata.arcgis.com/datasets/fd7d62905d194eba87d2ee18d1a244b3_0。访问时间:2018-03-29。
[31] Pellegriti,G.、Frasca,F.、Regalbuto,C.、Squatrito,S.和Vigneri,R.(2013)。全球甲状腺癌发病率增加:流行病学和危险因素更新。《癌症流行病学杂志》,2013年。
[32] 宾夕法尼亚州环境保护部(2010年)。宾夕法尼亚州西南部马塞卢斯页岩短期环境空气采样报告。http://www.dep.state.pa.us/dep/deputate/airaste/aq/aqm/docs/Marcellus_SW_11-01-10.pdf。访问时间:2018-03-29。
[33] Petersen,M.L.、Porter,K.E.、Gruber,S.、Wang,Y.和van der Laan,M.J.(2012)。在积极假设中诊断和应对违规行为。统计方法医学研究21 31-54。
[34] R核心团队(2016)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。
[35] Rosenbaum,P.R.和Rubin,D.B.(1983年)。倾向评分在因果效应观察性研究中的中心作用。生物特征70 41-55·Zbl 0522.62091号
[36] 鲁宾,D.B.(1974)。在随机和非随机研究中估计治疗的因果效应。J.教育。心理学。66 688-701。
[37] 鲁宾,D.B.(1980)。实验数据的随机化分析:Fisher随机化测试评论。J.Amer。统计师。协会75 591-593。
[38] Schmidhuber,J.(2015)。神经网络中的深度学习:概述。神经网络61 85-117。
[39] 西南宾夕法尼亚州环境健康项目(2015)。压缩机站和健康影响概述。http://www.environmentalhealthproject.org/files/Summary环境健康项目.org/files/Summary
[40] Sparapani,R.A.、Logan,B.R.、McCulloch,R.E.和Laud,P.W.(2016)。使用贝叶斯加性回归树(BART)进行非参数生存分析。Stat.Med.35 2741-2753。
[41] 美国环保局(2018)。内分泌干扰物筛选程序(EDSP)雌激素受体生物活性。https://www.epa.gov/endocrine-distribution/endochine-disruptor-screening-program-edsp-estrogen-receptor-bioactivity#main-内容。访问时间:2018-03-27。
[42] Wang,C.、Parmigiani,G.和Dominici,F.(2012)。考虑调整不确定性的贝叶斯效应估计。生物统计学68 661-686·Zbl 1274.62895号
[43] Wang,C.、Dominici,F.、Parmigiani,G.和Zigler,C.M.(2015)。在估计广义线性模型中的平均因果效应时,考虑混淆和效应修正选择的不确定性。生物统计学71 654-665·Zbl 1419.62468号
[44] Westreich,D.和Cole,S.R.(2010年)。受邀评论:实践中的积极性。美国流行病学杂志171 674-677。
[45] Westreich,D.、Lessler,J.和Funk,M.J.(2010年)。倾向得分估计:神经网络、支持向量机、决策树(CART)和元分类器作为逻辑回归的替代方法。临床杂志。流行病学63 826-833。
[46] 狼鹰环境(2009)。德克萨斯州迪斯镇环境空气监测分析最终报告。https://townofdish.com/objects/DISH__final_report_revised.pdf。访问时间:2018-05-08。
[47] 世界贸易中心卫生计划(2015)。最小潜伏期和癌症类型或类别。https://www.cdc.gov/wtc/pdfs/WTCHP-Minimum-Cancer-Latency-PP-01062015.pdf。访问时间:2018-03-29。
[48] Yang,S.和Ding,P.(2018)。根据估计的倾向得分进行的观察性研究对因果效应的渐近推断。生物特征105 487-493·Zbl 07072428号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。