×

是什么使基于森林的异质性处理效果估计器发挥作用? (英语) 兹伯利07832657

摘要:异质性治疗效果(HTE)的评估在许多学科中都至关重要,从个体化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而强大的HTE估计方法。特别是Athey、Tibshirani和Wager提出的“因果森林”(Ann.Statist.47(2019)1148-1178),以及一揽子计划中的“(mathsf{R}”实施玻璃纤维被迅速采用。Seibold、Zeileis和Hothorn(Stat.Methods Med.Res.27(2018)3104-3125)引入了一种相关的方法,称为“基于模型的森林”,该方法面向随机试验,同时捕获预测变量和预测变量的影响,以及“(mathsf{R})”包中的模块化实现4you模型.
这两种方法都不直接适用于评估与阴道分娩相比剖宫产导致的产后过量失血的个体化预测。显然,在这种情况下,随机化几乎是不可能的,因此基于模型的森林缺乏解决这个问题的临床试验数据。另一方面,倾斜的和以间隔为中心的产后失血观察结果违反了因果森林的假设。在这里,我们提出了一个定制的基于模型的森林,用于倾斜和间隔敏感数据,以推断可能的预测性产前特征及其对剖宫产术引起的过度产后失血的影响。
作为方法论基础,我们对因果森林和基于模型的森林提出了一个统一的观点,超越了理论的动机和调查计算的元素使因果森林如此成功,以及如何将其与基于模型的森林的优势相结合。为此,我们表明,对于L_2损失下的可加模型,这两种方法可以根据相同的参数和模型假设来理解。这种理论见解使我们能够实现几种类型的“基于模型的因果森林”,并剖析其不同元素生物信息学.
在一项探索随机试验和观测环境的基准研究中,将原始因果森林和基于模型的森林与新的混合森林进行了比较。在随机设置中,两种方法的表现相似。如果在数据生成过程中存在混淆,我们发现治疗指标的局部中心化和相应的倾向是良好表现的主要驱动因素。结果的局部中心化不太重要,在预后和预测效果方面,可能会被同步分割选择所取代或增强。这为将用于HTE估计的随机森林与其他类型的模型相结合的未来研究奠定了基础。

MSC公司:

62件 统计学的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AKAZAWA,M.、HASHIMOTO,K.、KATSUHIKO,N.和KANAME,Y.(2021)。预测阴道分娩产后出血的机器学习方法。科学。众议员11 22620。数字对象标识符:10.1038/s41598-021-02198-y谷歌学者:查找链接·doi:10.1038/s41598-021-02198-y
[2] ANTOINE,C.和YOUNG,B.K.(2021)。1920-2020年剖腹产一百年:好、坏、丑。J.佩里纳特。医学49 5-16。数字对象标识符:10.1515/jpm-2020-0305谷歌学者:查找链接·doi:10.1515/jpm-2020-0305
[3] ATHEY,S.和IMBENS,G.(2016)。异质因果效应的递归划分。程序。国家。阿卡德。科学。美国113 7353-7360。数字对象标识符:10.1073/pnas.1510489113谷歌学者:查找链接数学科学网:MR3531135·Zbl 1357.62190号 ·doi:10.1073/pnas.1510489113
[4] Athey,S.、Tibshirani,J.和Wager,S.(2019年)。广义随机森林。安。统计师。47 1148-1178. 数字对象标识符:10.1214/18-AOS1709谷歌学者:查找链接数学科学网:MR3909963·Zbl 1418.62102号 ·doi:10.1214/18-AOS1709
[5] ATHEY,S.和WAGER,S.(2019年)。评估因果森林的治疗效果:应用。Obs.螺柱5 37-51。数字对象标识符:10.1353/obs.2019.0001谷歌学者:查找链接·doi:10.1353/obs.2019.0001
[6] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. 数学科学网:MR3874153·兹比尔1007.68152
[7] BROOKS,M.、BOLKER,B.、KRISTENSEN,K.、MAECHLER,M.,MAGNUSSON,A.、SKAUG,H.、NIELSEN,A.、BERG,C.和VAN BENTHAM,K.(2021)。通用TMB:使用模板模型生成器的广义线性混合模型\(\mathsf{R}\)包版本1.1.2。可在https://CRAN.R-project.org/package=glmmTMB。
[8] BURI,M.和HOTHORN,T.(2020)。有序回归的基于模型的随机森林。国际生物统计杂志。16 20190063. 数字对象标识符:10.1515/ijb-2019-0063谷歌学者:查找链接·doi:10.1515/ijb-2019-0063
[9] Chernozhukov,V.、Chetverikov,D.、Demirer,M.、Duflo,E.、Hansen,C.、Newey,W.和Robins,J.(2018年)。用于治疗和结构参数的双/脱苦机器学习。经济。期刊21 C1-C68。数字对象标识符:10.1111/ectj.12097谷歌学者:查找链接数学科学网:MR3769544·Zbl 07565928号 ·doi:10.1111/ectj.12097
[10] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。统计数据4 266-298。数字对象标识符:10.1214/09-AOAS285谷歌学者:查找链接数学科学网:MR2758172·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[11] CUI,Y.、KOSOROK,M.R.、SVERDRUP,E.、WAGER,S.和ZHU,R.(2023年)。通过因果存活森林,使用以权利为中心的数据估计异质性处理效果。J.R.统计社会服务。B.统计方法。85 179-211. 数字对象标识符:10.1093/jrsssb/qkac001谷歌学者:查找链接·doi:10.1093/jrsssb/qkac001
[12] DANDL,S.、HASLINGER,C.、HOTHORN,T.、SEIBOLD,H.、SVERDRUP,E.、WAGER,S.和ZEILEIS,A.(2024a)。详细信息和其他结果。“是什么使基于森林的异质性处理效果估计器发挥作用?”https://doi.org/10.1214/23-AOAS1799SUPA网站
[13] DANDL,S.、HASLINGER,C.、HOTHORN,T.、SEIBOLD,H.、SVERDRUP,E.、WAGER,S.和ZEILEIS,A.(2024b)。代码和数据。补充B“是什么使基于森林的异质性处理效果估计器工作?”https://doi.org/10.1214/23-AOAS1799SUPPB
[14] DASGUPTA,A.、SZYMCZAK,S.、MOORE,J.H.、BAILEY-WILSON,J.E.和MALLEY,J.D.(2014)。使用概率机器进行风险估计。生物数据最小值7 2。数字对象标识符:10.1186/1756-0381-7-2谷歌学者:查找链接·doi:10.1186/1756-0381-7-2
[15] 恩德·H·B(2022)。预测产后出血的风险评估工具。贝利的最佳实践。临床研究。麻醉剂。36 341-348. 数字对象标识符:10.1016/j.bpa.2022.08.003谷歌学者:查找链接·doi:10.1016/j.bpa.2022.08.003
[16] ERICKSON,E.N.和CARLSON,N.S.(2020年)。根据分娩特点和催产素给药预测低风险阴道分娩后产后出血。J.障碍。妇科。新生儿Nurs。49 549-563. 数字对象标识符:10.1016/j.jugn.2020.08.005谷歌学者:查找链接·doi:10.1016/j.jugn.2020.08.005
[17] FAROUKI,R.T.(2012)。伯恩斯坦多项式基础:百年回顾。计算。辅助Geom。设计29 379-419。数字对象标识符:10.1016/j.cagd.2012.03.001谷歌学者:查找链接数学科学网:MR2921860·Zbl 1252.65039号 ·doi:10.1016/j.cagd.2012.03.001
[18] FENG,P.、ZHOU,X.-H.、ZOU,Q.-M.、FAN,M.-Y.和LI,X.-S.(2012)。用于估计多重治疗的平均治疗效果的广义倾向评分。统计医学31 681-697。数字对象标识符:10.1002/sim.4168谷歌学者:查找链接数学科学网:MR2900870·doi:10.1002/sim.4168
[19] FOKKEMA,M.、SMITS,N.、ZEILEIS,A.、HOTHORN,T.和KELDERMAN,H.(2018年)。使用广义线性混合效应模型树检测聚类数据中的处理子组交互。行为。研究方法50 2016-2034。数字对象标识符:10.3758/s13428-017-0971-x谷歌学者:查找链接·doi:10.3758/s13428-017-0971-x
[20] FOSTER,J.C.、TAYLOR,J.M.G.和RUBERG,S.J.(2011)。随机临床试验数据的亚组鉴定。《法律总汇》第30卷第2867-2880页。数字对象标识符:10.1002/sim.4322谷歌学者:查找链接数学科学网:MR2844689·doi:10.1002/sim.4322
[21] HASLINGER,C.、KORTE,W.、HOTHORN,T.、BRUN,R.、GREENBERG,C.和ZIMMERMANN,R.(2020年)。产前因子XIII活性对产后失血的影响。J.血栓。止血。18 1310-1319. 数字对象标识符:10.1111/jth.14795谷歌学者:查找链接·doi:10.1111/jth.14795
[22] Hill,J.L.(2011年)。因果推理的贝叶斯非参数建模。J.计算。图表。统计师。20 217-240. 数字对象标识符:10.1198/jcgs.2010.08162谷歌学者:查找链接数学科学网:MR2816546·doi:10.1198/jcgs.2010.08162
[23] HOTHORN,T.(2021)。trtf公司:改造树木和森林\(\mathsf{R}\)包版本0.3-8。可在https://CRAN.R-project.org/package=trtf。
[24] HOTHORN,T.、BRETZ,F.和WESTFALL,P.(2021)。多计算机:一般参数模型中的同时推断\(\mathsf{R}\)软件包版本1.4-17。可在https://CRAN.R-project.org/package=multcomp。
[25] HOTHORN,T.、HORNIK,K.和ZEILEIS,A.(2006)。《无偏递归分区:条件推理框架》,J.Compute。图表。统计师。15 651-674. 数字对象标识符:10.1198/106186006X133933谷歌学者:查找链接数学科学网:MR2291267·doi:10.1198/106186006X133933
[26] HOTHORN,T.、LAUSEN,B.、BENNER,A.和RADESPIEL-TRGER,M.(2004)。将幸存树木打包。统计医学23 77-91。数字对象标识符:10.1002/sim.1593谷歌学者:查找链接·数字对象标识代码:10.1002/sim.1593
[27] HOTHORN,T.、MØST,L.和BüHLMANN,P.(2018年)。最可能的转换。扫描。《美国联邦法律大全》第45卷第110-134页。数字对象标识符:10.1111/sjos.12291谷歌学者:查找链接数学科学网:MR3764288·Zbl 1421.62141号 ·doi:10.1111/jos.1291
[28] HOTHORN,T.和ZEILEIS,A.(2015)。聚会:用于在\(\mathsf{R}\)中递归部分化的模块化工具包。J.马赫。学习。第16号决议3905-3909。数学科学网:MR3450556·兹比尔1351.62005
[29] HOTHORN,T.和ZEILEIS,A.(2021a)。使用转换森林的预测分布建模。J.计算。图表。统计师。30 1181-1196. 数字对象标识符:10.1080/10618600.2021.1872581谷歌学者:查找链接数学科学网:MR4356613·Zbl 07499945号 ·doi:10.1080/10618600.2021.1872581
[30] HOTHORN,T.和ZEILEIS,A.(2021b)。聚会:递归参与的工具包\(\mathsf{R}\)软件包版本1.2-15。可在https://CRAN.R-project.org/package=partykit。
[31] Imbens,G.W.和Rubin,D.B.(2015)。统计、社会和生物医学科学因果推断:导论。纽约剑桥大学出版社。数字对象标识符:10.1017/CBO9781139025751谷歌学者:查找链接数学科学网:MR3309951·Zbl 1355.6202号 ·doi:10.1017/CBO9781139025751
[32] ISHWARAN,H.、KOGALUR,U.B.、BLACKSTONE,E.H.和LAUER,M.S.(2008年)。随机生存森林。附录申请。统计数字2 841-860。数字对象标识符:10.1214/08-AOAS169谷歌学者:查找链接数学科学网:MR2516796·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[33] ISHWARAN,H.和MALLEY,J.D.(2014)。合成学习机器。生物数据最小值7 28。数字对象标识符:10.1186/s13040-014-0028-y谷歌学者:查找链接·doi:10.1186/s13040-014-0028-y
[34] KAHR,M.K.,BRUN,R.,ZIMMERMANN,R.、FRANKE,D.和HASLINGER,C.(2018)。产后失血量实时测量定量系统的验证。架构(architecture)。妇科。障碍物。298 1071-1077. 数字对象标识符:10.1007/s00404-018-4896-0谷歌学者:查找链接·doi:10.1007/s00404-018-4896-0
[35] KAWAKITA,T.、MOKHTARI,N.、HUANG,J.C.和LANDY,H.J.(2019年)。剖宫产术后严重产后出血风险评估工具的评估。障碍物。妇科。134 1308-1316. 数字对象标识符:10.1097/AOG.000000000003574谷歌学者:查找链接·doi:10.1097/AOG.000000000003574
[36] KOREPANOVA,N.、SEIBOLD,H.、STEFFEN,V.和HOTHORN,T.(2020年)。受试生存林:比例风险假设对肌萎缩侧索硬化症生存预测林的影响。统计方法医学研究29 1403-1419。数字对象标识符:10.1177/0962280219862586谷歌学者:查找链接MathSciNet:MR4097153·doi:10.1177/0962280219862586
[37] KüNZEL,S.R.、SEKHON,J.S.、BICKEL,P.J.和YU,B.(2019年)。使用机器学习估计异质治疗效果的元学习器。程序。国家。阿卡德。科学。美国116 4156-4165。
[38] LIN,Y.和JEON,Y.(2006)。随机森林和自适应最近邻。J.Amer。统计师。协会101 578-590。数字对象标识符:10.1198/016214505000001230谷歌学者:查找链接数学科学网:MR2256176·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[39] LU,M.、SADIQ,S.、FEASTER,D.J.和ISHWARAN,H.(2018)。使用随机森林方法估计观测数据中的个体治疗效果。J.计算。图表。统计师。27 209-219. 数字对象标识符:10.1080/10618600.2017.1356325谷歌学者:查找链接数学科学网:MR3788313·Zbl 07498979号 ·doi:10.1080/10618600.2017.1356325
[40] MACDORMAN,M.F.、DECLERCQ,E.、CABRAL,H.和MORTON,C.(2016)。美国孕产妇死亡率最近的增长:计量问题带来的混乱趋势。障碍物。妇科。128 447-455. 数字对象标识符:10.1097/AOG.000000000001556谷歌学者:查找链接·doi:10.1097/AOG.000000000001556
[41] MAYER,I.、SVERDRUP,E.、GAUSS,T.、MOYER,J.-D.、WAGER,S.和JOSSE,J.(2020年)。缺失属性的双重稳健治疗效果估计。附录申请。《美国联邦法律大全》第14卷第1409-1431页。数字对象标识符:10.1214/20-AOAS1356谷歌学者:查找链接数学科学网:MR4152139·Zbl 1470.62160号 ·doi:10.1214/20-AOAS1356
[42] Meinshausen,N.(2006年)。分位数回归森林。J.马赫。学习。第7 983-999号决议。数学科学网:MR2274394·Zbl 1222.68262号
[43] NIE,X.和WAGER,S.(2021)。非均匀处理效应的准有序估计。生物特征108 299-319. 数字对象标识符:10.1093/biomet/asaa076谷歌学者:查找链接数学科学网:MR4259133·兹比尔07458256 ·doi:10.1093/biomet/asaa076
[44] POWERS,S.、QIAN,J.、JUNG,K.、SCHULER,A.、SHAH,N.H.、HASTIE,T.和TIBSHIRANI,R.(2018)。高维异质治疗效果估计的一些方法。Stat.Med.37 1767-1787。数字对象标识符:10.1002/sim.7623谷歌学者:查找链接数学科学网:MR3799840·数字对象标识代码:10.1002/sim.7623
[45] PROBST,P.、BOULESTEIX,A.-L.和BISCHL,B.(2019年)。可调性:机器学习算法超参数的重要性。J.马赫。学习。决议20第53号论文,32页MathSciNet:MR3948093·Zbl 1485.68226号
[46] PROBST,P.、WRIGHT,M.N.和BOULESTEIX,A.-L.(2019年)。随机森林的超参数和调整策略。电线数据最小知识。发现。9 e1301。数字对象标识符:10.1002/widm.1301谷歌学者:查找链接·doi:10.1002/widm.1301
[47] \核心团队(2021年)\(mathsf{R}):一种用于统计计算的语言和环境\(mathsf{R})奥地利维也纳统计计算基金会。网址:https://www.R-project.org。
[48] Robinson,P.M.(1988)。根一致的半参数回归。计量经济学56 931-954. 数字对象标识符:10.2307/1912705谷歌学者:查找链接数学科学网:MR0951762·Zbl 0647.62100号 ·doi:10.2307/1912705
[49] Rosenbaum,P.R.和Rubin,D.B.(1983年)。倾向评分在因果效应观察性研究中的中心作用。生物特征70 41-55. 数字对象标识符:10.1093/biomet/70.1.41谷歌学者:查找链接MathSciNet:MR0742974 MathSclNet:MR742974·Zbl 0522.62091号 ·doi:10.1093/biomet/70.1.41
[50] SAY,L.、CHOU,D.、GEMMILL,A.、TUNÇALP,O.、MOLLER,A.-B.、DANIELS,J.、GÜLMEZOGLU,A.M.、TEMMERMAN,M.和ALKEMA,L.(2014)。全球孕产妇死亡原因:世卫组织系统分析。柳叶刀球。健康2 e323-e333。数字对象标识符:10.1016/S2214-109X(14)70227-X谷歌学者:查找链接·doi:10.1016/S2214-109X(14)70227-X
[51] SCHLOSER,L.、HOTHORN,T.、STAUFFER,R.和ZEILEIS,A.(2019)。复杂地形中概率降水预报的分布回归森林。附录申请。《美国联邦法律大全》第13卷第1564-1589页。数字对象标识符:10.1214/19-AOAS1247谷歌学者:查找链接MathSciNet:MR4019150·Zbl 1433.62325号 ·doi:10.1214/19-AOAS1247
[52] SCHNELL,P.、TANG,Q.、MüLLER,P.和CARLIN,B.P.(2017)。阿尔茨海默病治疗试验中多治疗和多终点的亚组推断。附录申请。法令11 949-966。数字对象标识符:10.1214/17-AOAS1024谷歌学者:查找链接数学科学网:MR3693553·Zbl 1391.62246号 ·doi:10.1214/17-AOAS1024
[53] SEIBOLD,H.、ZEILEIS,A.和HOTHORN,T.(2016)。用于子组分析的基于模型的递归分区。国际生物统计杂志。12 45-63. 数字对象标识符:10.1515/ijb-2015-0032谷歌学者:查找链接数学科学网:MR3505686·doi:10.1515/ijb-2015-0032
[54] SEIBOLD,H.、ZEILEIS,A.和HOTHORN,T.(2018)。肌萎缩侧索硬化患者个体化治疗效果预测。统计方法医学研究27 3104-3125。数字对象标识符:10.1177/0962280217693034谷歌学者:查找链接数学科学网:MR3855657·数字对象标识代码:10.1177/0962280217693034
[55] SEIBOLD,H.、ZEILEIS,A.和HOTHORN,T.(2019年)。4you模型:用于个性化治疗效果评估的包。J.开放资源软件。7 1-6. 数字对象标识符:10.5334/jors.219谷歌学者:查找链接·doi:10.5334/jors.219
[56] SEIBOLD,H.、ZEILEIS,A.和HOTHORN,T.(2021)。4you模型:基于基于模型的树木和森林的分层和个性化模型\(\mathsf{R}\)软件包版本0.9-7。可在https://CRAN.R-project.org/package=model4you。
[57] STARLING,J.E.、MURRAY,J.S.、LOHR,P.A.、AIKEN,A.R.A.、CARVALHO,C.M.和SCOTT,J.G.(2021)。目标平滑贝叶斯因果森林:妊娠期同时与间隔药物流产方案的异质治疗效果分析。附录申请。统计15 1194-1219。数字对象标识符:10.1214/20-aoas1438谷歌学者:查找链接数学科学网:MR4316646·Zbl 1478.62344号 ·doi:10.1214/20-aoas1438
[58] TANG,F.和ISHWARAN,H.(2017)。随机森林缺失数据算法。统计分析。数据最小值10 363-377。数字对象标识符:10.1002/sam.11348谷歌学者:查找链接数学科学网:MR3733611·Zbl 07260721号 ·doi:10.1002/sam.11348
[59] TIBSHIRANI,J.、ATHEY,S.、SVERDRUP,E.和WAGER,S.(2021)。玻璃纤维:广义随机森林\(\mathsf{R}\)包版本2.0.2。可在https://CRAN.R-project.org/package=grf。
[60] VENKATESH,K.K.,STRAUSS,R.A.,GROTEGUT,C.A.,HEINE,R.P.,CHESCHEIR,N.C.,STRINGER,J.S.A.,STAMILIO,D.M.,MENARD,K.M.和JELOVSEK,J.E.(2020年)。机器学习和统计模型预测产后出血。障碍物。妇科。135 935-944. 数字对象标识符:10.1097/AOG.000000000003759谷歌学者:查找链接·doi:10.1097/AOG.000000000003759
[61] Wager,S.和Athey,S.(2018年)。使用随机森林评估和推断异质处理效果。J.Amer。统计师。协会113 1228-1242。数字对象标识符:10.1080/01621459.2017.1319839谷歌学者:查找链接数学科学网:MR3862353·Zbl 1402.62056号 ·doi:10.1080/01621459.2017.1319839
[62] 世界卫生组织(2012)。世卫组织关于预防和治疗产后出血的建议。世界卫生组织,瑞士日内瓦。
[63] ZANUTTO,E.、LU,B.和HORNIK,R.(2005)。使用多个治疗剂量的倾向评分分类来评估国家反药物媒体活动。J.教育。行为。统计数字30 59-73。数字对象标识符:10.3102/10769986030001059谷歌学者:查找链接·doi:10.3102/10769986030001059
[64] ZEILEIS,A.、HOTHORN,T.和HORNIK,K.(2008)。基于模型的递归分区。J.计算。图表。统计师。17 492-514. 数字对象标识符:10.1198/106186008X319331谷歌学者:查找链接数学科学网:MR2439970·doi:10.1198/106186008X319331
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。