×

使用超级学习者和高维倾向评分方法预测电子医疗数据库的倾向评分。 (英语) Zbl 1516.62367号

总结:预测建模的最佳学习者因基础数据生成分布而异。超级学习者(SL)是一种通用集成学习算法,它使用交叉验证从候选预测模型的“库”中进行选择。虽然SL已在许多环境中进行了广泛研究,但尚未在药物流行病学和比较有效性研究中常见的大型电子医疗数据库中进行彻底评估。在本研究中,我们使用三个电子医疗数据库应用并评估了SL预测倾向得分(PS)的能力,即给定基线协变量的治疗分配条件概率。我们考虑了由非参数模型和参数模型组成的算法库。我们还提出了一种新的预测建模策略,将SL与高维倾向评分(hdPS)变量选择算法相结合。使用三个指标评估预测性能:负对数似然、曲线下面积(AUC)和时间复杂性。结果表明,就预测性能而言,最佳的单个算法在不同的数据集中有所不同。SL能够适应给定的数据集,并相对于任何个体学习者优化预测性能。将SL与hdPS相结合是最一致的预测方法,可能有希望用于电子医疗数据库中的PS估计和预测建模。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Benkeser,D。;Ju,C。;伦德尔,S。;van der Laan,M.,《基于在线交叉验证的集成学习》,Stat.Med.,37,249-260(2018)·doi:10.1002/sim.7320
[2] 布鲁克哈特,文学硕士。;Schneeweiss,S。;Rothman,K.J。;Glynn,R.J。;Avorn,J。;Stürmer,T.,倾向评分模型的变量选择,美国流行病学杂志。,163, 1149-1156 (2006) ·doi:10.1093/aje/kwj149
[3] 布罗斯,I.D.,外来变量的虚假影响,J.慢性病。,19, 637-647 (1966) ·doi:10.1016/0021-9681(66)90062-2
[4] Caliendo,M。;Kopeinig,S.,《实施倾向得分匹配的一些实用指南》,J.Econ。调查。,22, 31-72 (2008) ·doi:10.1111/j.1467-6419.2007.00527.x
[5] d'Agostino,R.B.,《生物统计学教程:治疗与非随机对照组比较中减少偏倚的倾向评分方法》,《统计医学》,第17期,第2265-2281页(1998年)·doi:10.1002/(SICI)1097-0258(19981015)17:19<2265::AID-SIM918>3.0.CO;2-B型
[6] Dudoit,S。;van der Laan,M.J.,《估计器选择和性能评估中交叉验证风险估计的渐近性》,《统计方法》。,2, 131-154 (2005) ·Zbl 1248.62004号 ·doi:10.1016/j.stamet.2005.02.003
[7] 富兰克林,J.M。;Eddings,W。;Glynn,R.J。;Schneeweiss,S.,二级数据库分析中混杂调整的正则回归与高维倾向评分,美国流行病学杂志。,182, 651-659 (2015) ·doi:10.1093/aje/kwv108
[8] Friedman,J.、Hastie,T.和Tibshirani,R.,glmnet:拉索和弹性网正则化广义线性模型。R包版本,2009年1月
[9] 格鲁伯,S。;洛根·R·W。;贾林,I。;Monge,S。;Hernán,M.A.,《大型观测数据集中边际结构建模的逆概率权重集成学习》,《统计医学》,34,106-117(2015)·doi:10.1002/sim.6322
[10] Hanley,J.A。;McNeil,B.J.,接收器工作特性(roc)曲线下面积的含义和使用,放射学,143,29-36(1982)·doi:10.1148/放射学.143.1.7063747
[11] 哈斯蒂,T。;Tibshirani,R。;弗里德曼,J。;哈斯蒂,T。;弗里德曼,J。;Tibshirani,R.,《统计学习的要素》,第2卷(2009年),Springer:Springer,纽约·Zbl 1273.62005年
[12] 霍维茨,D.G。;汤普森,D.J.,《有限宇宙中无替换抽样的推广》,美国统计协会,47,663-685(1952)·Zbl 0047.38301号 ·网址:10.1080/01621459.1952.10483446
[13] Ju,C.、Bibaut,A.和van der Laan,M.,图像分类用深度卷积神经网络集成方法的相对性能,J.Appl。《统计》(2018),第1-19页。doi:10.1080/02664763.2018.1441383。
[14] Ju,C.,Combs,M.,Lendle,S.D.,Franklin,J.M.,Wyss,R.,Schneeweiss,S.,and van der Laan,M.J.,使用超级学习者和高维倾向评分方法预测电子医疗数据库的倾向评分。加州大学伯克利分校生物统计学工作论文系列。工作文件351,(2016)。
[15] Ju,C。;Gruber,S。;伦德尔,S.D。;A.Chambaz。;富兰克林,J.M。;Wyss,R。;Schneeweiss,S。;van der Laan,M.J.,《高维数据的可扩展协作目标学习》,《统计方法医学研究》,28,532-554(2017)·doi:10.1177/0962280217729845
[16] Kang,J.D。;Schafer,J.L.,《双重稳健性的解密:从不完整数据中估计总体平均值的替代策略的比较》,《科学统计》。,22, 523-539 (2007) ·兹比尔1246.62073 ·doi:10.1214/07-STS227
[17] 卡里姆,M.E。;彭,M。;Platt,R.W.,《我们能否训练机器学习方法以超越高维倾向评分算法?》?,流行病学,29191-198(2018)
[18] 卡里姆,M.E。;普拉特·R·W。;B.研究小组,《在边际结构cox模型背景下,当权重模型规范未知时,使用超级学习器估计逆概率权重》,Stat.Med.,36,2032-2047(2017)·doi:10.1002/sim.7266
[19] Kuhn,M.,使用插入符号包构建r中的预测模型,J.Stat.Softw。,28, 1-26 (2008) ·doi:10.18637/jss.v028.i05
[20] Kuhn,M.、Wing,J.、Weston,S.、Williams,A.、Keefer,C.、Engelhardt,A.、Cooper,T.、Mayer,Z.、Team,R.C.和Benesty,M.,Caret:分类和回归训练。R软件包版本6.0-24,(2014)。
[21] Lee,B.K。;Lessler,J。;Stuart,E.A.,《使用机器学习改进倾向得分权重》,《统计医学》,29,337-346(2010)
[22] Neugebauer,R。;Schmittdiel,J.A。;朱,Z。;Rassen,J.A。;Seeger,J.D。;Schneeweiss,S.,《时变干预的比较有效性研究中的高维倾向评分算法》,《统计医学》,34,753-781(2015)·doi:10.1002/sim.6377
[23] Polley,E.C.和van der Laan,M.J.,预测超级学习者。加州大学伯克利分校生物统计学工作论文系列。工作文件266,(2010),网址:http://biostats.bepress.com/ucbbiostat/paper266。
[24] Rose,S.,计划支付风险调整的机器学习框架,健康。服务。决议,51,2358-2374(2016)·数字对象标识代码:10.1111/1475-6773.12464
[25] 罗森鲍姆,P.R。;Rubin,D.B.,《倾向评分在因果效应观察性研究中的中心作用》,《生物统计学》,70,41-55(1983)·Zbl 0522.62091号 ·doi:10.1093/biomet/70.1.41
[26] Rubin,D.B.,《关于医学研究中倾向评分建模的原则》,药物流行病学。毒品。安全。,13, 855-857 (2004) ·doi:10.1002/pds.968
[27] Schneeweiss,S。;Eddings,W。;Glynn,R.J。;帕托尔诺,E。;Rassen,J。;Franklin,J.M.,《分析医疗数据库时高维协变量空间中混杂调整的变量选择》,流行病学,28,237-248(2017)·doi:10.1097/EDE.000000000000581
[28] Schneeweiss,S。;Rassen,J.A。;Glynn,R.J。;Avorn,J。;莫贡,H。;Brookhart,M.A.,《使用医疗索赔数据进行治疗效果研究中的高维倾向得分调整》,《流行病学》,第20期,第512-522页(2009年)·doi:10.1097/EDE.0b013e3181a663cc
[29] Schneeweiss,S。;Rassen,J.A。;Glynn,R.J。;迈尔斯,J。;Daniel,G.W。;辛格,J。;所罗门·D·H。;Kim,S。;Rothman,K.J。;刘杰。;Avorn,J.,用门诊实验室测试结果补充索赔数据,以改进降脂治疗有效性研究中的混杂调整,BMC Med.Res.Methodol。,12, 180 (2012) ·doi:10.1186/1471-2288-12-180
[30] Setoguchi,S。;Schneeweiss,S。;布鲁克哈特,文学硕士。;Glynn,R.J。;Cook,E.F.,《评估数据挖掘技术在倾向评分估计中的应用:模拟研究》,药物流行病学。毒品。安全。,17, 546-555 (2008) ·doi:10.1002/pds.1555
[31] van der Laan,M.J.和Dudoit,S.,选择估计器的统一交叉验证方法和通用交叉验证自适应ε-网估计器:有限样本预言不等式和示例。加州大学伯克利分校生物统计学工作论文系列。工作文件130,(2003年)。可在http://works.bepress.com/sandrine_dudoit/34/。
[32] 范德法特,A.W。;Dudoit,S。;van der Laan,M.J.,《Oracle多重交叉验证不等式》,Stat.Decis。,24, 351-371 (2006) ·Zbl 1117.62042号
[33] 范德拉恩,M.J。;波利,E.C。;哈伯德,A.E.,超级学习者,统计应用。遗传学。分子生物学。,6 (2007) ·Zbl 1166.62387号 ·doi:10.2202/1544-6115.1309
[34] 范德拉恩,M.J。;Rubin,D.,《目标最大似然学习》,国际生物统计杂志。,2, 1557-4679 (2006)
[35] 韦斯特里奇,D。;Lessler,J。;Funk,M.J.,《倾向性得分估计:神经网络、支持向量机、决策树(cart)和元分类器作为逻辑回归的替代品》,J.Clin。流行病。,63, 826-833 (2010) ·doi:10.1016/j.jclinepi.2009.11.020
[36] 怀斯,R。;Ellis,A.R。;布鲁克哈特,文学硕士。;Girman,C.J。;Funk,M.J。;罗卡萨利。;Stürmer,T.,《预测模型在倾向得分估计中的作用:logistic回归、bcart和协变量平衡倾向得分的评估》,美国流行病学杂志。,180, 645-655 (2014) ·doi:10.1093/aje/kwu181
[37] 怀斯,R。;Schneeweiss,S。;范德拉恩,M。;伦德尔,S.D。;Ju,C。;Franklin,J.M.,《使用超级学习者预测模型改进高维倾向得分估计》,《流行病学》,29,96-106(2018)·doi:10.1097/EDE.00000000000762
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。