文件Zbl 1427.62055-zbMATH打开

彭宁·德·弗里斯（Bas B.L.Penning de Vries）。；马滕·范·斯梅登；罗尔夫·H·H·格伦沃尔德。

在缺少协变量数据的情况下，使用分类树和回归树进行倾向得分估计。（英语） Zbl 1427.62055号

流行病。方法 7，第1号，文章ID 20170020，18 p.（2018）.

摘要：数据挖掘和机器学习技术，如分类和回归树（CART），是传统逻辑回归用于倾向得分估计的一种有希望的替代方法。虽然不完整的数据排除了对所有受试者进行逻辑回归拟合的可能性，但CART之所以具有吸引力，部分是因为一些实现允许在树拟合中包含不完整的记录，并为所有受试对象提供倾向得分估计值。基于理论考虑，我们认为CART自动处理缺失数据可能并不合适。通过一系列模拟实验，我们检验了处理缺失协变量数据的不同方法的性能；（i）将CART算法直接应用于（部分）不完整数据，（ii）完整案例分析，以及（iii）多重插补。根据暴露、标准误差、均方误差和覆盖率之间的暴露-输出效应估计偏差来评估绩效。直接对不完整数据应用CART算法会导致偏差，即使在数据完全随机丢失的情况下也是如此。总的来说，多重插补加上CART的效果最好。我们的研究表明，自动处理CART中的缺失数据会导致严重的偏差，并且作为解释缺失数据的一种方法，其效果并不优于多重插补。

引用于1文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62J12型	广义线性模型（逻辑模型）

关键词：

因果推断；倾向得分；缺少数据；运货马车；多重插补；分类和回归树；逻辑回归

软件：

鼻音；R（右）；调查；知识产权保护；小鼠；ElemStatLearn（电子状态学习）；CALIBER输入；起重机

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Albert，A.和Anderson J.（1984年）。关于logistic回归模型中极大似然估计的存在性。生物特征，71:1-10。；阿尔伯特。；Anderson，J.，关于logistic回归模型中最大似然估计的存在性，Biometrika，71，1-10（1984）·Zbl 0543.62020号
[2]	Ali，M.、Groenwold，R.、Belitser，S.、Pestman，W.、Hoes，A.、Roes，K.、de Boer，A.和Klungel，O.（2015）。倾向得分分析中协变量选择和平衡评估的报告不太理想：一项系统综述。临床流行病学杂志，68:122-131。；阿里，M。；Groenwold，R。；Belitser，S。；佩斯曼，W。；Hoes，A.公司。；罗伊斯，K。；de Boer，A。；Klungel，O.，《倾向得分分析中协变量选择和平衡评估的报告不太理想：系统综述》，《临床流行病学杂志》，68，122-131（2015）
[3]	Austin，P.（2011年a）。介绍在观察性研究中减少混淆影响的倾向评分方法。多元行为研究，46:399-424。；Austin，P.，《减少观察研究中混杂影响的倾向评分方法介绍》，《多元行为研究》，46，399-424（2011）
[4]	Austin，P.（2011年b）。在观测研究中估计平均值差异和比例差异时，倾向-核心匹配的最佳井径宽度。药物统计，10:150-161。；Austin，P.，《在观察性研究中估计平均值差异和比例差异时，倾向-核心匹配的最佳卡尺宽度》，《药物统计》，第10期，第150-161页（2011年）
[5]	Austin，P.和Stuart，E.（2015）。在观察性研究中，当使用治疗权重的逆概率（IPTW），使用倾向得分来估计因果治疗效应时，应转向最佳实践。医学统计学，34:3661-3679。；奥斯汀，P。；Stuart，E.，《在观察性研究中使用反向治疗加权概率（IPTW）评估因果治疗效应时走向最佳实践》，《医学统计学》，34，3661-3679（2015）
[6]	Belitser，S.、Martens，E.、Pestman，W.、Groenwold，R.、Boer，A.和Klungel，O.（2011年）。倾向评分法中的衡量平衡和模型选择。药物流行病学与药物安全，20:1115-1129。；Belitser，S。；Martens，E。；佩斯曼，W。；Groenwold，R。；布尔，A。；Klungel，O.，倾向评分法中的测量平衡和模型选择，药物流行病学和药物安全，2011115-1129（2011）
[7]	Breiman，L.（1996）。装袋预测器。机器学习，24:123-140。；Breiman，L.，打包预测，机器学习，24123-140（1996）·Zbl 0858.68080号
[8]	Breiman，L.（2001）。随机森林。机器学习，45:5-32。；Breiman，L.，《随机森林》，机器学习，45，5-32（2001）·Zbl 1007.68152号
[9]	Burgette，L.和Reiter，J.（2010年）。通过序列回归树对缺失数据进行多重插补。美国流行病学杂志，172:1070-1076。；汉堡，L。；Reiter，J.，通过序列回归树对缺失数据进行多重插补，美国流行病学杂志，1721070-1076（2010）·Zbl 1328.62021号
[10]	Cham，H.和West，S.（2016年）。缺失数据的倾向性得分分析。心理学方法，21:427-445。；查姆·H。；West，S.，缺失数据的倾向性得分分析，心理学方法，21427-445（2016）
[11]	Cole，S.和Frangakis，C.（2009年）。因果推理中的一致性陈述：定义还是假设？流行病学，20:3-5。；科尔，S。；Frangakis，C.，因果推理中的一致性陈述，定义还是假设？流行病学，20，3-5（2009）
[12]	D'Agostino Jr.，R.和Rubin，D.（2000）。估计并使用部分缺失数据的倾向得分。美国统计协会杂志，95:749-759。；小达戈斯蒂诺（D'Agostino，Jr.，R.）。；Rubin，D.，《估计和使用部分缺失数据的倾向得分》，《美国统计协会杂志》，95，749-759（2000）
[13]	Doove，L.、van Buuren，S.和Dusseldorp，E.（2014）。存在交互效应时缺失数据插补的递归分区。计算统计与数据分析，72:92-104。；杜夫，L。；van Buuren，S。；杜塞尔多普，E.，《存在交互效应时缺失数据插补的递归分区》，计算统计与数据分析，72，92-104（2014）·Zbl 1506.62056号
[14]	Drake，C.（1993）。倾向得分的指定错误对治疗效果估计数的影响。生物统计学，49:1231-1236。；Drake，C.，倾向评分的错误指定对治疗效果评估的影响，生物统计学，491231-1236（1993）
[15]	Elith，J.、Leathwick，J.和Hastie，T.（2008）。增强回归树的工作指南。动物生态学杂志，77:802-813。；Elith，J。；Leathwick，J。；Hastie，T.，《增强回归树的工作指南》，《动物生态学杂志》，77，802-813（2008）
[16]	Franklin，J.、Rassen，J.，Ackermann，D.、Bartels，D.和Schneeweiss，S.（2014）。因果效应队列研究中协变量平衡的指标。医学统计学，33:1685-1699。；富兰克林，J。；Rassen，J。；Ackermann，D。；巴特尔斯，D。；Schneeweiss，S.，因果效应队列研究中协变量平衡的度量，医学统计学，331685-1699（2014）
[17]	Groenwold，R.、Nelson，D.、Nichol，K.、Hoes，A.和Hak，E.（2009年）。敏感性分析，以评估因果研究中未测量混杂的潜在影响。国际流行病学杂志，39:107-117。；格罗恩沃尔德，R。；Nelson博士。；尼科尔，K。；Hoes，A。；Hak，E.，估计因果研究中未测量混杂因素潜在影响的敏感性分析，国际流行病学杂志，39，107-117（2009）
[18]	Groenwold，R.H.、White，I.R、Donders，A.R.T.、Carpenter，J.R、Altman，D.G和Moons K.G.（2012）。临床研究中缺失协变量数据：何时以及何时不使用缺失诱导法进行分析。加拿大医学会杂志，184:1265-1269。；Groenwold，R.H。；怀特，I.R。；Donders，A.R.T。；Carpenter，J.R。；奥特曼·D·G。；Moons，K.G.，《临床研究中缺失协变量数据：何时以及何时不使用缺失诱导法进行分析》，加拿大医学协会期刊，1841265-1269（2012）
[19]	Hastie，T.、Tibshirani，R.和Friedman，J.（2009）。统计学习的要素：数据挖掘、推理和预测。第2版。纽约：施普林格。；哈斯蒂，T。；Tibshirani，R。；Friedman，J.，《统计学习的要素：数据挖掘、推断和预测》（2009）·Zbl 1273.62005年
[20]	Hernán，M.和Robins，J.（2017年）。精细点4.3：比值比的崩溃性。在：因果推理，M.Hernán和J.Robins（编辑）。博卡拉顿：查普曼和霍尔/CRC，即将推出。；埃尔南，M。；Robins，J.，Fine point 4.3：优势比的崩溃性（2017）
[21]	Holland，P.（1986）。因果推理中的统计学。美国统计协会杂志，81:945-960。；Holland，P.，《因果推断中的统计学》，《美国统计协会杂志》，81945-960（1986）·Zbl 0607.62001
[22]	Holland，P.（1988）。因果推理、路径分析和递归结构方程模型。社会学方法论，18:449-484。；Holland，P.，因果推理、路径分析和递归结构方程模型，社会学方法论，18449-484（1988）
[23]	Lee，B.、Lessler，J.和Stuart，E.（2010年）。使用机器学习改进倾向得分权重。医学统计学，29:337-346。；Lee，B。；Lessler，J。；Stuart，E.，《使用机器学习改进倾向得分权重》，《医学统计学》，29，337-346（2010）
[24]	Lesko，C.、Buchanan，A.、Westreich，D.、Edwards，J.、Hudgens，M.和Cole，S.（2017）。概括研究结果：潜在结果视角。流行病学，28:553-561。；莱斯科，C。；布坎南，A。；Westreich博士。；J.爱德华兹。；哈金斯，M。；Cole，S.，《概括研究结果：潜在结果视角》，流行病学，28553-561（2017）
[25]	Leyrat，C.、Seaman，S.R、White，I.R、Douglas，I.、Smeeth，L.、Kim，J.、Resche-Rigon，M.、Carpenter，J.R和Williamson，E.J.（2017）。使用部分观察到的协变量进行倾向得分分析：应如何使用多重插补？医学研究中的统计方法，0962280217713032。；Leyrat，C。；希曼，S.R。；怀特，I.R。；道格拉斯，I。；Smeeth，L。；Kim，J。；Resche-Rigon，M。；Carpenter，J.R。；Williamson，E.J.，使用部分观察到的协变量进行倾向得分分析：应如何使用多重插补？医学研究中的统计方法（2017）
[26]	Lumley，T.（2014）。调查：复杂调查样本分析（R包，3.31版）。奥地利维也纳综合R档案网。；Lumley，T.，《调查：复杂调查样本分析》（R包，3.31版）。奥地利维也纳综合R档案网络（2014年）
[27]	McCaffrey，D.、Ridgeway，G.和Morral，A.（2004）。使用增强回归评估青少年药物滥用治疗的倾向性得分。心理学方法，9:403-425。；McCaffrey，D。；里奇韦，G。；Morral，A.，评估青少年药物滥用治疗的倾向性得分估计和增强回归，《心理学方法》，第9期，第403-425页（2004年）
[28]	孟晓乐（1994）。输入来源不一致的多重插补推断。统计科学，538-558。；孟晓乐，统计科学，538-558（1994）
[29]	Moisen，G.（2008）。分类和回归树。收录：《生态学百科全书》第1卷，S.Jorgensen和B.Fath（编辑）。牛津：爱思唯尔。；莫森，G。；Jorgensen，S。；Fath，B.，分类和回归树（2008）
[30]	Moons，K.G.、Donders，R.A、Stijnen，T.和Harrell Jr F.E.（2006年）。首选使用结果插补缺失的预测值。《临床流行病学杂志》，59:1092-1011。；月亮，K.G。；唐德斯，R.A。；Stijnen，T。；Harrell，Jr F.E.，《使用结果插补缺失预测值》，《临床流行病学杂志》，59，1092-1101（2006）
[31]	Neyman，J.、Iwaszkiewicz，K.和St.Kolodziejczyk（1935年）。农业试验中的统计问题。《皇家统计学会杂志补编》，2:107-180。；内曼，J。；Iwaszkiewicz，K。；Kolodziejczyk，St.，农业试验中的统计问题，2107-180（1935）·JFM 63.1103.02标准
[32]	Pearl，J.（2009），《因果关系：模型、推理和推断》。纽约：剑桥大学出版社。；Pearl，J.，《因果关系：模型、推理和推断》（2009）·Zbl 1188.68291号
[33]	Penning de Vries，B.和Groenwold，R.（2016）。关于多重插补后倾向得分匹配的评论。医学研究中的统计方法，25:3066-3068。；Penning de Vries，B。；Groenwold，R.，《关于多重插补后倾向得分匹配的评论》，25，3066-3068（2016）
[34]	Peters，A.和Hothorn，T.（2017年）。ipred：改进的预测器（R包，版本0.9-6），综合R档案网，奥地利维也纳。；彼得斯，A。；Hothorn，T.，ipred:Improved Predictors（R包，版本0.9-6）（2017年）
[35]	R核心团队。(2016). R：用于统计计算的语言和环境。奥地利维也纳R统计计算基金会。；R：统计计算语言和环境（2016）
[36]	Rai，D.、Lee，B.、Dalman，C.、Newschaffer，C.、Lewis，G.和Magnusson，C.（2017）。妊娠期抗抑郁药与后代孤独症：基于人群的队列研究。英国医学杂志，385:j2811。；Rai，D。；Lee，B。；达尔曼，C。；Newschaffer，C。；Lewis，G。；Magnusson，C.，《妊娠期抗抑郁药与后代孤独症：基于人群的队列研究》，BMJ，385，j2811（2017）
[37]	Ridgeway，G.（1999）。增压状态。计算科学与统计，31:172-181。；里奇韦，G.，《增长的状态》，《计算科学与统计》，31172-181（1999）·Zbl 1072.62560号
[38]	Ridgeway，G.、McCaffrey，D.、Morral，A.、Griffin，B.和Burgette，L.（2017）。twang：非等价群的加权和分析工具包（R包，1.5版）。综合R档案网络，奥地利维也纳。；里奇韦，G。；McCaffrey，D。；Morral，A。；格里芬，B。；Burgette，L.，twang:非等效组加权和分析工具包（R包，版本1.5）（2017年）
[39]	Rosenbaum，P.和Rubin，D.（1983年）。倾向评分在因果效应观察性研究中的中心作用。生物特征，70:41-55。；罗森鲍姆，P。；Rubin，D.，《倾向评分在因果效应观察性研究中的中心作用》，《生物统计学》，70，41-55（1983）·Zbl 0522.62091号
[40]	Rubin，D.（1974）。在随机和非随机研究中估计治疗的因果效应。《教育心理学杂志》，66:688-701。；Rubin，D.，在随机和非随机研究中估计治疗的因果效应，《教育心理学杂志》，66688-701（1974）
[41]	Rubin，D.（1976年）。推断和缺失数据。生物特征，63:581-592。；Rubin，D.，《推断和缺失数据》，《生物统计学》，63，581-592（1976）·Zbl 0344.62034号
[42]	Rubin，D.（1987）。调查中无应答的多重插补。纽约：Wiley。；Rubin，D.，《调查中无应答的多重插补》（1987年）·2007年6月10日
[43]	Rubin，D.B.等人（2008年）。对于客观的因果推断，设计胜过分析。应用统计学年鉴，2:808-840。；Rubin，D.B.，《关于客观因果推断、设计胜于分析》，《应用统计学年鉴》，2808-840（2008）·Zbl 1149.62089号
[44]	Schafer，J.（1997）。不完全多元数据分析。博卡拉顿：CRC出版社。；Schafer，J.，不完全多元数据分析（1997）·Zbl 0997.62510号
[45]	Setoguchi，S.、Schneeweiss，S.，MA，M.B、Glynn，R.和Cook，E.（2008）。评估数据挖掘技术在倾向得分估计中的应用：一项模拟研究。药物流行病学与药物安全，17:546-555。；Setoguchi，S。；Schneeweiss，S。；文学硕士。；Glynn，R.等人。；Cook，E.，评估数据挖掘技术在倾向得分估计中的应用：一项模拟研究。药物流行病学和药物安全，17546-55（2008）
[46]	Shah，A.（2014）。CALIBER插补：使用随机森林（R包，版本0.1-2）在MICE中插补。奥地利维也纳综合R档案网。；Shah，A.，CALIBER插补：使用随机森林对MICE进行插补（R包，版本0.1-2）（2014年）
[47]	Shah，A.、Bartlett，J.、Carpenter，J.，Nicholas，O.和Hemingway，H.（2014）。使用小鼠插补缺失数据的随机森林和参数插补模型的比较：一项口径研究。美国流行病学杂志，179:764-774。；沙阿（Shah，A.）。；Bartlett，J。；Carpenter，J。；O.尼古拉斯。；海明威，H.，《使用小鼠插补缺失数据的随机森林和参数插补模型的比较：一项口径研究》，《美国流行病学杂志》，179764-774（2014）
[48]	Stürmer，T.、Joshi，M.、Glynn，R.、Avorn，J.、Rothman，K.和Schneeweiss，S.（2006）。对倾向评分法的应用进行了回顾，得出了越来越多的应用，在特定环境中具有优势，但与传统多变量方法相比，估计值没有实质性差异。临床流行病学杂志，59:437-e1。；Stürmer，T。；乔希，M。；Glynn，R。；Avorn，J。；Rothman，K。；Schneeweiss，S.，《倾向评分法的应用综述》，《临床流行病学杂志》，59:437-e1（2006）
[49]	Tchetgen，E.T.和VanderWeele，T.（2012）。关于存在干扰的因果推理。医学研究中的统计方法，21:55-75。；Tchetgen，E.T。；VanderWeele，T.，《关于干扰下的因果推断》，《医学研究中的统计方法》，第21期，第55-75页（2012年）·Zbl 1219.62175号
[50]	Therneau，T.和Atkinson，E.（2017年）。介绍使用RPART例程的递归分区。罗切斯特：梅奥基金会。；塞尔诺，T。；Atkinson，E.，《使用RPART例程的递归分区介绍》（2017）
[51]	Van Buuren，S.（2012年）。缺失数据的灵活插补。博卡拉顿：CRC出版社。；Van Buuren，S.，缺失数据的灵活插补（2012年）·Zbl 1256.62005年
[52]	Van Buuren，S.和Groothuis-Oudshoorn，K.（2011年）。《小鼠：用链式方程进行多元插补》，R.统计软件杂志，45:1-67。；Van Buuren，S。；Groothuis Oudshoorn，K.，《小鼠：R中链式方程的多变量插补》，《统计软件杂志》，45，1-67（2011）·Zbl 1144.62332号
[53]	Westreich，D.（2012年）。Berkson的偏倚、选择偏倚和数据缺失。流行病学，23:159-164。；Westreich，D.，Berkson的偏见、选择偏见和缺失数据，《流行病学》，23，159-164（2012）
[54]	Westreich，D.、Lessler，J.和Jonsson Funk M.（2010年）。倾向性得分估计：神经网络、支持向量机、决策树（cart）和元分类器作为逻辑回归的替代方法。临床流行病学杂志，63:826-833。；韦斯特里奇，D。；Lessler，J。；Jonsson Funk，M.，《倾向性得分估计：神经网络、支持向量机、决策树（cart）和元分类器作为逻辑回归的替代方法》，《临床流行病学杂志》，63826-833（2010）
[55]	Wyss，R.、Ellis，A.、Brookhart，M.、Girman，C.、Jonsson Funk，M.，LoCasale，R.和Stürmer，T.（2014）。预测模型在倾向得分估计中的作用：对logistic回归、bcart和协变量平衡倾向得分的评估。美国流行病学杂志，180:645-655。；怀斯，R。；埃利斯，A。；布鲁克哈特，M。；Girman，C。；Jonsson Funk，M。；罗卡萨利。；Stürmer，T.，《预测模型在倾向得分估计中的作用：logistic回归、bcart和协变量平衡倾向得分的评估》，《美国流行病学杂志》，180645-655（2014）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

在缺少协变量数据的情况下，使用分类树和回归树进行倾向得分估计。（英语） Zbl 1427.62055号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

在缺少协变量数据的情况下，使用分类树和回归树进行倾向得分估计。 （英语） Zbl 1427.62055号

MSC公司：

关键词：

软件：

参考文献：

在缺少协变量数据的情况下，使用分类树和回归树进行倾向得分估计。（英语） Zbl 1427.62055号