×

评估四种多重插补方法,用于在虚拟变量和连续变量之间存在交互作用的情况下处理缺失的二进制结果数据。 (英语) Zbl 1468.6225号

摘要:链方程多重插补(MICE)是插补缺失数据的最常用方法。在MICE算法中,可以使用各种参数和非参数方法进行插补。MICE实施中的默认设置是插补模型仅将变量作为线性项包含,没有交互作用,但忽略交互作用项可能会导致结果有偏差。使用模拟数据集和实际数据集,研究递归划分是否在插补和具有适当置信区间的无偏参数估计之间产生适当的变异性。我们在真实数据集和模拟数据集上比较了四种多重插补(MI)方法。MI方法包括在MICE(MICE交互作用)插补模型中使用与交互作用项相匹配的预测平均数,在MICE中指定插补模型的分类和回归树(CART)(MICE-CART),在MISE中实现随机森林(RF)(MICE-RF),以及MICE分层方法。我们首先选择二级数据,设计了一个由40个场景组成的实验设计(2乘5乘4),根据模拟缺失数据的比率(10%、20%、30%、40%和50%)、缺失机制(MAR和MCAR)和插补方法(MICE-Interaction、MICE-CART、MICE-RF和MICE-Stratified)而有所不同。首先,我们随机抽取700个观测值,替换300次,然后创建缺失数据。评估基于原始偏差(RB)以及五个其他测量值,这些测量值在重复过程中取平均值。接下来,在模拟研究中,我们生成了1000次数据,样本大小为700。然后,我们为每个数据集创建一次缺失的数据。对于所有场景,使用与真实数据相同的标准来评估模拟研究中方法的性能。得出的结论是,当虚拟预测与连续预测之间存在交互作用时,与参数方法相比,通过使用递归分区进行插补可能会获得实质性收益,此外,MICE交互作用方法始终比其他方法更有效、更方便地保留交互作用。

MSC公司:

62D10号 缺少数据
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 斯特恩,J.A.C。;怀特,I.R。;Carlin,J.B.,《流行病学和临床研究中缺失数据的多重插补:潜力和陷阱》,BMJ,338,1(2009)·doi:10.1136/bmj.b2393
[2] Rubin,D.B.,《调查中无应答的多重插补》(2004),美国新泽西州霍博肯:美国新泽西霍博肯John Wiley&Sons·兹比尔1070.62007
[3] Van Buuren,S.,《缺失数据的灵活插补》(2018),佛罗里达州博卡拉顿,美国:美国佛罗里达州博卡拉顿CRC出版社·兹比尔1416.62030
[4] Rubin,D.B.,18岁以上的多重插补,《美国统计协会杂志》,91,434,473-489(1996)·Zbl 0869.62014年 ·doi:10.1080/016214519996.10476908
[5] 巴纳德·J。;孟晓乐,多重插补在医学研究中的应用:从艾滋病到NHANES,医学研究的统计方法,8,1,17-36(1999)·doi:10.1177/096228029900800103
[6] Little,R.J。;Rubin,D.B.,《缺失数据的统计分析》(2019年),美国新泽西州霍博肯:美国新泽西霍博肯John Wiley&Sons·兹比尔1411.62006
[7] Van Buuren,S。;Oudshoorn,K.,MICE的灵活多变量插补(1999),荷兰莱顿:荷兰莱顿TNO
[8] Van Buuren,S.,通过完全条件规范对离散和连续数据进行多重插补,《医学研究中的统计方法》,第16、3、219-242页(2007年)·Zbl 1122.62382号 ·doi:10.1177/0962280206074463
[9] Liu,J.S.,科学计算中的蒙特卡罗策略(2008),德国柏林:施普林格科学与商业媒体,德国柏林·Zbl 1132.65003号
[10] 李,F。;巴奇尼,M。;米利,F。;Zell,E.R。;弗朗加基斯,C.E。;Rubin,D.B.,有序单调块多重插补及其在炭疽疫苗研究项目中的应用,计算与图形统计杂志,23,3,877-892(2014)·doi:10.1080/10618600.2013.826583
[11] Raghunathan,T.E。;Rubin,D.B.,贝叶斯技术在调查抽样中的作用,加拿大统计学会银禧年会议记录
[12] Buuren,S。;Groothuis-Oudshoorn,K.,MICE:R中链式方程的多元插补,《统计软件杂志》,45,3,1-68(2010)
[13] Yang,S.,《缺失数据的灵活插补》(2018),美国佛罗里达州博卡拉顿:查普曼和霍尔/CRC出版社,佛罗里达州博卡拉顿·兹比尔1416.62030
[14] 苏,Y.-S。;盖尔曼,A.E。;希尔,J。;Yajima,M.,《R中带诊断的多重插补(Mi):打开黑箱窗口》,《统计软件杂志》,45,2,1-31(2011)
[15] 罗伊斯顿,P。;White,I.R.,《通过连锁方程进行多重插补(MICE):在Stata中的实施》,《统计软件杂志》,45,4,1-20(2011)·doi:10.18637/jss.v045.i04
[16] 希曼,S.R。;Bartlett,J.W。;White,I.R.,《具有非线性效应和相互作用的缺失协变量的多重插补:统计方法评估》,BMC医学研究方法,12,1,46(2012)·doi:10.1186/1471-2288-12-46
[17] 摩根,J.N。;Sonquist,J.A.,《调查数据分析中的问题和建议》,《美国统计协会杂志》,58,302,415-434(1963)·兹伯利0114.10103 ·网址:10.1080/01621459.1963.10500855
[18] 汉堡,L.F。;Reiter,J.P.,通过序列回归树对缺失数据进行多重插补,《美国流行病学杂志》,172,9,1070-1076(2010)·doi:10.1093/aje/kwq260
[19] Schafer,J.L.,《不完全多元数据分析》(1997年),博卡拉顿,佛罗里达州,美国:查普曼和霍尔/CRC,博卡拉顿,佛罗里达,美国·兹比尔0997.62510
[20] Doove,L.L。;Van Buuren,S。;杜塞尔多普,E.,《存在交互效应时缺失数据插补的递归分区》,计算统计与数据分析,72,92-104(2014)·Zbl 1506.62056号 ·doi:10.1016/j.csda.2013.10.025
[21] 沙阿(Shah,A.D.)。;Bartlett,J.W。;Carpenter,J。;O.尼古拉斯。;海明威,H.,《使用MICE插补缺失数据的随机森林和参数插补模型的比较:一项CALIBER研究》,《美国流行病学杂志》,179,6764-774(2014)·doi:10.1093/aje/kwt312
[22] 塞尔诺,T。;阿特金森,B。;Ripley,B.,递归分区和回归树。R包“rpart”(版本4.1-11)(2017),奥地利维也纳:R.Found Statistical Computing,奥地利维也纳
[23] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[24] 斯特罗布尔,C。;布列斯特,A.-L。;Augustin,T.,基于基尼指数的分类树无偏分割选择,计算统计与数据分析,52,1483-501(2007)·Zbl 1452.62469号 ·doi:10.1016/j.csda.2006.12.030
[25] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》(2001),美国纽约州纽约市:斯普林格统计系列,美国纽约市·Zbl 0973.62007号
[26] Breiman,L.F.J。;Olshen,R.A.,分类和回归树(1984),佛罗里达州博卡拉顿,美国:查普曼和霍尔/CRC,佛罗里达州波卡拉顿,美·Zbl 0541.62042号
[27] 加鲁西,B。;Garousi,S。;Baneshi,M.R.,《身体意象和身体变化:伊朗人群中的预测因素》,《国际预防医学杂志》,2013年第4期,第8期,第940-948页
[28] Schafer,J.L.,《多重插补:引物》,《医学研究中的统计方法》,8,1,3-15(1999)·doi:10.1177/096228029900800102
[29] Demirtas,H。;Freels,S.A。;Yucel,R.M.,多重输入非高斯连续结果时多元正态性假设的合理性:模拟评估,统计计算与模拟杂志,78,169-84(2008)·Zbl 1133.62337号 ·doi:10.1080/10629360600903866
[30] Demirtas,H.,多重估算纵向数据集的模拟驱动推断,Statistica Neerlandica,58,4,466-482(2004)·Zbl 1066.65020号 ·文件编号:10.1111/j.1467-9574.2004.00271.x
[31] 柯林斯,L.M。;Schafer,J.L。;Kam,C.-M.,《现代缺失数据程序中包容性和限制性策略的比较》,《心理学方法》,6,4,330-351(2001)·数字对象标识代码:10.1037/1082-989x.6.4.330
[32] Demirtas,H。;Hedeker,D.,幂多项式下的多重插补,统计中的通信——模拟和计算,37,8,1682-1695(2008)·网址:10.1080/0361091080201531
[33] Rubin,D.,《调查中无应答的多重插补》(1987),美国纽约州纽约市:John Wiley&Sons,美国纽约市·兹比尔1070.62007
[34] 伯纳德,C.A。;Farmer,M.M。;齐克。;杜莱,G.S。;甘兹,P.A。;Kahn,K.L.,癌症筛查调查中两种多重插补程序的比较(2002年)
[35] StataCorp LLC,《Stata多重插补参考手册》(2013),美国德克萨斯州大学城
[36] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),德国柏林:施普林格科学与商业媒体,德国柏林·Zbl 1273.62005年
[37] 杜塞尔多普,E。;Conversano,C。;Van Os,B.J.,同时结合加性和基于树的回归模型:STIMA,计算与图形统计杂志,19,3,514-530(2010)·doi:10.1198/jcgs.2010.06089
[38] 孟晓乐,“非遗传输入源的多重插补推理”,《统计科学》,第9期,第4期,第538-558页(1994年)·doi:10.1214/ss/1177010269
[39] Bartlett,J.W。;希曼,S.R。;怀特,I.R。;Carpenter,J.R.,《通过完全条件规范对协变量进行多重插补:适应实质性模型》,《医学研究中的统计方法》,24,4,462-487(2015)·doi:10.1177/0962280214521348
[40] 斯莱德,E。;Naylor,M.G.,《用链式方程对基于树的方法和参数方法进行多重插补的公平比较》,《医学统计学》,39,8,1156-1166(2020)·doi:10.1002/sim.8468
[41] 斯特罗布尔,C。;Malley,J。;Tutz,G.,递归划分导论:分类和回归树、套袋和随机森林的原理、应用和特征,心理学方法,14,4323-348(2009)·doi:10.1037/a0016973
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。