×

多重插补:实践和理论研究结果综述。 (英语) 兹比尔1397.62052

摘要:多重插补是一种原则性地处理缺失数据的简单方法。本文概述了多重插补,包括重要的理论成果及其对生成和使用多重插补的实际意义。下文回顾了生成插补的策略,包括柔性联合建模和序列回归/链式方程/完全条件规范方法的最新发展。最后,在确定未来研究的有希望的途径之前,我们比较和对比了根据一系列标准产生推断的不同方法。

MSC公司:

62D05型 抽样理论、抽样调查
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abayomi,K.、Gelman,A.和Levy,M.(2008)。多元插补诊断。J.罗伊。统计师。Soc.序列号。C57 273–291·Zbl 1273.62257号 ·文件编号:10.1111/j.1467-9876.2007.00613.x
[2] Akand,O.、Li,F.和Reiter,J.(2017)。分类数据多重插补方法的实证比较。阿默尔。统计71 162–170·Zbl 07671795号
[3] Andridge,R.R.和Little,R.J.A.(2010年)。综述调查无答复的热卡插补。国际统计版次78 40–64。
[4] Arnold,B.C.、Castillo,E.和Sarabia,J.M.(2001)。有条件指定的分发:简介。统计师。科学16 249–274·Zbl 1059.62511号 ·doi:10.1214/ss/1009213728
[5] Arnold,B.C.和Press,J.S.(1989年)。兼容的条件分布。J.Amer。统计师。协会84 152–156·Zbl 0676.62011号 ·doi:10.1080/016214591989.10478750
[6] Audigier,V.、Husson,F.和Josse,J.(2016)。使用贝叶斯主成分分析对连续变量进行多重插补。J.统计计算。模拟86 2140–2156·Zbl 1510.62262号 ·doi:10.1080/0949655.2015.1104683
[7] Audigier,V.、Husson,F.和Josse,J.(2017)。MIMCA:利用多重对应分析对分类变量进行多重插补。统计计算27 501–518·Zbl 1505.62485号 ·doi:10.1007/s11222-016-9635-4
[8] Banerjee,A.、Murray,J.和Dunson,D.B.(2013年)。对象联合分布的贝叶斯学习。亚利桑那州斯科茨代尔第16届国际人工智能与统计会议(AISTATS)会议记录。
[9] Barnard,J.和Rubin,D.B.(1999年)。杂项。具有多重插补的小样本自由度。生物特征86 948–955·Zbl 0942.62025号 ·doi:10.1093/biomet/86.4.948
[10] Bernaards,C.A.、Belin,T.R.和Schafer,J.L.(2007年)。不完全二进制数据插补的多元正态近似的稳健性。Stat.Med.26 1368–1382年。
[11] Blackwell,M.、Honaker,J.和King,G.(2015)。测量误差和缺失数据的统一方法。社会学。方法研究46 303–341。
[12] Böhning,D.,Seidel,W.,Alfó,M.,Garel,B.,Patilea,V.,Walther,G.,Di Zio,M.、Guarnera,U.和Luzi,O.(2007)。通过有限高斯混合模型进行插补。计算。统计师。数据分析51 5305–5316·Zbl 1445.62021号
[13] Bondarenko,I.和Raghunathan,T.(2016)。评估多重插补和插补模型适用性的图形和数字诊断工具。Stat.Med.35 3007–3020。
[14] Breiman,L.(2001)。随机森林。机器。学习45 5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[15] Breiman,L.、Friedman,J.、Stone,C.J.和Olshen,R.A.(1984年)。分类和回归树。Wadsworth Advanced Books and Software,加利福尼亚州贝尔蒙特·Zbl 0541.62042号
[16] Burgette,L.F.和Reiter,J.P.(2010年)。通过序列回归树对缺失数据进行多重插补。美国流行病学杂志172 1070–1076。
[17] Carpenter,J.和Kenward,M.(2013)。多重插补及其应用,第1版,威利出版社,纽约·Zbl 1352.62008年
[18] Chen,J.和Shao,J.(2000)。调查数据的最近邻插补。J.Off.Stat.16 113–131。
[19] Cole,S.R.、Chu,H.和Greenland,S.(2006年)。测量误差修正的多重插补。《国际流行病学杂志》35 1074–1081。
[20] Collins,L.M.、Schafer,J.L.和Kam,C.M.(2001年)。现代缺失数据程序中包容性和限制性策略的比较。精神病。方法6 330–351。
[21] DeYoreo,M.、Reiter,J.P.和Hillygus,D.S.(2017年)。混合序数和标称数据的贝叶斯混合模型,具有聚焦聚类。贝叶斯分析12 679–730·Zbl 1384.62192号 ·doi:10.1214/16-BA1020
[22] Doove,L.L.、Van Buuren,S.和Dusseldorp,E.(2014)。存在交互效应时缺失数据插补的递归分区。计算。统计师。数据分析72 92–104·Zbl 1506.62056号
[23] Dunson,D.B.和Xing,C.(2009年)。多元分类数据的非参数Bayes建模。J.Amer。统计师。协会104 1042–1051·Zbl 1388.62151号 ·doi:10.1198/jasa.2009.tm08439
[24] Elliott,M.R.和Stettler,N.(2007年)。在存在离群值的情况下使用混合模型进行多重插补:“生命健康”项目。J.罗伊。统计师。Soc.序列号。C56 63–78·Zbl 1490.62356号 ·文件编号:10.1111/j.1467-9876.2007.00565.x
[25] Fithian,W.和Josse,J.(2017年)。多重对应分析和多逻辑双线性模型。《多变量分析杂志》157 87–102·Zbl 1362.62126号 ·doi:10.1016/j.jmva.2017.02.009
[26] Fosdick,B.K.,DeYoreo,M.和Reiter,J.P.(2016)。使用辅助信息的分类数据融合。附录申请。法令.10 1907-1929年·Zbl 1454.62047号 ·doi:10.1214/16-AOAS925
[27] Gebregziabher,M.和DeSantis,S.M.(2010年)。基于潜在类别的缺失分类数据多重插补方法。J.统计。计划。推断140 3252–3262·Zbl 1204.62125号 ·doi:10.1016/j.jspi.201004.020文件
[28] Gelman,A.、Carlin,J.B.、Rubin,D.B.、Vehtari,A.、Dunson,D.B.和Stern,H.S.(2014)。贝叶斯数据分析,第三版,CRC出版社,佛罗里达州博卡拉顿·Zbl 1279.62004号
[29] He,Y.和Zaslavsky,A.M.(2012)。通过对完整数据的后验重复数据应用目标分析来诊断插补模型。Stat.Med.31 1–18。
[30] He,Y.,Zaslavsky,A.M.,Landrum,M.B.,Harrington,D.P.和Catalano,P.(2010)。大规模复杂调查中的多重插补:实用指南。统计方法医学研究19 653–670。
[31] Heitjan,D.F.和Little,R.J.A.(1991年)。死亡事故报告系统的多重插补。J.罗伊。统计师。Soc.序列号。C40 13–29·Zbl 0825.62984号
[32] Horton,N.J.、Lipsitz,S.R.和Parzen,M.(2003)。在多重插补中四舍五入时存在偏差的可能性。阿默尔。统计57 229–232·Zbl 1182.62002号 ·doi:10.1198/0003130032314
[33] Hu,J.、Reiter,J.P.和Wang,Q.(2017)。Dirichlet处理混合模型,用于建模和生成嵌套类别数据的合成版本。贝叶斯分析12 679–703·Zbl 06873723号 ·doi:10.1214/16-BA1047
[34] Hughes,R.A.、White,I.R.、Seaman,S.R.和Carpenter,J.R.,Tilling,K.和Sterne,J.A.C.(2014)。链式方程的联合建模原理。BMC医学研究方法14 28。
[35] 易卜拉欣,J.G.、利普西茨,S.R.和陈,M.H.(1999)。当缺失数据机制不可忽略时,广义线性模型中的缺失协变量。J.R.统计社会服务。B.《美国法律总汇》方法61 173–190·Zbl 0917.62060号 ·doi:10.1111/1467-9868.00170
[36] Ibrahim,J.G.、Chen,M.H.、Lipsitz,S.R.和Herring,A.H.(2005)。广义线性模型的缺失数据方法:比较综述。J.Amer。统计师。协会100 332–346·Zbl 1117.62360号 ·doi:10.1198/0162145000001844
[37] Ishwaran,H.和James,L.F.(2001)。破胶前期吉布斯取样方法。J.艾默。统计师。协会96 161–173·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[38] Kim,J.K.(2002)。关于近似贝叶斯自举插补的注记。生物特征89 470–477·Zbl 1017.62021号 ·doi:10.1093/biomet/89.2.470
[39] Kim,J.K.、Brick,J.M.、Fuller,W.A.和Kalton,G.(2006)。调查抽样中多重计算方差估计量的偏差。J.R.统计社会服务。B.统计方法68 509–521·Zbl 1110.62008年 ·doi:10.1111/j.1467-9868.2006.00546.x
[40] Kim,H.J.、Reiter,J.P.、Wang,Q.、Cox,L.H.和Karr,A.F.(2014)。线性约束下缺失或错误值的多重插补。J.总线。经济。统计数字32 375–386。
[41] Kim,H.J.、Cox,L.H.、Karr,A.F.、Reiter,J.P.和Wang,Q.(2015)。连续微数据的同步编辑计算。J.Amer。统计师。协会110 987–999。
[42] Kropko,J.、Goodrich,B.、Gelman,A.和Hill,J.(2014)。连续和分类数据的多重插补:比较联合多元正态和条件方法。政治分析22 497–519。
[43] Lee,M.C.和Mitra,R.(2016)。使用一系列广义线性模型,使用混合测量尺度对数据集中的缺失值进行乘法插补。计算。统计师。数据分析95 24–38·Zbl 1468.62113号
[44] Li,F.、Baccini,M.、Mealli,F.、Zell,E.R.、Frangakis,C.E.和Rubin,D.B.(2014)。有序单调块多重插补在炭疽疫苗研究项目中的应用。J.计算。图表。统计数字23 877–892·doi:10.1080/10618600.2013.826583
[45] Lipsitz,S.R.和Ibrahim,J.G.(1996年)。参数回归模型中不完全协变量的条件模型。生物识别83 916–922·Zbl 0885.62026号 ·doi:10.1093/biomet/83.4.916
[46] Little,R.J.A.(1988年)。大型调查中的缺失数据调整。J.总线。经济。统计6 287–296。
[47] Little,R.J.A.和Rubin,D.B.(2002年)。《数据缺失的统计分析》,第2版,Wiley Interscience,新泽西州霍博肯·Zbl 1011.62004号
[48] Little,R.J.A.和Schluchter,M.D.(1985年)。具有缺失值的混合连续和分类数据的最大似然估计。生物特征72 497–512·Zbl 0609.62082号 ·doi:10.1093/biomet/72.3.497
[49] Liu,J.S.(1994)。贝叶斯计算中的坍塌吉布斯采样器及其在基因调控问题中的应用。J.Amer。统计师。协会89 958–966·Zbl 0804.62033号 ·doi:10.1080/01621459.1994.10476829
[50] Liu,C.和Rubin,D.B.(1998)。混合类别和连续数据的一般位置模型的椭圆对称扩展。生物特征85 673–688·Zbl 0954.62071号 ·doi:10.1093/biomet/85.3.673
[51] Liu,J.、Gelman,A.、Hill,J.,Su,Y.-S.和Kropko,J.(2014)。关于迭代插补的平稳分布。生物特征101 155–173·Zbl 1285.62058号 ·doi:10.1093/biomet/ast044
[52] Manrique-Vallier,D.和Reiter,J.P.(2014a)。具有结构零点的离散多元潜在结构模型的贝叶斯估计。J.计算。图表。统计23 1061–1079。
[53] Manrique-Vallier,D.和Reiter,J.P.(2014b)。具有结构零的大规模分类数据的贝叶斯多重插补。Surv公司。方法40 125–134。
[54] Manrique-Vallier,D.和Reiter,J.P.(2016)。多元分类数据的贝叶斯同步编辑和插补。J.艾默。统计师。协会112 1708–1719。
[55] 孟晓乐(1994)。输入来源不一致的多重插补推断。统计师。科学9 538–558。
[56] Meng,X.-L.和Romero,M.(2003年)。讨论:效率和自我效能与多重插补推理。国际统计版次71 607–618。
[57] Morris,T.P.、White,I.R.和Royston,P.(2014)。通过预测平均值匹配和局部残差提取调整多重插补。BMC医学研究方法.1475。
[58] Murray,J.S.和Reiter,J.P.(2016)。通过具有局部依赖性的贝叶斯混合模型对缺失的分类值和连续值进行多重插补。J.Amer。统计师。协会111 1466–1479。
[59] Nguyen,C.D.、Lee,K.J.和Carlin,J.B.(2015)。多重插补模型的后验预测检验。生物。期刊57 676–694·Zbl 1329.62034号 ·doi:10.1002/bimj.201400034
[60] Nielsen,S.F.(2003)。适当和不当多重插补。国际统计版次71 593–607·Zbl 1114.62323号 ·doi:10.1111/j.1751-5823.003.tb00214.x
[61] Olkin,I.和Tate,R.F.(1961年)。混合离散变量和连续变量的多元相关模型。安。数学。统计数字32 448–465·Zbl 0113.35101号 ·doi:10.1214/aoms/1177705052
[62] Paddock,S.M.(2002年)。部分观测数据的贝叶斯非参数多重插补,无响应可忽略。生物特征89 529–538·Zbl 1036.62002号 ·doi:10.1093/biomet/89.3.529
[63] Raghunathan,T.E.、Reiter,J.P.和Rubin,D.B.(2003)。统计披露限制的多重插补。J.关闭状态19 1–16。
[64] Raghunathan,T.E.、Lepkowski,J.M.、Van Hoewyk,J.和Solenberger,P.(2001年)。使用回归模型序列进行多重输入缺失值的多元技术。Surv公司。方法27 85–96。
[65] Rässler,S.(2004)。数据融合:识别问题、效度和多重插补。澳大利亚。J.统计33 153–171。
[66] Reiter,J.P.(2002)。使用合成数据集满足披露限制。J.Off.Stat.18 531。
[67] Reiter,J.P.(2005)。使用CART生成部分合成的公共用途微观数据。J.Off.Stat.21 441。
[68] Reiter,J.P.(2012)。用于数据融合的贝叶斯有限总体插补。统计师。中国22 795–811·Zbl 1238.62030号 ·doi:10.5705/ss.2010.140
[69] Reiter,J.(2017)。讨论:从多阶段推理的角度剖析多重插补:当上帝、插补者和分析家的模型不一致时会发生什么?统计师。西尼卡。27 1578–1583. ·Zbl 1392.62036号
[70] Reiter,J.P.和Raghunathan,T.E.(2007年)。多重插补的多重适应。J.Amer。统计师。协会102 1462–1471·Zbl 1332.62044号 ·doi:10.1198/0162145000000932
[71] Reiter,J.P.、Raghunathan,T.E.和Kinney,S.K.(2006年)。建模抽样设计在缺失数据多重插补中的重要性。Surv公司。方法32 143。
[72] Robins,J.M.和Wang,N.(2000年)。插补估计量的推论。生物特征87 113–124·Zbl 0974.62016 ·doi:10.1093/biomet/87.1.113
[73] Rousseau,J.(2016)。贝叶斯非参数方法的频率特性。《统计及其应用年度回顾》3 211-231。
[74] Rubin,D.B.(1981)。贝叶斯引导。《统计年鉴》第9卷第130-134页·doi:10.1214/aos/1176345338
[75] Rubin,D.B.(1987)。调查中无响应的多重推断。威利。纽约·2007年6月10日
[76] Rubin,D.B.(1993)。讨论:统计披露限制。J.关闭状态9 461–468·兹比尔1416.62057 ·doi:10.1111/j.1751-5823.012.00190.x
[77] Rubin,D.B.(1996)。18年以上的多重插补。J.Amer。统计师。协会91 473–489·Zbl 0869.62014年 ·doi:10.1080/016214519996.10476908
[78] Rubin,D.B.(2003年a)。关于多重插补的讨论。国际统计版次71 619–625。
[79] 鲁宾,D.B.(2003b)。通过部分不相容MCMC对NMES进行嵌套多重插补。统计数字Neerl.57 3–18·doi:10.1111/1467-9574.00217
[80] Rubin,D.B.和Schafer,J.L.(1990年)。有效地为不完整的多元正态数据创建多重插补。程序中。美国统计协会统计计算科83–88。阿默尔。统计师。弗吉尼亚州亚历山大市协会。
[81] Rubin,D.B.和Schenker,N.(1986年)。利用可忽略无响应的简单随机样本进行区间估计的多重插补。J.Amer。统计师。协会81 366–374·Zbl 0615.62011号 ·doi:10.1080/01621459.1986.10478280
[82] Schafer,J.L.(1997)。不完全多元数据分析。查普曼和霍尔,伦敦·兹比尔0997.62510
[83] Schafer,J.L.(2003)。当插补和分析模型不同时,多元问题中的多重插补。Stat.Neerl.57 19–35·doi:10.1111/1467-9574.00218
[84] Schenker,N.和Taylor,J.M.G.(1996年)。多重插补的部分参数技术。计算。统计师。数据分析22 425–446·Zbl 0875.62095号 ·doi:10.1016/0167-9473(95)00057-7
[85] Schifeling,T.A.和Reiter,J.P.(2016)。在潜在类模型中加入边际先验信息。贝叶斯分析11 499–518·Zbl 1357.62130号 ·doi:10.1214/15-BA959
[86] Seaman,S.R.和Hughes,R.A.(2016年)。当条件模型兼容时,联合模型和全条件规范多重插补的相对效率:一般位置模型。统计方法医学研究DOI:10.1177/0962280216665872。
[87] Sethuraman,J.(1994)。Dirichlet先验的构造性定义。统计师。中国4 639–650·Zbl 0823.62007号
[88] Shah,A.D.、Bartlett,J.W.、Carpenter,J.、Nicholas,O.和Hemingway,H.(2014)。使用MICE插补缺失数据的随机森林和参数插补模型的比较:一项CALIBER研究。美国流行病学杂志179 764–774。
[89] Si,Y.和Reiter,J.P.(2013)。大规模评估调查中不完全分类变量的非参数贝叶斯多重插补。J.教育。行为。统计数字38 499–521。
[90] Stuart,E.A.、Azur,M.、Frangakis,C.和Leaf,P.(2009年)。大数据集的多重插补:儿童心理健康倡议的个案研究。美国流行病学杂志169 1133–1139。
[91] Su,Y.-S.,Gelman,A.,Hill,J.,Yajima,M.等人(2011年)。R中带诊断(mi)的多重插补:打开黑匣子窗口。《J.Stat.Softw.45》1–31。
[92] Van Buuren,S.(2007年)。通过完全条件规范对离散和连续数据进行多重插补。统计方法医学研究16 219–42·Zbl 1122.62382号 ·doi:10.1177/0962280206074463
[93] Van Buuren,S.(2012年)。缺失数据的灵活插补。佛罗里达州博卡拉顿CRC出版社·Zbl 1256.62005年
[94] Van Buuren,S.和Groothuis-Oudshoorn,K.(2011年)。小鼠:通过R.J.Stat.Softw.45 1–67中的链式方程进行多元插补。
[95] Van Buuren,S.和Oudshoorn,K.(1999年)。MICE的灵活多变量推断。荷兰莱顿TNO预防中心。
[96] Van Buuren,S.、Brand,J.P.L.、Groothuis-Oudshoorn,C.G.M.和Rubin,D.B.(2006)。多元插补中的完全条件规范。J.统计计算。模拟76 1049–1064·兹比尔1144.62332 ·网址:10.1080/10629360600810434
[97] Vermunt,J.K.、Van Ginkel,J.R.、Van Der Ark,L.A.和Sijtsma,K.(2008)。使用潜在类别分析对不完整类别数据进行多重插补。社会学。方法38 369–397。
[98] Vidotto,D.、Vermunt,J.K.和Kaptein,M.C.(2015)。使用潜在类别模型对缺失的分类数据进行多重插补:最新进展。心理学。测试评估。型号57 542–576。
[99] Vink,G.、Frank,L.E.、Pannekoek,J.和van Buuren,S.(2014)。半连续变量的预测均值匹配插补。统计Neerl.68 61–90。DOI:10.1111/坦桑尼亚12023。
[100] Wang,N.和Robins,J.M.(1998)。参数多重插补程序的大样本理论。生物特征85 935–948·Zbl 1054.62524号 ·doi:10.1093/biomet/85.4.935
[101] Xie,X.和Meng,X.-L.(2017)。从多阶段推理的角度剖析多重插补:当上帝、插补者和分析家的模型不一致时会发生什么?统计师。西尼卡。27 1485–1545. ·Zbl 1392.62040号
[102] Xu,D.、Daniels,M.J.和Winterstein,A.G.(2016)。用于缺失协变量插补的顺序BART。生物统计17 589–602。
[103] Zhu,J.和Raghunathan,T.E.(2015)。序列回归多重插补算法的收敛性。J.Amer。统计师。协会110 1112–1124·Zbl 1373.62393号 ·doi:10.1080/01621459.2014.948117
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。