×

具有连续变量和二进制变量的多级数据的多重插补。 (英语) Zbl 1397.62265号

小结:我们提出并比较了多层次连续数据和二进制数据的多种插补方法,其中变量系统性和偶发性缺失。从理论角度并通过由多个研究组成的真实数据集激发的广泛模拟研究,对这些方法进行了比较。比较表明,这些多重插补方法最适合处理多级设置中的缺失值,以及为什么它们的相对性能会因缺失数据模式、多级结构和缺失变量的类型而异。本研究表明,只有当数据集包含大量簇时,才能获得有效的推断。此外,它强调,异方差多重插补方法提供了比同方差方法更准确的推断,同方差方法应保留用于每个聚类中只有少数个体的数据。最后,给出了根据数据结构选择最合适的多重插补方法的准则。

MSC公司:

62J15型 配对和多重比较;多次测试
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Albert,A.和Anderson,J.A.(1984年)。关于logistic回归模型中极大似然估计的存在性。生物特征71 1-10·Zbl 0543.62020号 ·doi:10.1093/biomet/71.1
[2] Allison,P.(2002)。缺少数据。加州千橡Sage·Zbl 1140.62354号
[3] Andridge,R.R.(2011)。量化集群随机试验多重插补中集群固定效应模型的影响。生物。期刊53 57–74·Zbl 1207.62193号 ·doi:10.1002/bimj.201000140
[4] Asparouhov,T.和Muthén,B.(2010年)。Mplus多重插补。技术报告。可在http://www.statmodel.com/download/Imputations7.pdf。
[5] Audigier,V.、White,I.R.、Jolani,S.、Debray,T.P.A.、Quartagno,M.、Carpenter,J.、van Buuren,S.和Resche-Rigon,M.(2018年)。对“具有连续和二元变量的多级数据的多重插补”的补充。DOI:10.1214/18-STS646SUPPA,DOI:10.1214/18-STS646SUPPB。
[6] Bartlett,J.W.、Seaman,S.R.、White,I.R.和Carpenter,J.R.(2015)。通过完全条件规范对协变量进行多重插补:适应实质性模型。统计方法医学研究24 462–487·doi:10.1177/0962280214521348
[7] Bates,D.、Mächler,M.、Bolker,B.和Walker,S.(2015)。使用lme4拟合线性混合效应模型。J.Stat.Softw.67 1–48。
[8] Blossfeld,H.-P.,Günther Ro’s“巴赫,H.和冯·莫里斯,J.编辑(2011)。教育是一个终身的过程:德国国家教育小组研究(NEPS)。VS Verlag für Sozialwissenschaften,德国威斯巴登。
[9] Bos,W.、Lankes,E.-M.、Prenzel,M.、Schwippert,K.和Valtin,R.编辑(2003年)。Erste Ergebnisse aus IGLU:Schülerleistungen Am Ende der Vierten Jahrgangstufe Im Internationalen Vergleich[第一名]。德国明斯特瓦克斯曼。
[10] Carpenter,J.和Kenward,M.(2013)。多重推断及其应用,第1版,威利,纽约·Zbl 1352.62008年
[11] Carrig,M.M.、Manrique-Vallier,D.、Ranby,K.W.、Reiter,J.和Hoyle,R.H.(2015)。用于数据集回顾性整合的非参数、基于多重插补的方法。多变量。行为。第50号决议383–397。
[12] Curran,P.J.和Hussong,A.M.(2009年)。综合数据分析:同时分析多个数据集。精神病。方法14 81–100。
[13] Curran,P.J.、Hussong,A.M.、Cai,L.、Huang,W.、Chassin,L.,Sher,K.J.和Zucker,R.A.(2008)。汇集多个纵向研究的数据:项目反应理论在综合数据分析中的作用。心理发展44 365-380。
[14] Debray,T.、Riley,R.、Rovers,M.、Reitsma,J.、Moons,K.,并代表Cochrane IPD Meta analysis Meta Meta Meta-Meta Metas Metas Meta-分析方法小组(2015b)。诊断和预后建模研究的个体参与者数据(IPD)荟萃分析:使用指南。《公共科学图书馆·医学》第12卷第1001886页。
[15] Debray,T.、Moons,K.、van Valkenhoef,G.、Efthimiou,O.、Hummel,N.、Groenwold,R.和Reitsma,J.O.(2015a)。实现个体参与者数据(IPD)元分析:方法综述。Res.合成。方法6 293–309。
[16] DerSimonian,R.和Laird,N.(1986年)。临床试验的荟萃分析。控制。临床。试验7 177–188。
[17] Drechsler,J.(2015)。多层次缺失数据的多重插补与简单性。J.教育。行为。统计数据40 69–95。
[18] Enders,C.(2010年)。应用了缺失数据分析。纽约吉尔福德出版社。
[19] Enders,C.K.、Keller,B.T.和Levy,R.(2017)。分类变量和连续变量多级插补的完全条件规范方法。精神病。方法。
[20] Enders,C.、Mister,S.和Keller,B.(2016)。多水平多重插补:联合建模和链式方程插补的回顾和评估。心理学方法21 222-240。
[21] Erler,N.S.、Rizopoulos,D.、van Rosmalen,J.、Jaddoe,V.W.V.、Franco,O.H.和Lesaffre,E.M.E.H.(2016)。流行病学研究中缺失协变量的处理:多重插补和完全贝叶斯方法的比较。Stat.Med.35 2955–2974·数字对象标识代码:10.1002/sim.6944
[22] Firth,D.(1993)。最大似然估计的偏差减少。生物特征80 27–38·兹比尔0769.62021 ·doi:10.1093/biomet/80.1.27
[23] Gelman,A.(2006年)。层次模型中方差参数的先验分布(Browne和Draper的文章评论)。贝叶斯分析。1 515–533·Zbl 1331.62139号 ·doi:10.1214/06-BA117A
[24] Geman,S.和Geman,D.(1984年)。随机松弛、吉布斯分布和图像的贝叶斯恢复。IEEE传输。模式分析。机器。情报6 721–741·Zbl 0573.62030号 ·doi:10.1109/TPAMI.1984.4767596
[25] 全球急性病研究团队(GREAT)网络(2013年)。急性心力衰竭学院ED-case研究中的急性心力衰竭管理。可在http://www.greatnetwork.org。
[26] Goldstein,H.、Bonnet,G.和Rocher,T.(2007年)。用于分析教育绩效比较数据的多级结构方程模型。J.教育。行为。统计数字32 252–286。
[27] Goldstein,H.、Carpenter,J.、Kenward,M.G.和Levin,K.A.(2009年)。具有多元混合响应类型的多级模型。统计模型9 173-197·Zbl 07257700号
[28] Graham,J.W.(2012)。缺少数据:分析和设计。纽约州施普林格·Zbl 1279.62005号
[29] Grund,S.、Lüdtke,O.和Robitzsch,A.(2016)。具有随机斜率的多水平模型中缺失协变量值的多重插补:注意事项。行为。研究方法48 640–649。
[30] Hughes,R.A.、White,I.R.、Seaman,S.、Carpenter,J.、Tilling,K.和Sterne,J.(2014)。链式方程的联合建模原理。BMC医学研究方法14 28。
[31] Jackson,D.、White,I.R.和Riley,R.D.(2013)。一种基于矩阵的矩量法,用于拟合用于荟萃分析和荟萃回归的多元随机效应模型。生物。期刊55 231–245·Zbl 1441.62381号 ·doi:10.1002/bimj.201200152
[32] Jolani,S.(2018)。系统性和偶发性缺失数据的分层插补:使用链式方程的近似贝叶斯方法。生物。期刊60 333–351·Zbl 1387.62116号 ·doi:10.1002/bimj.201600220
[33] Jolani,S.、Debray,T.P.A.、Koffijberg,H.、van Buuren,S.和Moons,K.G.M.(2015)。个体参与者数据荟萃分析中系统缺失预测因子的插补:使用MICE的通用方法。《美国法律总汇》第34卷第1841–1863页。
[34] Kropko,J.、Goodrich,B.、Gelman,A.和Hill,J.(2014)。连续和分类数据的多重插补:比较联合多元正态和条件方法。政治分析22 497–519。
[35] Kunkel,D.和Kaizar,E.E.(2017年)。个体参与者数据荟萃分析中多重插补现有方法的比较。Stat.Med.36 3507–3532。
[36] Langan,D.、Higgins,J.P.T.和Simmonds,M.(2017年)。荟萃分析中异质性方差估计量的比较性能:模拟研究综述。Res.合成。方法8 181-198。
[37] Lassus,J.、Gayat,E.、Mueller,C.、Peacock,W.、Spinar,J.,Harjola,V.、van Kimmenade,R.、Pathak,A.、Mueller-T.等人(2013年)。生物标记物对急性失代偿性心力衰竭死亡率预测临床变量的增量价值:关于急性心力衰竭(MOCA)的多国观察队列研究。国际心脏病杂志.168 2186–2194。
[38] Lee,K.和Carlin,J.(2010年)。缺失数据的多重插补:完全条件规范与多元正态插补。美国流行病学杂志171 624–632。
[39] Lee,Y.、Nelder,J.A.和Pawitan,Y.(2006年)。具有随机效应的广义线性模型:通过(H)-似然的统一分析。统计学和应用概率专著106。查普曼和霍尔/CRC,佛罗里达州博卡拉顿,带1张CD-ROM(Windows)·Zbl 1110.62092号
[40] Little,R.(1988)。大型调查中的缺失数据调整。J.总线。经济。统计6 287–296。
[41] Little,R.J.A.和Rubin,D.B.(2002年)。《缺失数据的统计分析》,第二版,新泽西州霍博肯Wiley-Interscience·Zbl 1011.62004号
[42] Liu,J.、Gelman,A.、Hill,J.,Su,Y.-S.和Kropko,J.(2014)。关于迭代插补的平稳分布。生物特征101 155–173·Zbl 1285.62058号 ·doi:10.1093/biomet/ast044
[43] Longford,N.T.(2008)。缺少数据。在《多级分析手册》377-399中。纽约州施普林格。
[44] Mathew,T.和Nordström,K.(2010年)。使用个体患者数据比较一步和两步荟萃分析模型。生物。J.52 271–287·Zbl 1207.62204号
[45] McNeish,D.和Stapleton,L.M.(2016)。用很少的集群对集群数据进行建模。多变量。行为。第51 495–518号决议。
[46] Mebazaa,A.、Gayat,E.、Lassus,J.、Meas,T.、Mueller,C.等人(2013年)。血糖升高与急性心力衰竭预后的关系:来自国际观察队列的结果。美国大学J.Am.Coll。心脏病。61 820–829。
[47] Meng,X.(1994)。输入来源不一致的多重插补推论(讨论)。统计师。科学10 538–573。
[48] Mullis,I.、Martin,M.、Gonzalez,E.和Kennedy,A.(2003)。皮尔斯2001年国际报告:国际教育协会对35个国家小学阅读成绩的研究。网址:https://timssandpirls.bc.edu/pirls2001i/pdf/p1_IR_book.pdf。
[49] Noh,M.和Lee,Y.(2007年)。GLMM中二进制数据的REML估计。《多变量分析杂志》98 896–915·Zbl 1113.62087号 ·doi:10.1016/j.jmva.2006.11.009
[50] Pinheiro,J.和Bates,D.(2000)。S和S-PLUS中的混合效应模型。纽约州施普林格·Zbl 0953.62065号
[51] Quartagno,M.和Carpenter,J.R.(2016a)。IPD荟萃分析的多重插补:考虑异质性和缺失协变量的研究。Stat.Med.35 2938–2954。
[52] Raghunathan,T.、Lepkowski,J.M.、Van Hoewyk,J.和Solenberger,P.(2001)。使用回归模型序列进行多重输入缺失值的多元技术。Surv公司。方法27 85–96。
[53] Reiter,J.、Raghunathan,T.E.和Kinney,S.K.(2006年)。建模抽样设计在缺失数据多重插补中的重要性。Surv公司。方法32 143。
[54] Resche Rigon,M.和White,I.(2016)。通过链式方程对系统性和偶发性缺失的多层次数据进行多重插补。统计方法医学研究DOI:10.1177/0962280216666564。
[55] Resche-Rigon,M.、White,I.R.、Bartlett,J.W.、Peters,S.A.E.、Thompson,S.G.和Group,P.S.(2013)。多重插补用于处理个体参与者数据荟萃分析中系统缺失的混杂因素。Stat.Med.32 4890–4905·数字对象标识代码:10.1002/sim.5894
[56] Riley,R.D.、Lambert,P.C.、Staessen,J.A.、Wang,J.、Gueyffier,F.、Thijs,L.和Boutitie,F.(2008)。结合个体患者数据和汇总数据对持续结果进行Meta分析。1870–1893年《Stat.Med.27》·doi:10.1002/sim.3165
[57] Riley,R.D.、Ensor,J.、Snell,K.I.E.、Debray,T.P.A.、Altman,D.G.、Moons,K.G.M.和Collins,G.S.(2016)。使用电子健康记录或IPD元分析的大数据集对临床预测模型进行外部验证:机遇与挑战。BMJ353 i3140。
[58] Robert,C.P.(2007)。《贝叶斯选择:从决策理论基础到计算实现》,第二版,纽约斯普林格出版社·Zbl 1129.62003号
[59] Rubin,D.B.(1976年)。推断和缺失数据。生物特征63 581–592·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[60] Rubin,D.B.(1987)。调查中无响应的多重推断。纽约威利·2007年6月10日
[61] Schafer,J.L.(1997)。不完全多元数据分析。统计学和应用概率专著72。查普曼和霍尔,伦敦·Zbl 0997.62510号
[62] Schafer,J.L.和Yucel,R.M.(2002年)。具有缺失值的多元线性混合效应模型的计算策略。J.计算。图表。统计11 437–457。
[63] Simmonds,M.、Higgins,J.、Stewart,L.、Tierney,J.,Clarke,M.和Thompson,S.(2005)。随机试验患者个体数据的荟萃分析:实践中使用的方法综述。临床。试验209–217。
[64] Tanner,M.A.和Wong,W.H.(1987)。通过数据增强计算后验分布。J.Amer。统计师。协会82 528–550·Zbl 0619.62029号 ·doi:10.1080/01621459.1987.10478458
[65] R核心团队(2016)。R: 统计计算语言和环境。3.3.0版。R统计计算基金会,奥地利维也纳。
[66] van Buuren,S.(2007)。通过完全条件规范对离散和连续数据进行多重插补。统计方法医学研究16 219–242·兹比尔1122.62382 ·doi:10.1177/0962280206074463
[67] van Buuren,S.(2011)。多层次数据的多重插补。《高级多级分析手册》(J.J.Hox,ed.)173-196。纽约州劳特利奇。
[68] van Buuren,S.(2012)。缺失数据的灵活插补(查普曼和霍尔/CRC跨学科统计)。查普曼和霍尔/CRC,伦敦·Zbl 1256.62005年
[69] van Buuren,S.和Groothuis-Oudshoorn,K.(2011年)。小鼠:通过R.J.Stat.Softw.45 1–67中的链式方程进行多元插补。
[70] van Buuren,S.、Brand,J.P.L.、Groothuis-Oudshoorn,C.G.M.和Rubin,D.B.(2006)。多元插补中的完全条件规范。J.统计计算。模拟76 1049–1064·Zbl 1144.62332号 ·doi:10.1080/106293060810434
[71] Vink,G.、Lazendic,G.和van Buuren,S.(2015)。分区预测均值匹配作为一种多水平插补技术。精神病。测试评估。型号57 577–594。
[72] Wagstaff,D.和Harel,O.(2011年)。对多重计算自由度的三个小样本近似进行更仔细的检查。《统计年鉴》J.11 403–419。
[73] Yucel,R.M.(2011)。用于输入多元多水平连续数据的随机协方差和混合效应模型。统计模型11351–370·Zbl 1420.62279号
[74] Zhao,Y.和Long,Q.(2016)。存在高维数据的多重插补。统计方法医学研究25 2021–2035·doi:10.1177/0962280213511027
[75] Zhao,E.和Yucel,R.(2009)。序贯插补法在多层次应用中的性能。《调查研究方法汇编》(JSM 2009)2800–2810。阿默尔。统计师。弗吉尼亚州亚历山大市协会。
[76] Zhu,J.和Raghunathan,T.E.(2015)。序列回归多重插补算法的收敛性。J.Amer。统计师。协会110 1112–1124·Zbl 1373.62393号 ·doi:10.1080/01621459.2014.948117
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。