×

MIMCA:利用多重对应分析对分类变量进行多重插补。 (英语) Zbl 1505.62485号

摘要:我们提出了一种多重插补方法来处理不完整的分类数据。该方法使用专门用于分类数据的主成分方法:多重对应分析(MCA)来插补缺失条目。插补模型参数的不确定性通过非参数自举法反映出来。由于MCA的降维特性,使用MCA(MIMCA)进行多重插补需要估计少量参数。它允许用户输入大量数据集。特别是,对于MIMCA来说,每个变量的类别数量多、变量数量多或个体数量少都不是问题。通过基于真实数据集的模拟研究,对该方法进行了评估,并与参考方法进行了比较(使用对数线性模型进行多重插补,使用逻辑回归进行多重插拔)以及关于该主题的最新著作(通过随机森林或通过多项分布模型乘积的Dirichlet过程混合进行多重插补)。该方法提供了所考虑分析模型参数的良好点估计,例如主效应logistic回归模型的系数,以及估计值变异性的可靠估计。此外,与其他多重插补方法相比,MIMCA具有在高维数据集上花费更少时间的巨大优势。

MSC公司:

62H25个 因子分析和主成分;对应分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.:分类数据分析。概率统计威利级数。威利,纽约(2013)·Zbl 1281.62022号
[2] Agresti,A.,Coull,B.A.:对于二项式比例的区间估计,近似比“精确”更好。《美国统计》52(2),119-126(1998)。doi:10.2307/2685469·电话:10.2307/2685469
[3] Albert,A.,Anderson,J.A.:关于逻辑回归模型中最大似然估计的存在性。《生物特征》71(1),1-10(1984)。doi:10.2307/2336390·Zbl 0543.62020号 ·doi:10.2307/2336390
[4] Allison,P.D.:通过最大可能性处理缺失数据。摘自:SAS全球论坛,第1-21页(2012年)
[5] Allison,P.D.:缺失数据。《千橡树圣人》(2002)·Zbl 1140.62354号 ·数字对象标识代码:10.4135/9781412985079
[6] 应用数学系,Agrocampus O,France(2010)galetas数据集。http://math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/74258_galetas.txt
[7] Audigier,V.,Husson,F.,Josse,J.:使用贝叶斯主成分分析对连续变量进行多重插补。J.统计计算。模拟。(2014). doi:10.1080/0949655.2015.1104683·Zbl 1505.62485号
[8] Audigier,V.,Husson,F.,Josse,J.:一种用于插补混合数据缺失值的主成分方法。高级数据分析。分类。7, 1-22 (2014)
[9] Barnard,J.,Rubin,D.B.:具有多重插补的小样本自由度。《生物特征》86,948-955(1999)·Zbl 0942.62025号 ·doi:10.1093/biomet/86.4.948
[10] Bartlett,J.W.,Seaman,S.R.,White,I.R.,Carpenter,J.R.:通过完全条件规范对协变量进行多重插补:适应实质模型。统计方法。《医学研究》24,462(2014)·doi:10.1177/0962280214521348
[11] Benzécri,J.P.:《多纳分析》。L'analyse des données酒店。汤姆二世:L'analyse des correspondances。Dunod(1973)·兹比尔0297.62039
[12] Bernaards,C.A.、Belin,T.R.、Schafer,J.L.:不完全二进制数据插补的多元正态近似的稳健性。Stat.Med.26(6),1368-1382(2007)·数字对象标识代码:10.1002/sim.2619
[13] Besag,J.:晶格系统的空间相互作用和统计分析。J.R.统计社会服务。B(方法学)36(2),192(1974)·Zbl 0327.60067号
[14] Brand,J.P.L.,van Buuren,S.,Groothuis Oudshoorn,K.,Gelsema,E.S.:用于评估多种插补方法的sas工具包。内尔统计局。57(1), 36-45 (2003). doi:10.1111/1467-9574.00219·doi:10.1111/1467-9574.00219
[15] Candès,E.J.,Tao,T.:凸松弛的力量:近优矩阵完成。IEEE传输。《信息论》56(5),2053-2080(2009)。doi:10.1109/TIT.2010.2044061·Zbl 1366.15021号 ·doi:10.1109/TIT.2010.2044061
[16] Carpenter,J.R.、Goldstein,H.、Kenward,M.G.:REALCOM-IMPUTE软件,用于混合反应类型的多级多重插补。J.统计软件。45(5), 1-14 (2011), http://www.jstatsoft.org/v45/i05 ·Zbl 1366.15021号
[17] Carpenter,J.,Kenward,M.:多重插补及其应用,第1版。奇切斯特·威利(2013)·兹比尔1352.62008 ·doi:10.1002/9781119942283
[18] 道森,R.J.M.:重新审视了“不寻常事件”数据。统计教育杂志3,1-7,http://www.amstat.org/publications/jse/v3n3/datasets.dawson.html (1995)
[19] Demirtas,H.:多重插补二进制数据的舍入策略。生物。J.51(4),677-688(2009)·Zbl 1442.62334号 ·doi:10.1002/bimj.200900018
[20] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过em算法获得不完整数据的最大似然。J.R.Stat.Soc.B 39,1-38(1977年)·Zbl 0364.62022号
[21] Doove,L.L.,Van Buuren,S.,Dusseldorp,E.:存在交互效应时缺失数据插补的递归分区。计算。统计数据分析。72, 92-104 (2014). doi:10.1016/j.csda.2013.10.025·Zbl 1506.62056号 ·doi:10.1016/j.csda.2013.10.025文件
[22] Dunson,D.B.,Xing,C.:多元分类数据的非参数Bayes建模。《美国统计协会期刊》104(487),1042-1051(2009)·Zbl 1388.62151号 ·doi:10.1198/jasa.2009.tm08439
[23] Eckart,C.,Young,G.:一个矩阵与另一个低秩矩阵的近似。《心理测量学》1(3),211-218(1936)·doi:10.1007/BF02288367
[24] Gavish,M.,Donoho,D.:奇异值的最佳收缩。arXiv:1405.7511电子版(214)·Zbl 1366.94100号
[25] Gelman,A.、Hill,J.、Su,Y.、Yajima,M.、Grazia Pittau,M.和Goodrich,B.、Si,Y.:mi:缺失数据插补和模型检查。R包版本0.9-93(2013)
[26] Gifi,A.:非线性多元分析。D.S.W.O.出版社,莱顿(1981)·Zbl 0697.62048号
[27] 葛兰素史克公司,加拿大安大略省多伦多市:血压数据集。http://www.math.yorku.ca/Who/Faculty/Ng/ssc2003/BMainF.htm (2003)
[28] Greenacre,M.J.:对应分析的理论与应用。伦敦学术出版社(1984)·Zbl 0555.62005号
[29] Greenacre,M.J.,Blasius,J.:多重对应分析及相关方法。Chapman&Hall/CRC,博卡拉顿(2006)·Zbl 1277.62156号 ·doi:10.1201/9781420011319
[30] Harding,T.、Tusell,F.、Schafer,J.L.:目录:缺失值的分类变量数据集分析。http://CRAN.R-project.org/package=cat,r包版本0.0-6.5(2012)
[31] Honaker,J.、King,G.、Blackwell,M.:Amelia II:缺失数据程序。R包版本1.7.2(2014)
[32] Honaker,J.、King,G.、Blackwell,M.:Amelia II:缺失数据程序。J.统计软件。45(7), 1-47 (2011) ·doi:10.18637/jss.v045.i07
[33] Husson,F.,Josse,J.:missMDA:用多元数据分析处理缺失值。http://CRAN.R-project.org/package=missMDA,r包版本1.9(2015)·Zbl 1316.62006年
[34] Ishwaran,H.,James,L.:破胶前期的吉布斯取样方法。《美国法律总汇》第96卷第453页,第161-173页(2001年)·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[35] Josse,J.,Chavent,M.,Liquet,B.,Husson,F.:用正则化迭代多重对应分析处理缺失值。J.分类。29, 91-116 (2012) ·Zbl 1360.62306号 ·doi:10.1007/s00357-012-9097-0
[36] Josse,J.,Husson,F.:使用交叉验证近似值选择主成分分析中的成分数量。计算。统计数据分析。56(6), 1869-1879 (2011) ·Zbl 1243.62082号 ·doi:10.1016/j.csda.2011.11.012
[37] Josse,J.,Husson,F.:错失了一个处理多元数据分析方法中缺失值的包。J.统计软件。25, 1 (2015)
[38] Josse,J.,Sardy,S.:奇异值的自适应收缩。统计计算。71, 1-10 (2015) ·Zbl 1505.62207号
[39] Karatzoglou,A.,Smola,A.,Hornik,K.,Zeileis,A.:内核——R.J.Stat.Softw中内核方法的S4包。11(9):1-20, http://www.jstatsoft.org/v11/i09/ (2004)
[40] King,G.,Honaker,J.,Joseph,A.,Scheve,K.:分析不完整的政治科学数据:多重插补的替代算法。美国政治科学。版本95(1),49-69(2001)
[41] Lebart,L.,Morineau,A.,Werwick,K.M.:多元描述性统计分析。纽约威利(1984)·Zbl 0658.62069号
[42] Lichman,M.:UCI机器学习库。http://archive.ics.uci.edu/ml (2013) ·Zbl 1506.62056号
[43] Little,R.J.A.,Rubin,D.B.:缺失数据的统计分析。《概率统计中的威利级数》,威利,纽约(19872002)·Zbl 0665.62004号
[44] Meinfelder,F.,Schnapp,T.:BaBooN:贝叶斯自举预测均值匹配——离散数据的多重和单一插补。https://CRAN.R-project.org/package=BaBooN,r包版本0.2-0(2015)·Zbl 1366.15021号
[45] Meng,X.L.,Rubin,D.B.:使用EM获得渐近方差-协方差矩阵:SEM算法。《美国法律总汇汇编》第86(416)、899-909页(1991)·doi:10.1080/01621459.1991.10475130
[46] Nishisato,S.:分类数据分析:双尺度及其应用。多伦多大学出版社,多伦多(1980)·Zbl 0487.62001号
[47] Quartagno,M.,Carpenter,J.:jomo:多级联合建模多重插补软件包。http://CRAN.R-project.org/package=jomo(2015年)
[48] R核心团队:R:统计计算的语言和环境。R统计计算基金会,维也纳,网址:http://www.R-project.org/ (2014) ·Zbl 0327.60067号
[49] Rousseauw,J.,du Plessis,J.、Benade,A.、Jordann,P.、Kotze,J.和Jooste,P.,Ferreira,J.:三个农村社区的冠心病风险因素筛查。南非。《医学杂志》64,430-436(1983)
[50] 鲁宾,D.B.:调查中无回应的多重插补。威利,纽约(1987)·2007年6月10日 ·数字对象标识代码:10.1002/9780470316696
[51] Schafer,J.L.:不完全多元数据分析。查普曼和霍尔/CRC,伦敦(1997)·Zbl 0997.62510号 ·doi:10.1201/9781439821862
[52] Schafer,J.L.:当插补和分析模型不同时,多变量问题中的多重插补。内尔统计局。57(1), 19-35 (2003) ·doi:10.1111/1467-9574.00218
[53] Seaman,S.R.、Bartlett,J.W.、White,I.R.:具有非线性效应和相互作用的缺失协变量的多重插补:统计方法的评估。BMC医学研究方法。12(1), 46 (2012). doi:10.1186/1471-2288-12-46·doi:10.1186/1471-2288-12-46
[54] Shabalin,A.,Nobel,B.:高斯噪声中低阶矩阵的重建。J.多变量。分析。118, 67-76 (2013) ·Zbl 1280.15022号 ·doi:10.1016/j.jmva.2013.03.005
[55] Shah,A.D.、Bartlett,J.W.、Carpenter,J.、Nicholas,O.、Hemingway,H.:使用MICE插补缺失数据的随机森林和参数插补模型的比较:一项CALIBER研究。美国流行病学杂志。179(6), 764-774 (2014). doi:10.1093/aje/kwt312·doi:10.1093/aje/kwt312
[56] Si,Y.,Reiter,J.:大规模评估调查中不完全分类变量的非参数贝叶斯多重插补。J.教育。行为。《统计》第38卷,第499-521页(2013年)·数字对象标识代码:10.3102/1076998613480394
[57] Stekhoven,D.J.,Bühlmann,P.:混合型数据的森林非参数缺失值插补。生物信息学28(1),112-118(2012)·doi:10.1093/bioinformatics/btr597
[58] Tenenhaus,M.,Young,F.W.:多重对应分析、最优标度、双重标度、同质性分析和其他量化分类多变量数据方法的分析和综合。《心理测量学》50,91-119(1985)·Zbl 0585.62104号 ·doi:10.1007/BF02294151
[59] Van Buuren,S.,Groothuis-Oudshoorn,K.:老鼠。R程序包版本2.22(2014)
[60] Van Buuren,S.、Brand,J.P.L.、Groothuis-Oudshoorn,C.G.M.、Rubin,D.B.:多元插补中的完全条件规范。J.统计计算。模拟。76, 1049-1064 (2006) ·Zbl 1144.62332号 ·网址:10.1080/10629360600810434
[61] Van Buuren,S.:缺失数据的灵活插补(Chapman&Hall/CRC跨学科统计),第1版。查普曼和霍尔/CRC,博卡拉顿(2012)·Zbl 1256.62005年 ·doi:10.1201/b11826
[62] Van Buuren,S.,Groothuis-Oudshoorn,C.G.M.:小鼠:R.J.Stat.Softw中链式方程的多元插补。45(3),1-67(2011)·doi:10.18637/jss.v045.i03
[63] Van der Heijden,P.,Escofier,B.:对应分析:recherches au coeur de l'Analyse des donnees,Presses universitiaes de Rennes,Rennes(法国雷恩出版社),第152-170页(2003)
[64] van der Palm,D.,van der Ark,L.,Vermunt,J.:分类数据的不完全数据方法的比较。统计方法医学研究17、33(2014)
[65] Verbanck,M.、Josse,J.、Husson,F.:正则主成分分析(Regularized PCA),用于去噪和可视化数据。统计计算。25(2), 471-486 (2013). doi:10.1007/s11222-013-9444-y·Zbl 1331.62298号 ·doi:10.1007/s11222-013-9444-y
[66] Vermunt,J.K.,van Ginkel,J.R.,van der Ark,L.A.,Sijtsma,K.:使用潜在类别分析对不完整分类数据进行多重插补。社会学。Methodol公司。38(38), 369-397 (2008) ·文件编号:10.1111/j.1467-9531.2008.00202.x
[67] Vidotto,D.、Kapteijn,M.C.、Vermunt,J.:使用潜在类别模型对缺失的分类数据进行多重插补:最新发展水平。心理学。测试评估。模型。57, 542 (2014)
[68] Yucel,R.M.,He,Y.,Zaslavsky,A.M.:使用校准改进插补中的四舍五入。《美国统计》第62卷第125-129页(2008年)·doi:10.1198/000313008X300912
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。