文件Zbl 1505.62485-zbMATH打开

MIMCA：利用多重对应分析对分类变量进行多重插补。（英语） Zbl 1505.62485号

统计计算。 27，第2期，501-518（2017）.

摘要：我们提出了一种多重插补方法来处理不完整的分类数据。该方法使用专门用于分类数据的主成分方法：多重对应分析（MCA）来插补缺失条目。插补模型参数的不确定性通过非参数自举法反映出来。由于MCA的降维特性，使用MCA（MIMCA）进行多重插补需要估计少量参数。它允许用户输入大量数据集。特别是，对于MIMCA来说，每个变量的类别数量多、变量数量多或个体数量少都不是问题。通过基于真实数据集的模拟研究，对该方法进行了评估，并与参考方法进行了比较（使用对数线性模型进行多重插补，使用逻辑回归进行多重插拔）以及关于该主题的最新著作（通过随机森林或通过多项分布模型乘积的Dirichlet过程混合进行多重插补）。该方法提供了所考虑分析模型参数的良好点估计，例如主效应logistic回归模型的系数，以及估计值变异性的可靠估计。此外，与其他多重插补方法相比，MIMCA具有在高维数据集上花费更少时间的巨大优势。

引用于6文件

MSC公司：

62H25个	因子分析和主成分；对应分析
62-08	统计问题的计算方法

关键词：

缺少值;分类数据;多重插补;多重对应分析;引导数据库

软件：

错误MDA;科恩拉布;老鼠;猫;REALCOM公司;乔莫;惯性矩;BaBooN公司;miss森林;SAS/IML公司;阿梅利亚;UCI-毫升;R（右）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Agresti，A.：分类数据分析。概率统计威利级数。威利，纽约（2013）·Zbl 1281.62022号
[2]	Agresti，A.，Coull，B.A.：对于二项式比例的区间估计，近似比“精确”更好。《美国统计》52（2），119-126（1998）。doi:10.2307/2685469·电话：10.2307/2685469
[3]	Albert，A.，Anderson，J.A.：关于逻辑回归模型中最大似然估计的存在性。《生物特征》71（1），1-10（1984）。doi:10.2307/2336390·Zbl 0543.62020号 ·doi:10.2307/2336390
[4]	Allison，P.D.：通过最大可能性处理缺失数据。摘自：SAS全球论坛，第1-21页（2012年）
[5]	Allison，P.D.：缺失数据。《千橡树圣人》（2002）·Zbl 1140.62354号 ·数字对象标识代码：10.4135/9781412985079
[6]	应用数学系，Agrocampus O，France（2010）galetas数据集。http://math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/74258_galetas.txt
[7]	Audigier，V.，Husson，F.，Josse，J.：使用贝叶斯主成分分析对连续变量进行多重插补。J.统计计算。模拟。(2014). doi:10.1080/0949655.2015.1104683·Zbl 1505.62485号
[8]	Audigier，V.，Husson，F.，Josse，J.：一种用于插补混合数据缺失值的主成分方法。高级数据分析。分类。7, 1-22 (2014)
[9]	Barnard，J.，Rubin，D.B.：具有多重插补的小样本自由度。《生物特征》86，948-955（1999）·Zbl 0942.62025号 ·doi:10.1093/biomet/86.4.948
[10]	Bartlett，J.W.，Seaman，S.R.，White，I.R.，Carpenter，J.R.：通过完全条件规范对协变量进行多重插补：适应实质模型。统计方法。《医学研究》24，462（2014）·doi:10.1177/0962280214521348
[11]	Benzécri，J.P.：《多纳分析》。L'analyse des données酒店。汤姆二世：L'analyse des correspondances。Dunod（1973）·兹比尔0297.62039
[12]	Bernaards，C.A.、Belin，T.R.、Schafer，J.L.：不完全二进制数据插补的多元正态近似的稳健性。Stat.Med.26（6），1368-1382（2007）·数字对象标识代码：10.1002/sim.2619
[13]	Besag，J.：晶格系统的空间相互作用和统计分析。J.R.统计社会服务。B（方法学）36（2），192（1974）·Zbl 0327.60067号
[14]	Brand，J.P.L.，van Buuren，S.，Groothuis Oudshoorn，K.，Gelsema，E.S.：用于评估多种插补方法的sas工具包。内尔统计局。57(1), 36-45 (2003). doi:10.1111/1467-9574.00219·doi:10.1111/1467-9574.00219
[15]	Candès，E.J.，Tao，T.：凸松弛的力量：近优矩阵完成。IEEE传输。《信息论》56（5），2053-2080（2009）。doi:10.1109/TIT.2010.2044061·Zbl 1366.15021号 ·doi:10.1109/TIT.2010.2044061
[16]	Carpenter，J.R.、Goldstein，H.、Kenward，M.G.：REALCOM-IMPUTE软件，用于混合反应类型的多级多重插补。J.统计软件。45(5), 1-14 (2011), http://www.jstatsoft.org/v45/i05 ·Zbl 1366.15021号
[17]	Carpenter，J.，Kenward，M.：多重插补及其应用，第1版。奇切斯特·威利（2013）·兹比尔1352.62008 ·doi:10.1002/9781119942283
[18]	道森，R.J.M.：重新审视了“不寻常事件”数据。统计教育杂志3，1-7，http://www.amstat.org/publications/jse/v3n3/datasets.dawson.html (1995)
[19]	Demirtas，H.：多重插补二进制数据的舍入策略。生物。J.51（4），677-688（2009）·Zbl 1442.62334号 ·doi:10.1002/bimj.200900018
[20]	Dempster，A.P.，Laird，N.M.，Rubin，D.B.：通过em算法获得不完整数据的最大似然。J.R.Stat.Soc.B 39，1-38（1977年）·Zbl 0364.62022号
[21]	Doove，L.L.，Van Buuren，S.，Dusseldorp，E.：存在交互效应时缺失数据插补的递归分区。计算。统计数据分析。72, 92-104 (2014). doi:10.1016/j.csda.2013.10.025·Zbl 1506.62056号 ·doi:10.1016/j.csda.2013.10.025文件
[22]	Dunson，D.B.，Xing，C.：多元分类数据的非参数Bayes建模。《美国统计协会期刊》104（487），1042-1051（2009）·Zbl 1388.62151号 ·doi:10.1198/jasa.2009.tm08439
[23]	Eckart，C.，Young，G.：一个矩阵与另一个低秩矩阵的近似。《心理测量学》1（3），211-218（1936）·doi:10.1007/BF02288367
[24]	Gavish，M.，Donoho，D.：奇异值的最佳收缩。arXiv:1405.7511电子版（214）·Zbl 1366.94100号
[25]	Gelman，A.、Hill，J.、Su，Y.、Yajima，M.、Grazia Pittau，M.和Goodrich，B.、Si，Y.:mi：缺失数据插补和模型检查。R包版本0.9-93（2013）
[26]	Gifi，A.：非线性多元分析。D.S.W.O.出版社，莱顿（1981）·Zbl 0697.62048号
[27]	葛兰素史克公司，加拿大安大略省多伦多市：血压数据集。http://www.math.yorku.ca/Who/Faculty/Ng/ssc2003/BMainF.htm (2003)
[28]	Greenacre，M.J.：对应分析的理论与应用。伦敦学术出版社（1984）·Zbl 0555.62005号
[29]	Greenacre，M.J.，Blasius，J.：多重对应分析及相关方法。Chapman&Hall/CRC，博卡拉顿（2006）·Zbl 1277.62156号 ·doi:10.1201/9781420011319
[30]	Harding，T.、Tusell，F.、Schafer，J.L.：目录：缺失值的分类变量数据集分析。http://CRAN.R-project.org/package=cat，r包版本0.0-6.5（2012）
[31]	Honaker，J.、King，G.、Blackwell，M.：Amelia II：缺失数据程序。R包版本1.7.2（2014）
[32]	Honaker，J.、King，G.、Blackwell，M.：Amelia II：缺失数据程序。J.统计软件。45(7), 1-47 (2011) ·doi:10.18637/jss.v045.i07
[33]	Husson，F.，Josse，J.：missMDA：用多元数据分析处理缺失值。http://CRAN.R-project.org/package=missMDA，r包版本1.9（2015）·Zbl 1316.62006年
[34]	Ishwaran，H.，James，L.：破胶前期的吉布斯取样方法。《美国法律总汇》第96卷第453页，第161-173页（2001年）·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[35]	Josse，J.，Chavent，M.，Liquet，B.，Husson，F.：用正则化迭代多重对应分析处理缺失值。J.分类。29, 91-116 (2012) ·Zbl 1360.62306号 ·doi:10.1007/s00357-012-9097-0
[36]	Josse，J.，Husson，F.：使用交叉验证近似值选择主成分分析中的成分数量。计算。统计数据分析。56(6), 1869-1879 (2011) ·Zbl 1243.62082号 ·doi:10.1016/j.csda.2011.11.012
[37]	Josse，J.，Husson，F.：错失了一个处理多元数据分析方法中缺失值的包。J.统计软件。25, 1 (2015)
[38]	Josse，J.，Sardy，S.：奇异值的自适应收缩。统计计算。71, 1-10 (2015) ·Zbl 1505.62207号
[39]	Karatzoglou，A.，Smola，A.，Hornik，K.，Zeileis，A.：内核——R.J.Stat.Softw中内核方法的S4包。11(9):1-20, http://www.jstatsoft.org/v11/i09/ (2004)
[40]	King，G.，Honaker，J.，Joseph，A.，Scheve，K.：分析不完整的政治科学数据：多重插补的替代算法。美国政治科学。版本95（1），49-69（2001）
[41]	Lebart，L.，Morineau，A.，Werwick，K.M.：多元描述性统计分析。纽约威利（1984）·Zbl 0658.62069号
[42]	Lichman，M.：UCI机器学习库。http://archive.ics.uci.edu/ml (2013) ·Zbl 1506.62056号
[43]	Little，R.J.A.，Rubin，D.B.：缺失数据的统计分析。《概率统计中的威利级数》，威利，纽约（19872002）·Zbl 0665.62004号
[44]	Meinfelder，F.，Schnapp，T.：BaBooN：贝叶斯自举预测均值匹配——离散数据的多重和单一插补。https://CRAN.R-project.org/package=BaBooN，r包版本0.2-0（2015）·Zbl 1366.15021号
[45]	Meng，X.L.，Rubin，D.B.：使用EM获得渐近方差-协方差矩阵：SEM算法。《美国法律总汇汇编》第86（416）、899-909页（1991）·doi:10.1080/01621459.1991.10475130
[46]	Nishisato，S.：分类数据分析：双尺度及其应用。多伦多大学出版社，多伦多（1980）·Zbl 0487.62001号
[47]	Quartagno，M.，Carpenter，J.：jomo：多级联合建模多重插补软件包。http://CRAN.R-project.org/package=jomo（2015年）
[48]	R核心团队：R：统计计算的语言和环境。R统计计算基金会，维也纳，网址：http://www.R-project.org/ (2014) ·Zbl 0327.60067号
[49]	Rousseauw，J.，du Plessis，J.、Benade，A.、Jordann，P.、Kotze，J.和Jooste，P.，Ferreira，J.：三个农村社区的冠心病风险因素筛查。南非。《医学杂志》64，430-436（1983）
[50]	鲁宾，D.B.：调查中无回应的多重插补。威利，纽约（1987）·2007年6月10日 ·数字对象标识代码：10.1002/9780470316696
[51]	Schafer，J.L.：不完全多元数据分析。查普曼和霍尔/CRC，伦敦（1997）·Zbl 0997.62510号 ·doi:10.1201/9781439821862
[52]	Schafer，J.L.：当插补和分析模型不同时，多变量问题中的多重插补。内尔统计局。57(1), 19-35 (2003) ·doi:10.1111/1467-9574.00218
[53]	Seaman，S.R.、Bartlett，J.W.、White，I.R.：具有非线性效应和相互作用的缺失协变量的多重插补：统计方法的评估。BMC医学研究方法。12(1), 46 (2012). doi:10.1186/1471-2288-12-46·doi:10.1186/1471-2288-12-46
[54]	Shabalin，A.，Nobel，B.：高斯噪声中低阶矩阵的重建。J.多变量。分析。118, 67-76 (2013) ·Zbl 1280.15022号 ·doi:10.1016/j.jmva.2013.03.005
[55]	Shah，A.D.、Bartlett，J.W.、Carpenter，J.、Nicholas，O.、Hemingway，H.：使用MICE插补缺失数据的随机森林和参数插补模型的比较：一项CALIBER研究。美国流行病学杂志。179(6), 764-774 (2014). doi:10.1093/aje/kwt312·doi:10.1093/aje/kwt312
[56]	Si，Y.，Reiter，J.：大规模评估调查中不完全分类变量的非参数贝叶斯多重插补。J.教育。行为。《统计》第38卷，第499-521页（2013年）·数字对象标识代码：10.3102/1076998613480394
[57]	Stekhoven，D.J.，Bühlmann，P.：混合型数据的森林非参数缺失值插补。生物信息学28（1），112-118（2012）·doi:10.1093/bioinformatics/btr597
[58]	Tenenhaus，M.，Young，F.W.：多重对应分析、最优标度、双重标度、同质性分析和其他量化分类多变量数据方法的分析和综合。《心理测量学》50，91-119（1985）·Zbl 0585.62104号 ·doi:10.1007/BF02294151
[59]	Van Buuren，S.，Groothuis-Oudshoorn，K.：老鼠。R程序包版本2.22（2014）
[60]	Van Buuren，S.、Brand，J.P.L.、Groothuis-Oudshoorn，C.G.M.、Rubin，D.B.：多元插补中的完全条件规范。J.统计计算。模拟。76, 1049-1064 (2006) ·Zbl 1144.62332号 ·网址：10.1080/10629360600810434
[61]	Van Buuren，S.：缺失数据的灵活插补（Chapman&Hall/CRC跨学科统计），第1版。查普曼和霍尔/CRC，博卡拉顿（2012）·Zbl 1256.62005年 ·doi:10.1201/b11826
[62]	Van Buuren，S.，Groothuis-Oudshoorn，C.G.M.：小鼠：R.J.Stat.Softw中链式方程的多元插补。45（3），1-67（2011）·doi:10.18637/jss.v045.i03
[63]	Van der Heijden，P.，Escofier，B.：对应分析：recherches au coeur de l'Analyse des donnees，Presses universitiaes de Rennes，Rennes（法国雷恩出版社），第152-170页（2003）
[64]	van der Palm，D.，van der Ark，L.，Vermunt，J.：分类数据的不完全数据方法的比较。统计方法医学研究17、33（2014）
[65]	Verbanck，M.、Josse，J.、Husson，F.：正则主成分分析（Regularized PCA），用于去噪和可视化数据。统计计算。25(2), 471-486 (2013). doi:10.1007/s11222-013-9444-y·Zbl 1331.62298号 ·doi:10.1007/s11222-013-9444-y
[66]	Vermunt，J.K.，van Ginkel，J.R.，van der Ark，L.A.，Sijtsma，K.：使用潜在类别分析对不完整分类数据进行多重插补。社会学。Methodol公司。38(38), 369-397 (2008) ·文件编号：10.1111/j.1467-9531.2008.00202.x
[67]	Vidotto，D.、Kapteijn，M.C.、Vermunt，J.：使用潜在类别模型对缺失的分类数据进行多重插补：最新发展水平。心理学。测试评估。模型。57, 542 (2014)
[68]	Yucel，R.M.，He，Y.，Zaslavsky，A.M.：使用校准改进插补中的四舍五入。《美国统计》第62卷第125-129页（2008年）·doi:10.1198/000313008X300912

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！实验室	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

MIMCA：利用多重对应分析对分类变量进行多重插补。（英语） Zbl 1505.62485号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

MIMCA：利用多重对应分析对分类变量进行多重插补。 （英语） Zbl 1505.62485号

MSC公司：

关键词：

软件：

参考文献：

MIMCA：利用多重对应分析对分类变量进行多重插补。（英语） Zbl 1505.62485号