×

使用贝叶斯主成分分析对连续变量进行多重插补。 (英语) Zbl 1510.62262号

摘要:我们提出了一种基于主成分分析(PCA)的多重插补方法来处理不完整的连续数据。为了反映从一个插补到下一个插口的参数的不确定性,我们使用了主成分分析模型的贝叶斯处理。使用模拟研究和实际数据集,将该方法与两种经典方法进行了比较:基于联合建模和基于完全条件建模的多重插补。与其他方法相反,当个体数量小于变量数量并且变量高度相关时,所提出的方法可以很容易地用于数据集。此外,它提供了对感兴趣的量的无偏点估计,例如期望、回归系数或相关系数,具有较小的均方误差。此外,在确保有效覆盖范围的同时,为感兴趣数量建立的置信区间的宽度通常较小。

MSC公司:

62H25个 因子分析和主成分;对应分析
2015年1月62日 贝叶斯推断
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Dempster AP、Laird NM、Rubin DB。通过em算法从不完整数据中获得最大似然。J R Stat Soc B.1977年;第39:1-38页。[谷歌学者]·Zbl 0364.62022号
[2] X-L Meng,鲁宾数据库。使用EM获得渐近方差-方差矩阵:SEM算法。J Amer统计协会,1991年;86(416):899-909. doi:10.1080/01621459.1991.10475130[Taylor&Francis Online],[Web of Science®],[Google学者]
[3] 鲁宾数据库。调查中无应答的多重插补。纽约:Wiley;1987.【Crossref】,【谷歌学者】
[4] 小RJA,鲁宾DB。缺失数据的统计分析。伦敦:概率和统计学中的威利系列。1987, 2002. [谷歌学者]·Zbl 0665.62004号
[5] 谢弗JL。不完全多元数据分析。伦敦:查普曼和霍尔/CRC;1997.[交叉引用],[谷歌学者]·兹比尔0997.62510
[6] Van Buuren S、Brand JPL、Groothuis-Oudshoorn CGM、Rubin DB。多元插补中的完全条件规范。J统计计算模拟。2006;76:1049-1064. doi:10.1080/10629360600810434[Taylor&Francis Online],[Web of Science®],[Google学者]·兹比尔1144.62332
[7] Besag J.空间相互作用和晶格系统的统计分析。J R Stat Soc Ser B方法。1974;36(2):192-236. [谷歌学者]·Zbl 0327.60067号
[8] Liu J,Gelman A,Hill J,Su YS,Kropko J.关于迭代插补的平稳分布。Biometrika公司。2014;101(1):155-173。doi:10.1093/biomet/ast044[Crossref],[Web of Science®],[Google学者]·Zbl 1285.62058号
[9] Kropko J、Goodrich B、Gelman A和Hill J。连续和分类数据的多重插补:比较联合和条件方法。政治分析。2014;22(4):497-519. doi:10.1093/pan/mpu007[Crossref],[Google学者]
[10] Josse J,Husson F.探索性多元数据分析方法中缺失值的处理。法国统计学会J。2012;153(2):1-21。[谷歌学者]·Zbl 1316.62006年
[11] 因果窦H。主成分分析的模型和应用(与讨论)。多维数据分析。莱顿:DSWO出版社;1986年,第149-178页。[谷歌学者]
[12] Candès EJ,Tao T.凸松弛的威力:近最优矩阵完成。IEEE传输信息理论。2009;56(5):2053-2080. doi:10.1109/TIT.2010.2044061[Crossref],[Web of Science®],[Google学者]·Zbl 1366.15021号
[13] Shabalin AA,Nobel AB。高斯噪声下低阶矩阵的重建。《多元分析杂志》。2013;118:67-76. doi:10.1016/j.jmva.2013.03.005[Crossref],[Web of Science®],[Google学者]·Zbl 1280.15022号
[14] Verbanck M,Josse J,Husson F.正则化主成分分析来对数据进行去噪和可视化。统计计算。2013;25(2):1-16. [谷歌学者]·Zbl 1331.62298号
[15] Josse J,Sardy S.奇异值的自适应收缩。统计计算。2015;1-10. 可从http://link.springer.com/article/10.1007 ·Zbl 1505.62207号
[16] Huet S,Denis J-B,Adamczyk K.非线性回归模型中当观测数固定且方差趋于0时的Bootstrap置信区间。二元相加模型的应用。统计。1999;32:203-227. doi:10.1080/02331889908802664[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0916.62046号
[17] 基尔HAL。使用普通最小二乘算法的加权最小二乘拟合。心理测量学。1997;62:251-266. doi:10.1007/BF02295279[Crossref],[Web of Science®],[Google学者]·Zbl 0873.62058号
[18] Efron B,Morris C.矢量观测的经验贝叶斯:Stein方法的扩展。Biometrika公司。1972;59(2):335-347. doi:10.1093/biomet/59.2:35[Crosref],[Web of Science®],[谷歌学者]·Zbl 0238.62072号
[19] Tanner MA、Wong WH。通过数据增强计算后验分布。J Amer统计协会,1987年;82:805-811. [谷歌学者]·Zbl 0619.62029号
[20] Jolliffe IT。主成分分析。纽约:Springer;2002.[谷歌学者]·Zbl 1011.62064号
[21] R兄弟、K杰尔达尔·K、Smiled AK、Kiers HAL。组件模型的交叉验证:对当前方法的批判性研究。Ana Bioanal化学。2008;390:1241-1251. doi:10.1007/s00216-007-1790-1[Crossref],[PubMed],[Web of Science®],[Google学者]
[22] Josse J,Husson F.使用交叉验证近似值选择主成分分析中的成分数量。计算统计数据分析。2011;56(6):1869-1879. doi:10.1016/j.csda.2011.11.012[Crosref],[Web of Science®],[谷歌学者]·Zbl 1243.62082号
[23] Van Buuren S.缺失数据的灵活插补(Chapman&Hall/CRC跨学科统计)。第1版博卡拉顿:查普曼和霍尔/CRC;2012.【Crossref】,【谷歌学者】·Zbl 1256.62005年
[24] Marshall A、Altman DG、Holder RL、Royston P。多重插补后对预测模型研究的兴趣评估:当前实践和指南。BMC医学研究方法。2009;9(5):57. 可从http://www.biomedcentral.com/1471-2288/9/57/citation。doi:10.1186/1471-2288-9-57[Crossref],[PubMed],[Web of Science®],[Google学者]
[25] Barnard J,Rubin数据库。具有多重插补的小样本自由度。Biometrika公司。1999;86:948-955. doi:10.1093/biomet/86.4.948[Crossref],[Web of Science®],[Google学者]·Zbl 0942.62025号
[26] R核心团队。R: 用于统计计算的语言和环境。R统计计算基金会;奥地利维也纳;2014; 可从以下位置获得:http://www.R-project.org。[谷歌学者]
[27] Honaker J、King G、Blackwell M.Amelia ii:缺失数据程序。R包版本1.7.2;2014.[谷歌学者]
[28] Honaker J、King G、Blackwell M、Amelia II。用于查找丢失数据的程序。J统计软件。2011;45(7):1-47. doi:10.18637/jss.v045.i07[Crossref],[Web of Science®],[Google学者]
[29] Van Buuren S.小鼠。R Package版本2.18;2014.[谷歌学者]
[30] Van Buuren S,Groothuis-Audshoorn CGM。小鼠:R.J Statist Softw中链式方程的多元插补。2011;45(3):1-67. [Web of Science®],[Google学者]
[31] Honaker J,King G.如何处理时间序列横截面数据中的缺失值。美国政治科学杂志。2010;54:561-581. doi:10.1111/j.1540-5907.2010.00447.x[Crossref],[Web of Science®],[Google学者]
[32] Harry J.基于部分相关生成随机相关矩阵。《多元分析杂志》。2006;97(10):2177-2189。doi:10.1016/j.jmva.2005.05.010[Crossref],[Web of Science®],[Google学者]·兹比尔1112.62055
[33] 邱伟,乔·H·聚类生成:随机聚类生成(具有指定的分离度)。R包1.3.1版;2013.[谷歌学者]·Zbl 1336.62189号
[34] Bertin-Mahieux T、Ellis D、Whitman B、Lamere P。百万首歌曲数据集。第十二届国际音乐信息检索会议论文集(ISMIR 2011);2011.[谷歌学者]
[35] Husson F、Josse J、Le S、Mazet J.Factominer:使用r.r Package 1.25版进行多元探索性数据分析和数据挖掘;2013年。可从以下网址获得:http://CRAN.R-project.org/package=FactoMineR[谷歌学者]
[36] Wille A,Zimmermann P,Vranova E等。拟南芥类异戊二烯基因网络的稀疏图形高斯建模。基因组生物学。2004;5(11):R92。doi:10.1186/gb-2004-5-11-r92[Crossref],[PubMed],[Web of Science®],[Google学者]
[37] Corillon PA、Guyader A、Husson F等人R用于统计。雷恩:查普曼和霍尔/CRC计算机科学与数据分析;2012.[谷歌学者]
[38] Seaman SR,Bartlett JW,White IR。具有非线性效应和相互作用的缺失协变量的多重插补:统计方法的评估。BMC医学研究方法。2012;12(1):46. 可从http://www.biomedcentral.com/1471-2288/12/46/citation网站doi:10.1186/1471-2288-12-46[Crossref],[PubMed],[Web of Science®],[Google学者]
[39] Bartlett JW,Seaman SR,White IR,Carpenter JR。通过完全条件规范对协变量进行多重插补:适应实质性模型。ArXiv电子打印;2013年修订。[谷歌学者]
[40] Greenacre M,Blasius J.多重对应分析及相关方法。博卡拉顿:查普曼和霍尔/CRC;2006.【Crossref】,【谷歌学者】·Zbl 1277.62156号
[41] 基尔斯哈尔。定性和定量变量混合的成分分析技术的简单结构。心理测量学。1991;56:197-212. doi:10.1007/BF02294458[Crossref],[Web of Science®],[Google学者]·Zbl 0850.62461号
[42] Pagès J.使用r.Chapman&Hall/CRC The r Series进行多因素分析。泰勒·弗朗西斯;2014年。可从以下网址获得:http://books.google.fr/books?id=EOxZngEACAAJ。[Crossref],[Google学者]
[43] Audigier V,Husson F,Josse J.一种用于插补混合数据缺失值的主成分方法。ArXiv电子打印;2013年修订。[谷歌学者]·Zbl 1414.62206号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。