×

一种基于序列距离的缺失数据插补方法:正向插补。 (英语) Zbl 1414.62220号

摘要:缺失数据会反复影响几乎所有定量研究领域的数据集。这一主题既广泛又复杂,并且产生了一种对这一问题的不同方法的丰富文献。在探索性框架内,基于距离的方法,如最近邻插补(NNI),或涉及多元数据分析(MVDA)技术的程序,似乎可以正确地处理这个问题。在NNI中,指标和捐赠者数量可以随意选择。基于MVDA的程序明确说明了变量关联。这里提出的新方法称为正向插补,理想地满足了这些特征。它被设计为一个顺序程序,在一个逐步的过程中,根据单元子集的“完整率”插补缺失的数据。在这一背景下,为定量数据的插补开发了两种方法。一种是利用马氏距离进行NNI,另一种是将NNI与主成分分析相结合。讨论了这两种方法的统计特性,并对其性能进行了评估,还与其他插补方法进行了比较。为此,对不同数据模式进行了仿真研究,并将其应用于实际数据,同时也为用户提供了实用的提示。

MSC公司:

62H25个 因子分析和主成分;对应分析
62-07 数据分析(统计)(MSC2010)
62-04 统计相关问题的软件、源代码等
62小时99 多元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Atkinson AC、Riani M、Cerioli A(2004)《使用正向搜索探索多元数据》。纽约州施普林格·Zbl 1049.62057号 ·数字对象标识代码:10.1007/978-0-387-21840-3
[2] Azzalini A(2015)R包“sn”:偏斜正态分布和偏斜-t分布(1.2-4版)。http://azzalini.stat.unipd.it/SN
[3] Azzalini A,Capitanio A(1999)多元正态分布的统计应用。J R Stat Soc B 61(3):579-602·Zbl 0924.62050号 ·doi:10.1111/1467-9868.00194
[4] Azzalini A,Dalla Valle A(1996)多元偏态正态分布。生物特征83(4):715-726·Zbl 0885.62062号 ·doi:10.1093/biomet/83.4.715
[5] Breiman L(2001)《随机森林》。马赫数学习45:5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[6] Cox TF,Cox MAA(2001)多维标度,第2版。查普曼和霍尔/CRC,博卡拉顿·兹比尔1004.91067
[7] Ferrari PA,Annoni P,Barbiero A,Manzi G(2011)分类变量的插补方法及其在非线性主成分分析中的应用。计算统计数据分析55:2410-2420·Zbl 1328.65028号 ·doi:10.1016/j.csda.2011.02.007
[8] 高尔,JC;Armitage,P.(编辑);Colton,T.(编辑),主坐标分析(2005),纽约
[9] Greenacre M(1984)对应分析的理论与应用。伦敦学术出版社·兹伯利0555.62005
[10] Groves RM、Dillman DA、Eltinge JL、Little RJA(2002)调查无回应。纽约威利·Zbl 0976.00027号
[11] Hastie T、Tibshirani R、Friedman J(2009)《统计学习的要素》。数据挖掘、推理和预测,第2版。纽约州施普林格·Zbl 1273.62005年
[12] Hollander M,Wolfe DA(1999)非参数统计方法,第2版。Wiley-Interscience,纽约·Zbl 0997.62511号
[13] Husson F,Josse J(2015)missMDA:用多元数据分析(主成分法)处理缺失值。R软件包版本1.8.2。http://CRAN.R-project.org/package=missMDA ·Zbl 1316.62006年
[14] Josse J、Pagès J、Husson F(2011)《主成分分析中的多重插补》。高级数据分析类5:231-246·兹比尔1274.62409 ·doi:10.1007/s11634-011-0086-7
[15] Little RJA,Rubin DB(2002),缺失数据的统计分析,第2版。纽约威利·Zbl 1011.62004号
[16] Mardia KV(1970)多元偏度和峰度的测量及其应用。生物特征57(3):519-530·Zbl 0214.46302号 ·doi:10.1093/biomet/57.3.519
[17] Nora-Chouteau C(1974)《不完整的重建和分析方法》。皮埃尔和玛丽·居里大学博士论文
[18] R核心团队(2015)R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。网址:http://www.R-project.org
[19] Rässler S,Rubin DB,Zell ER(2013)《有罪不罚》。Wiley Interdiscip Rev Compute Stat 5(1):20-29。doi:10.1002/wics.1240·doi:10.1002/wics.1240
[20] Rousseeuw PJ,Leroy AM(1987)稳健回归和异常值检测。纽约威利·Zbl 0711.62030号 ·doi:10.1002/0471725382
[21] Schafer JL(1997)不完全多元数据分析。查普曼和霍尔/CRC,伦敦·兹比尔0997.62510 ·doi:10.1201/9781439821862
[22] Solaro N、Barbiero A、Manzi G、Ferrari PA(2014)不同数据结构的算法类型插补技术:比较中的替代方法。收录:Vicari D、Okada A、Ragozini G、Weihs C(编辑)行为科学和社会科学中复杂数据的分析和建模。学习分类、数据分析和知识组织。施普林格国际出版公司,查姆,第253-261页
[23] Solaro N、Barbiero A、Manzi G、Ferrari PA(2015a)《正向插补的综合模拟研究》。工作文件\[2015\_\]_4,意大利米兰大学。https://ideas.repec.org/p/mil/wpdepa/2015-04.html ·Zbl 07192731号
[24] Solaro N,Barbiero A,Manzi G,Ferrari PA(2015b)GenForImp:一种基于距离的序列方法,用于插补缺失数据。R软件包版本1.0.0。http://CRAN.R-project.org/package=GenForImp ·Zbl 1414.62220号
[25] Stekhoven DJ(2013)。missForest:使用随机森林的非参数缺失值插补。R包版本1.4。http://CRAN.R-project.org/package=missForest
[26] Stekhoven DJ,Bühlmann P(2012)MissForest-混合型数据的非参数缺失值插补。生物信息学28(1):112-118·doi:10.1093/bioinformatics/btr597
[27] Tarsitano A,Falcone M(2010)混合型数据的缺失值调整。2010年第15号工作文件,意大利卡拉布里亚大学。https://ideas.repec.org/p/clb/wpaper/201015.html ·Zbl 1229.62039号
[28] Wasito I,Mirkin B(2005),最小二乘数据插补算法中的最近邻法。信息科学169(1):1-25·Zbl 1084.62043号 ·doi:10.1016/j.ins.2004.02.014
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。