×

在存在多种数据模式的情况下,定量数据插补方法的模拟比较。 (英语) Zbl 07192731号

摘要:通过模拟进行了广泛的调查,目的是在存在多种数据模式的情况下比较三种非参数、单一插补方法。最终目标是为用户提供有用的提示,让他们能够快速从以下几种插补方法中选择最有效的插补方法:ForImp的两种变体中考虑了前向插补(ForImp)和主成分分析(PCA),后者交替使用PCA和最近邻插补(NNI)方法,顺序程序,以及ForImp与马氏距离,其中涉及在执行NNI时使用马氏距离;迭代PCA技术,通过PCA同时输入缺失值;missForest方法,它基于随机森林,是为混合类型数据开发的。在以不同峰度或偏斜度和相关结构为特征的几种数据模式下,比较了这些方法的性能。

MSC公司:

62H25个 因子分析和主成分;对应分析
62-07 数据分析(统计)(MSC2010)
62-04 统计相关问题的软件、源代码等
62小时99 多元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Efron B.Bootstrap方法:再看一下折刀。Ann Stat.1979;7(1):1-26. doi:10.1214/aos/1176344552[Crossref],[Web of Science®],[Google学者]·Zbl 0406.62024号
[2] 小RJA,鲁宾DB。缺失数据的统计分析。第二版,纽约:威利;2002.【Crossref】,【谷歌学者】·Zbl 1011.62004号
[3] 谢弗JL。不完全多元数据分析。伦敦:查普曼和霍尔/CRC;1997.[交叉引用],[谷歌学者]·Zbl 0997.62510号
[4] Molenberghs G,Kenward MG.临床研究中缺失数据。奇切斯特:威利;2007.【Crossref】,【谷歌学者】
[5] Haziza D.缺失数据下的插补和推断。收件人:Pfeffermann D,Rao CR,编辑。抽样调查:设计、方法和应用。第29页。北荷兰阿姆斯特丹:统计手册;2009年,第215-246页。[谷歌学者]
[6] Bello AL.不完全多元数据插补技术的选择:一项模拟研究。Commun Stat-Theor M.1993;22(3):853-877. doi:10.1080/03610929308831061[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0800.62344号
[7] Bello AL.线性二次和核判别分析中插补技术的模拟研究。J统计计算模拟。1993年;48((3-4)):167-180. doi:10.1080/00949659308811549[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0832.62055号
[8] Marella D,Scanu M,Conti PL.关于一些非参数插补程序的匹配噪声。统计概率出租。2008;78(12):1593-1600. doi:10.1016/j.spl.2008.01.020[Crosref],[Web of Science®],[谷歌学者]·Zbl 1325.62092号
[9] 宁静,程培华。非参数插补方法的比较研究。统计计算。2012;22(1):273-285. doi:10.1007/s1122-010-9223-y[Crossref],[Web of Science®],[Google学者]·Zbl 1322.62124号
[10] Tutz G,Ramzan S.用最近邻法改进缺失数据插补方法。计算统计数据分析。2015;90:84-99. doi:10.1016/j.csda.2015.04.009[Crossref],[Web of Science®],[Google学者]·Zbl 1468.62198号
[11] Ferrari PA,Annoni P,Barbiero A等。分类变量的插补方法及其在非线性主成分分析中的应用。计算统计数据分析。2011;55:2410-2420. doi:10.1016/j.csda.2011.02.007[Crossref],[Web of Science®],[Google学者]·Zbl 1328.65028号
[12] Solaro N、Barbiero A、Manzi G等,《基于距离的序列缺失数据插补方法:正向插补》。高级数据分析类。2017;11:395-414. doi:10.1007/s11634-016-0243-0[Crossref],[Web of Science®],[Google学者]·Zbl 1414.62220号
[13] Nora-Chouteau C.Une mémethode de reconstruction et d’analysis de données complete tes[论文]。巴黎:皮埃尔和玛丽·居里大学;1974.[谷歌学者]
[14] Greenacre M.对应分析理论与应用。伦敦:学术出版社;1984.[谷歌学者]·Zbl 0555.62005号
[15] Josse J、Pagès J、Husson F.《主成分分析中的多重插补》。高级数据分析类。2011;5:231-246. doi:10.1007/s11634-011-0086-7[Crossref],[Web of Science®],[Google学者]·Zbl 1274.62409号
[16] Stekhoven DJ、Bühlmann P.MissForest——混合型数据的非参数缺失值插补。生物信息学。2012;28(1):112-118. doi:10.1093/生物信息学/btr597[Crossref],[PubMed],[Web of Science®],[Google学者]
[17] 布雷曼L.随机森林。马赫学习。2001年;45:5-32. doi:10.1023/A:1010933404324[Crossref],[Web of Science®],[Google学者]·Zbl 1007.68152号
[18] Gómez E,Góme z-Villegas MA,Marin JM。幂指数分布族的多元推广。Commun Stat-Theor M.1998;27(3):589-600。doi:10.1080/03610929808832115[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0895.62053号
[19] Azzalini A,Capitanio A。多元斜态正态分布的统计应用。J R Stat Soc B.1999;61(3):579-602. doi:10.1111/1467-9868.00194[交叉引用],[谷歌学者]·Zbl 0924.62050号
[20] Azzalini A,Dalla Valle A。多元偏正态分布。生物特征。1996;83(4):715-726. doi:10.1093/biomet/83.4.715[Crossref],[Web of Science®],[Google学者]·Zbl 0885.62062号
[21] Mardia KV。多元偏度和峰度的测量及其应用。生物特征。1970;57(3):519-530。doi:10.1093/biomet/57.3.519[Crossref],[Web of Science®],[Google学者]·Zbl 0214.46302号
[22] Solaro N.多元指数功率分布的随机变量生成。统计应用程序。2004年;2(2):25-44. [谷歌学者]
[23] Azzalini A.Package'sn':偏态正态分布和相关分布,如偏态-2017-[R Package version 1.5-0]。可从以下位置获得:https://CRAN.R-project.org/package=sn。[谷歌学者]
[24] 赛伯GAF。多元观察。纽约:Wiley;1984.【Crossref】,【谷歌学者】·Zbl 0627.62052号
[25] 凯撒HF。一种衡量平均相互关系的指标。教育心理测量。1968;28:245-247. doi:10.1177/001316446802800203[Crossref],[Web of Science®],[Google学者]
[26] Solaro N、Barbiero A、Manzi G等,“GenForImp”软件包:正向插补——一种基于序列距离的缺失数据插补方法。2015年-[R软件包版本1.0.0]。可从以下位置获得:http://CRAN.R-project.org/package=GenForImp。[谷歌学者]·Zbl 1414.62220号
[27] Husson F,Josse J.“missMDA”包:用多元数据分析处理缺失值。2017年-[R包版本1.11]。可从以下位置获得:http://CRAN.R-project.org/package=missMDA。[谷歌学者]·Zbl 1316.62006年
[28] Stekhoven DJ。“missForest”包:使用随机森林的非参数缺失值插补。2016-[R包版本1.4]。可从以下位置获得:http://CRAN.R-project.org/package=missForest。[谷歌学者]
[29] Hochberg Y,Tamhane AC。多种比较程序。纽约:Wiley;1987.【Crossref】,【谷歌学者】·Zbl 0731.62125号
[30] Hollander M,Wolfe DA。非参数统计方法。第二版,纽约:Wiley;1999.[谷歌学者]·Zbl 0997.62511号
[31] Solaro N、Barbiero A、Manzi G等,不同数据结构的算法型插补技术:比较中的替代方法。收件人:Vicari D、Okada A、Ragozini G、Weihs C,编辑。行为科学和社会科学中复杂数据的分析和建模。分类、数据分析和知识组织研究。商会(CH):施普林格国际出版社;2014年,第253-261页。[谷歌学者]
[32] Solaro N,Barbiero A,Manzi G,et al.正向插补的综合模拟研究。米兰(IT):米兰大学;2015年。(DEMM工作文件;编号:2015-04)。可从以下位置获得:https://ideas.repec.org/p/mil/wpdepa/2015-04.html。[谷歌学者]
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。