北卡罗来纳州索拉罗。;A.巴比罗。;G.Manzi。;宾夕法尼亚州法拉利。 在存在多种数据模式的情况下,定量数据插补方法的模拟比较。 (英语) Zbl 07192731号 J.统计计算。模拟 88,第18号,3588-3619(2018). 摘要:通过模拟进行了广泛的调查,目的是在存在多种数据模式的情况下比较三种非参数、单一插补方法。最终目标是为用户提供有用的提示,让他们能够快速从以下几种插补方法中选择最有效的插补方法:ForImp的两种变体中考虑了前向插补(ForImp)和主成分分析(PCA),后者交替使用PCA和最近邻插补(NNI)方法,顺序程序,以及ForImp与马氏距离,其中涉及在执行NNI时使用马氏距离;迭代PCA技术,通过PCA同时输入缺失值;missForest方法,它基于随机森林,是为混合类型数据开发的。在以不同峰度或偏斜度和相关结构为特征的几种数据模式下,比较了这些方法的性能。 引用于1文件 MSC公司: 62H25个 因子分析和主成分;对应分析 62-07 数据分析(统计)(MSC2010) 62-04 统计相关问题的软件、源代码等 62小时99 多元分析 关键词:正向插补;迭代主成分分析;马氏距离;miss森林;缺少数据;蒙特卡罗模拟;多元指数功率分布;多元偏正态分布;最近邻插补 软件:MDA错误;GenForImp公司;锡;miss森林 PDF格式BibTeX公司 XML格式引用 \textit{N.Solaro}等人,《统计计算杂志》。模拟88,No.18,3588--3619(2018;Zbl 07192731) 全文: 内政部 链接 参考文献: [1] Efron B.Bootstrap方法:再看一下折刀。Ann Stat.1979;7(1):1-26. doi:10.1214/aos/1176344552[Crossref],[Web of Science®],[Google学者]·Zbl 0406.62024号 [2] 小RJA,鲁宾DB。缺失数据的统计分析。第二版,纽约:威利;2002.【Crossref】,【谷歌学者】·Zbl 1011.62004号 [3] 谢弗JL。不完全多元数据分析。伦敦:查普曼和霍尔/CRC;1997.[交叉引用],[谷歌学者]·Zbl 0997.62510号 [4] Molenberghs G,Kenward MG.临床研究中缺失数据。奇切斯特:威利;2007.【Crossref】,【谷歌学者】 [5] Haziza D.缺失数据下的插补和推断。收件人:Pfeffermann D,Rao CR,编辑。抽样调查:设计、方法和应用。第29页。北荷兰阿姆斯特丹:统计手册;2009年,第215-246页。[谷歌学者] [6] Bello AL.不完全多元数据插补技术的选择:一项模拟研究。Commun Stat-Theor M.1993;22(3):853-877. doi:10.1080/03610929308831061[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0800.62344号 [7] Bello AL.线性二次和核判别分析中插补技术的模拟研究。J统计计算模拟。1993年;48((3-4)):167-180. doi:10.1080/00949659308811549[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0832.62055号 [8] Marella D,Scanu M,Conti PL.关于一些非参数插补程序的匹配噪声。统计概率出租。2008;78(12):1593-1600. doi:10.1016/j.spl.2008.01.020[Crosref],[Web of Science®],[谷歌学者]·Zbl 1325.62092号 [9] 宁静,程培华。非参数插补方法的比较研究。统计计算。2012;22(1):273-285. doi:10.1007/s1122-010-9223-y[Crossref],[Web of Science®],[Google学者]·Zbl 1322.62124号 [10] Tutz G,Ramzan S.用最近邻法改进缺失数据插补方法。计算统计数据分析。2015;90:84-99. doi:10.1016/j.csda.2015.04.009[Crossref],[Web of Science®],[Google学者]·Zbl 1468.62198号 [11] Ferrari PA,Annoni P,Barbiero A等。分类变量的插补方法及其在非线性主成分分析中的应用。计算统计数据分析。2011;55:2410-2420. doi:10.1016/j.csda.2011.02.007[Crossref],[Web of Science®],[Google学者]·Zbl 1328.65028号 [12] Solaro N、Barbiero A、Manzi G等,《基于距离的序列缺失数据插补方法:正向插补》。高级数据分析类。2017;11:395-414. doi:10.1007/s11634-016-0243-0[Crossref],[Web of Science®],[Google学者]·Zbl 1414.62220号 [13] Nora-Chouteau C.Une mémethode de reconstruction et d’analysis de données complete tes[论文]。巴黎:皮埃尔和玛丽·居里大学;1974.[谷歌学者] [14] Greenacre M.对应分析理论与应用。伦敦:学术出版社;1984.[谷歌学者]·Zbl 0555.62005号 [15] Josse J、Pagès J、Husson F.《主成分分析中的多重插补》。高级数据分析类。2011;5:231-246. doi:10.1007/s11634-011-0086-7[Crossref],[Web of Science®],[Google学者]·Zbl 1274.62409号 [16] Stekhoven DJ、Bühlmann P.MissForest——混合型数据的非参数缺失值插补。生物信息学。2012;28(1):112-118. doi:10.1093/生物信息学/btr597[Crossref],[PubMed],[Web of Science®],[Google学者] [17] 布雷曼L.随机森林。马赫学习。2001年;45:5-32. doi:10.1023/A:1010933404324[Crossref],[Web of Science®],[Google学者]·Zbl 1007.68152号 [18] Gómez E,Góme z-Villegas MA,Marin JM。幂指数分布族的多元推广。Commun Stat-Theor M.1998;27(3):589-600。doi:10.1080/03610929808832115[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0895.62053号 [19] Azzalini A,Capitanio A。多元斜态正态分布的统计应用。J R Stat Soc B.1999;61(3):579-602. doi:10.1111/1467-9868.00194[交叉引用],[谷歌学者]·Zbl 0924.62050号 [20] Azzalini A,Dalla Valle A。多元偏正态分布。生物特征。1996;83(4):715-726. doi:10.1093/biomet/83.4.715[Crossref],[Web of Science®],[Google学者]·Zbl 0885.62062号 [21] Mardia KV。多元偏度和峰度的测量及其应用。生物特征。1970;57(3):519-530。doi:10.1093/biomet/57.3.519[Crossref],[Web of Science®],[Google学者]·Zbl 0214.46302号 [22] Solaro N.多元指数功率分布的随机变量生成。统计应用程序。2004年;2(2):25-44. [谷歌学者] [23] Azzalini A.Package'sn':偏态正态分布和相关分布,如偏态-2017-[R Package version 1.5-0]。可从以下位置获得:https://CRAN.R-project.org/package=sn。[谷歌学者] [24] 赛伯GAF。多元观察。纽约:Wiley;1984.【Crossref】,【谷歌学者】·Zbl 0627.62052号 [25] 凯撒HF。一种衡量平均相互关系的指标。教育心理测量。1968;28:245-247. doi:10.1177/001316446802800203[Crossref],[Web of Science®],[Google学者] [26] Solaro N、Barbiero A、Manzi G等,“GenForImp”软件包:正向插补——一种基于序列距离的缺失数据插补方法。2015年-[R软件包版本1.0.0]。可从以下位置获得:http://CRAN.R-project.org/package=GenForImp。[谷歌学者]·Zbl 1414.62220号 [27] Husson F,Josse J.“missMDA”包:用多元数据分析处理缺失值。2017年-[R包版本1.11]。可从以下位置获得:http://CRAN.R-project.org/package=missMDA。[谷歌学者]·Zbl 1316.62006年 [28] Stekhoven DJ。“missForest”包:使用随机森林的非参数缺失值插补。2016-[R包版本1.4]。可从以下位置获得:http://CRAN.R-project.org/package=missForest。[谷歌学者] [29] Hochberg Y,Tamhane AC。多种比较程序。纽约:Wiley;1987.【Crossref】,【谷歌学者】·Zbl 0731.62125号 [30] Hollander M,Wolfe DA。非参数统计方法。第二版,纽约:Wiley;1999.[谷歌学者]·Zbl 0997.62511号 [31] Solaro N、Barbiero A、Manzi G等,不同数据结构的算法型插补技术:比较中的替代方法。收件人:Vicari D、Okada A、Ragozini G、Weihs C,编辑。行为科学和社会科学中复杂数据的分析和建模。分类、数据分析和知识组织研究。商会(CH):施普林格国际出版社;2014年,第253-261页。[谷歌学者] [32] Solaro N,Barbiero A,Manzi G,et al.正向插补的综合模拟研究。米兰(IT):米兰大学;2015年。(DEMM工作文件;编号:2015-04)。可从以下位置获得:https://ideas.repec.org/p/mil/wpdepa/2015-04.html。[谷歌学者] 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。