×

预测缺失值:非参数插补方法的比较研究。 (英语) Zbl 1505.62331号

摘要:在收集大量数据时,数据缺失是一个意料之中的问题,已经提出了几种插补技术来解决这个问题。在MICE等经典方法下,机器学习技术的应用是诱人的。这里,最近提议的miss森林在各种缺失率的缺失(完全)随机方案下,插补方法显示出较高的插补精度。其核心是基于随机森林分别进行分类和回归。在本文中,我们研究了该方法是否可以通过其他方法进行增强,例如随机梯度树增强方法、C5.0算法、BART或改进的随机森林程序。特别地,提出了随机森林协议中的其他重采样策略。在广泛的模拟研究中,我们分析了它们在连续、分类以及混合类型数据中的性能。以信用信息和脸书数据为重点的实证分析补充了我们的调查。

MSC公司:

62-08 统计问题的计算方法
62天10分 缺少数据
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Amro L,Pauly M(2017)《排列不完全配对数据:一种新的精确和渐近正确随机化检验》。J统计计算模拟87(6):1148-1159·Zbl 07191993号 ·doi:10.1080/00949655.2016.1249871
[2] Breiman L(2001)《随机森林》。马赫数学习45(1):5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[3] Breiman L、Friedman J、Stone CJ、Olshen RA(1984)分类和回归树。Wadsworth和Brooks-Cole统计-概率系列。泰勒和弗朗西斯,蒙特雷·Zbl 0541.62042号
[4] Brunner E,Munzel U(2000)非参数Behrens-Fisher问题:渐近理论和小样本近似。生物医学J 42(1):17-25·Zbl 0969.62033号 ·doi:10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2个
[5] Bujlow T,Riaz T,Pedersen JM(2012)一种基于C5.0机器学习算法的网络流量分类方法。参加:计算机、网络和通信国际会议。IEEE出版社,第237-241页
[6] Chacón JE,Duong T,Wand MP(2011)一般多元核密度导数估计量的渐近性。统计Sin 21(2):807-840·Zbl 1214.62039号 ·doi:10.5705/ss.2011.036a
[7] Chipman HA、George EI、McCulloch RE(2010)BART:贝叶斯加性回归树。应用统计年鉴4(1):266-298·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[8] Conversano C,Siciliano R(2009)《利用词典排序进行基于树的增量缺失数据插补》,J Classif 26(3):361-379·Zbl 1337.62128号 ·doi:10.1007/s00357-009-9038-8
[9] 詹姆斯·多尔蒂(James Dougherty);罗恩·科哈维;Sahami,Mehran,连续特征的监督和非监督离散化,194-202(1995)·doi:10.1016/B978-1-55860-377-6.50032-3
[10] Friedman JH(2001)贪婪函数近似:梯度提升机。《统计年鉴》29(5):1189-1232·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[11] Friedman JH(2002)随机梯度增强。计算统计数据分析38(4):367-378·Zbl 1072.65502号 ·doi:10.1016/S0167-9473(01)00065-2
[12] Greenwell B、Boehmke B、Cunningham J、Developers G(2018)gbm:广义增强回归模型。https://CRAN.R-project.org/package=gbm,R包版本2.1.4
[13] Hastie T、Tibshirani R、Friedman J(2009)《统计学习的要素》,第2版。纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[14] Kaiser S,Dominik T,Leisch F(2011),生成相关有序随机变量。慕尼黑大学统计系,技术报告,94
[15] Khan SS、Ahmad A、Mihailidis A(2018)缺失数据的自举和多重插补集合方法。arXiv预打印arXiv:180200154
[16] Konietschke F、Harrar SW、Lange K、Brunner E(2012)《缺失数据症状理论和小样本近似下配对的排序程序》。计算统计数据分析56(5):1090-1102·Zbl 1241.62066号 ·doi:10.1016/j.csda.2011.03.022
[17] Konietschke F、Bathke A、Harrar S、Pauly M(2015),通用MANOVA的参数和非参数自举方法。多变量分析杂志140:291-301·兹比尔1327.62273 ·doi:10.1016/j.jmva.2015.05.001
[18] Krishnamoorthy K,Lu F(2010)异方差下MANOVA的参数自举解决方案。J统计计算模拟80(8):873-887·Zbl 1195.62095号 ·doi:10.1080/00949650902822564
[19] Kuhn M,Quinlan R(2018)C50:C5.0决策树和基于规则的模型。https://CRAN.R-project.org/package=C50,R包版本0.1.2
[20] Little RJ,Rubin DB(2002),缺失数据的统计分析,第2版。霍博肯·威利·Zbl 1011.62004号 ·doi:10.1002/9781119013563
[21] Loh WY(2009)提高分类树的精度。应用统计年鉴3(4):1710-1737·Zbl 1184.62109号 ·doi:10.1214/09-AOAS260
[22] Loh WY、Eltinge J、Cho M、Li Y(2016)《样本调查中不完整数据的分类和回归树方法》。arXiv预打印arXiv:160301631·兹比尔1412.62080
[23] Müller HG,Petersen A(2016)《密度估算,包括示例》,Wiley StatsRef:在线统计参考,第1-12页。https://doi.org/10.1002/9781118445112.stat02808.pub2网站
[24] R核心团队(2016)R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。https://www.R-project.org/
[25] Ramosaj B,Amro L,Pauly M(2018)关于在配对设计中使用插补方法进行推理的警示故事。arXiv预打印arXiv:180606551
[26] Rubin DB(1976)推断和缺失数据。生物特征63(3):581-592·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[27] Schafer JL(1997)不完全多元数据分析。查普曼和霍尔/CRC,纽约·Zbl 0997.62510号 ·doi:10.1201/9781439821862
[28] SmagaŁ(2017)多元假设检验的Bootstrap方法。公共统计模拟计算46(10):7654-7667·Zbl 1381.62117号 ·doi:10.1080/03610918.2016年12月248573日
[29] Stekhoven DJ(2011)使用missForest包。德国苏黎世理工大学统计研讨会,技术报告第1-11页。https://stat.ethz.ch/education/semesters/ss2012/ams/paper/missForest_1.2.pdf
[30] Stekhoven DJ,Bühlmann P(2011)MissForest-混合型数据的非参数缺失值插补。生物信息学28(1):112-118·doi:10.1093/bioinformatics/btr597
[31] Strobl C,Boulesteix AL,Augustin T(2007),基于基尼指数的分类树无偏分裂选择。计算统计数据分析52(1):483-501·Zbl 1452.62469号 ·doi:10.1016/j.csda.2006.12.030
[32] Sun K,Mou S,Qiu J,Wang T,Gao H(2018)具有全状态约束的非三角形结构随机切换非线性系统的自适应模糊控制。IEEE跨模糊系统。https://doi.org/10.109/TFUZZ.2018.2883374 ·doi:10.1109/TFUZZ.2018.2883374
[33] Tan YV,Flannagan CA,Elliott MR(2018),使用BART的“稳健平方”插补模型。arXiv预印本arXiv:180103147
[34] Vach,Werner,《缺失值:统计理论和计算实践》,345-354(1994),海德堡·Zbl 0900.65410号
[35] Van Buuren S(2011)多层数据的多重插补。摘自:《高级多水平分析手册》,Routledge/Taylor&Francis,纽约州纽约市,第173-196页
[36] Van Buuren S,Groothuis-Oudshoorn K(2011)小鼠:R.J Stat Softw中链式方程的多元插补45(3):1-67。https://www.jstatsoft.org/v45/i03/
[37] Waljee AK、Mukherjee A、Signal AG、Zhang Y、Warren J、Balis U、Marrero J、Zhu J、Higgind PD(2013)《医学中缺失实验室数据插补方法的比较》。BMJ公开赛。https://doi.org/10.1136/bmjopen-2013-002847 ·doi:10.1136/bmjopen-2013-002847
[38] Wand MP,Jones MC(1994),多变量插件带宽选择。计算机统计9(2):97-116·Zbl 0937.62055号
[39] Xu J,Harrar SW(2012):缺失数据配对样本的准确平均值比较:吸烟试验的应用。生物医学J 54(2):281-295·Zbl 1242.62125号 ·doi:10.1002/bimj.201100053
[40] Xu LW,Yang FQ,Abula A,Qin S(2013)存在不相等方差的可能交互作用时双向方差分析的参数自举方法。多变量分析杂志115:172-180·Zbl 1258.62034号 ·doi:10.1016/j.jmva.2012.10.008
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。