×

我们应该插补还是加权?研究两种基于CART的技术在非正态变量小样本研究中处理缺失数据的性能。 (英语) Zbl 1466.62091号

摘要:最近,研究人员提出了各种新的方法来使用探索性数据挖掘算法来处理缺失数据。两类有希望的缺失数据方法利用了分类回归树和随机森林。第一种方法使用CART分析生成的响应预测概率(与无响应相比)来创建逆概率权重。当基于树的结构生成无响应时,即使在低样本量下,该方法在先前的模拟中也表现良好。第二种方法使用落在CART树终端节点中的值来生成多个插补。在之前的研究中,当样本量较大(N=1000)时,这些方法在估计回归模型中的主要影响和交互作用方面表现良好,但在小样本条件下,没有对其性能进行评估。在本研究中,我们评估了在低样本量(N=125或250)和由平滑函数(线性、二次、三次、交互)生成缺失数据时非正态性条件下基于CART的权重和基于CART-的插补的性能。结果表明,无论非正态性如何,随机森林权重在样本量较小的情况下都优于,而CART多重插补在样本量较大(N=500或1000)的情况下更有效。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾肯,L.S。;West,S.G.,《多元回归:测试和解释相互作用》,(1991),加州千橡园
[2] Asprouhov,T.,潜在变量建模中的采样权重,结构。埃克。模型,12,411-434,(2005)
[3] Berk,R.A.,《回归视角下的统计学习》(2009),纽约施普林格出版社
[4] Breiman,L.,装袋预测,马赫数。学习。,24, 123-140, (1996) ·Zbl 0858.68080号
[5] Breiman,L.,《随机森林》,马赫。学习。,45, 5-32, (2001) ·Zbl 1007.68152号
[6] 布雷曼,L。;弗里德曼,J.H。;Olshen,R.A。;Stone,C.J.,分类和回归树,(1984),加利福尼亚州沃兹沃斯太平洋格罗夫·Zbl 0541.62042号
[7] 柯林斯,L.M。;Schafer,J.L。;Kam,C.M.,《现代缺失数据程序中包容性和限制性策略的比较》,《心理学》。方法,6330-351,(2001)
[8] Doove,L.L。;van Buuren,S。;杜塞尔多普,E.,存在交互效应时缺失数据插补的递归分区,计算。统计师。数据分析。,72, 92-104, (2014) ·Zbl 1506.62056号
[9] 埃夫隆,B。;Tibshirani,R.,《Bootstrap简介》(1993),查普曼和霍尔纽约·Zbl 0835.62038号
[10] Enders,C.K.,《缺失数据结构方程模型的非正态性对全信息最大似然估计的影响》,心理医学。方法,6352-370,(2001)
[11] Fleishman,A.I.,《模拟非正态分布的方法》,Psycholometrika,43521-532,(1978)·Zbl 0388.62023号
[12] 格雷厄姆,J.W。;Schafer,J.L.,《关于小样本多变量数据的多重插补性能》(Hoyle,R.H.,《小样本研究的统计策略》,1999年),加州千橡树协会,1-27
[13] Groenwold,R.H.H。;Donders,A.R.T。;罗伊斯,K.C.B。;哈雷尔,F.E。;Moons,K.G.M.,《处理随机试验和观察性研究中缺失的结果数据》,美国流行病学杂志。,175, 210-217, (2012)
[14] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.H.,《统计学习的要素》,(2009年),纽约斯普林格-Verlag出版社·Zbl 1273.62005年
[15] Hayes,A.F.,《调解、缓和和条件过程分析导论:基于回归的方法》,(2013),吉尔福德出版社,纽约
[16] Hayes,T.,McArdle,J.J.,2017年。研究基于CART和随机森林的程序在MNAR缺失数据下处理小样本设计中纵向辍学的性能,in:多元心理学纵向模型的进展:Jack McArdle的一个节日
[17] Hayes,T。;Usami,S。;雅各布奇,R。;McArdle,J.J.,《使用分类和回归树(CART)和随机森林分析消耗:两个模拟的结果》,心理。老龄化,30911-929,(2015)
[18] Kish,L.,《设计效果方法》,J.Off.Stat.,11,55-77,(1995)
[19] Liaw,A。;Wiener,M.,《随机森林的分类和回归》,R.News,2,12-22,(2002)
[20] McArdle,J.J.,《使用逻辑回归和决策树分析处理纵向消耗》,(《行为科学中探索性数据挖掘的当代问题》,2013年),纽约罗特利奇出版社,282-311
[21] Miceeri,T.,独角兽,正常曲线,和其他不可思议的生物,精神病。公牛。,105, 156-166, (1989)
[22] Muthén,B。;卡普兰,D。;Hollis,M.,《关于不完全随机缺失数据的结构方程建模》,《心理测量学》,52,431-462,(1987)·Zbl 0627.62066号
[23] 穆森,L.K.,穆森,B.,2011年。Mplus用户指南,第六版。
[24] Oberski,D.,Lavaan.survey:结构方程模型复杂调查分析的R包,J.Stat.Softw。,57, 1-27, (2014)
[25] 波托夫,R.F。;Woodbury,医学硕士。;Manton,K.G.,“等效样本量”和“等效自由度”改进,用于在超级总体模型下使用调查权重进行推断,J.Amer。统计师。协会,87,383-396,(1992)·Zbl 0783.62012号
[26] R核心团队,2013年。R: 统计计算语言和环境
[27] Rosseel,Y.,Lavaan:结构方程建模的R包,J.Stat.Softw。,48, 1-36, (2012)
[28] 鲁宾,D.B.,《推断和缺失数据》,《生物特征》,63,581-592,(1976)·Zbl 0344.62034号
[29] 塞德梅尔,P。;Gigerenzer,G.,《统计力量的研究对研究力量有影响吗?》?,精神病。公牛。,105, 309-316, (1989)
[30] 沙阿(Shah,A.D.)。;Bartlett,J.W。;卡彭特,J。;O.尼古拉斯。;海明威,H.,《使用MICE插补缺失数据的随机森林和参数插补模型的比较:一项CALIBER研究》,美国流行病学杂志。,179, 764-774, (2014)
[31] Stapleton,L.M.,《将样本权重纳入多级结构方程模型》,结构。埃克。模型,9475-502,(2002)
[32] Therneau,T.、Atkinson,B.、Ripley,B.,2014年。rpart:递归分区和回归树
[33] van Buuren,S.,《通过完全条件规范对离散和连续数据进行多重插补》,《统计方法医学研究》,第16期,第219-242页,(2007年)·Zbl 1122.62382号
[34] van Buuren,S。;Brand,J.P.L。;Groothuis-Audshoorn,C.G.M。;Rubin,D.B.,《多元插补中的完全条件规范》,J.Stat.Comput。模拟。,76, 1049-1064, (2006) ·Zbl 1144.62332号
[35] van Buuren,S。;Groothuis-Oudshoorn,K.,MICE:R,J.Stat.Softw.中链式方程的多元插补。,45, 1-67, (2011)
[36] von Hippel,P.T.,《Y缺失的回归:一种分析多重估算数据的改进策略》,社会学。Methodol.方法。,37, 83-117, (2007)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。