×

使用替代决策和多重插补对不完整数据进行递归分区。 (英语) Zbl 1243.62092号

摘要:缺失数据的发生是统计数据分析中的一个主要问题。所有科学领域和各种类型和规模的数据都受到这个问题的影响。不幸的是,有许多临时解决方案会导致权力损失、有偏见的推断、对可变性的低估以及变量之间的扭曲关系。越来越受欢迎的一种更有希望的方法是链方程多重插补(MICE),也称为完全条件规范插补(FCS)。插补的替代方法由具有内置程序的方法提供。这些包括通过分类树和回归树以及相应的随机森林进行递归分区。然而,很少有文献对这两种方法进行比较。由于数据结构和模拟方案的限制,现有评估通常缺乏通用性。将这两种方法应用于多种数据和不同的模拟设置,旨在改进和扩展比较分析。对分类和回归研究进行了检查。递归分区由两个流行的树和一个随机森林实现执行。研究结果表明,多重插补对模拟数据和现实数据都产生了模糊的绩效结果。相反,使用代理是一种快速而简单的方法,可以实现几乎可以忽略不计的性能差,在许多情况下甚至更好。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
99时62分 多变量分析
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Allison,T。;Cicchetti,D.V.,《哺乳动物的睡眠:生态和体质相关性》,《科学》,194732-734(1976)
[2] Asuncion,A.,Newman,D.J.,2007年。UCI机器学习库。;Asuncion,A.,Newman,D.J.,2007年。UCI机器学习库。
[3] Boulesteix,A.L。;斯特罗布尔,C。;奥古斯丁,T。;Daumer,M.,评估基于微阵列的分类器:概述,《癌症信息》,677-97(2008)
[4] Breiman,L.,打包预测,机器学习,24123-140(1996)·Zbl 0858.68080号
[5] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号
[6] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),查普曼和霍尔,CRC·Zbl 0541.62042号
[7] Bühlmann,P。;Yu,B.,分析袋装,《统计年鉴》,30927-961(2002)·Zbl 1029.62037号
[8] 汉堡,L.F。;Reiter,J.P.,通过序列回归树对缺失数据进行多重插补,《美国流行病学杂志》,1721070-1076(2010)
[9] 钱伯斯,J.M.,(数据分析的图形方法(统计)(1983),查普曼和霍尔,CRC)
[10] 埃尔特,M。;舒尔兹·温特兰,R。;Wittenberg,T.,使用两种计算机辅助设计方法预测乳腺癌活检结果,这两种方法都强调可理解的决策过程,医学物理学,3414164-4172(2007)
[11] Farhangfar,A。;库根,L。;Dy,J.,缺失值插补对离散数据分类误差的影响,模式识别,41,3692-3705(2008)·Zbl 1173.68479号
[12] Feelders,A.J.,《处理树中缺失的数据:替代分裂或统计插补》(PKDD’99:第三届欧洲数据挖掘和知识发现原则会议论文集(1999),Springer-Verlag:Springer-Verlag London,UK),329-334
[13] 哈伯曼,S.J.,1976年。对数线性模型的广义残差。摘自:《第九届国际生物计量学会议论文集》,第104-122页。;哈伯曼,S.J.,1976年。对数线性模型的广义残差。摘自:《第九届国际生物统计学会议记录》,第104-122页。
[14] O.哈雷。;周晓华,《多重插补:理论、实施和软件综述》,《医学统计学》,第26期,第3057-3077页(2007年)
[15] 何毅。;扎斯拉夫斯基,A。;Landrum,M。;哈灵顿,D。;Catalano,P.,《大规模复杂调查中的多重插补:实用指南》,《医学研究中的统计方法》(2009年)
[16] 希尔森贝克,S.G。;Clark,G.M.,最佳选择切点的实用(p)值调整,《医学统计学》,第15期,第103-112页(1996年)
[17] 新泽西州霍顿。;Kleinman,K.P.,《无事生非:缺失数据方法和软件的比较,以拟合不完全数据回归模型》,《美国统计学家》,6179-90(2007)
[18] Hothorn,T.、Hornik,K.、Strobl,C.、Zeileis,A.,2008年。参与方:递归零件定位实验室。R包版本0.9-9993。;Hothorn,T.、Hornik,K.、Strobl,C.、Zeileis,A.,2008年。参与方:递归零件定位实验室。R包版本0.9-9993。
[19] Hothorn,T。;霍尼克,K。;Zeileis,A.,无偏递归分区,计算与图形统计杂志,15651-674(2006)
[20] 詹森,K.J。;Donders,A.R。;哈雷尔,F.E。;韦古韦,Y。;陈,Q。;格罗比,D.E。;Moons,K.G.,《医学研究中缺失的协变量数据:插补比忽略要好》,《临床流行病学杂志》,63721-727(2010)
[21] 杨森,K.J。;韦古韦,Y。;Donders,A.R。;哈雷尔,F.E。;陈,Q。;格罗比,D.E。;Moons,K.G.,应用临床预测模型时处理缺失的预测值,临床化学,55994-1001(2009)
[22] Klebanoff,医学硕士。;Cole,S.R.,《在流行病学文献中使用多重插补》,《美国流行病学杂志》,168,355-357(2008)
[23] 劳森,B。;Sauerbrei,W。;Schumacher,M.,用于探索不同尺度上测量的预后因素的分类和回归树(cart),(Dirschedl,P.;Ostermann,R.,计算统计学(1994),Physica-Verlag:Physica-Verlag Heidelberg),483-496
[24] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,18-22(2002)
[25] Little,R.J.A。;鲁宾,D.B.,《缺失数据的统计分析》,第二版(2002年),威利国际科学·兹比尔1011.62004
[26] 卢内塔,K。;海沃德,B.L。;西格尔,J。;Van Eerdewegh,P.,《筛选大规模关联研究数据:利用随机森林开发相互作用》,BMC遗传学,5(2004)
[27] 梅塞里,P。;Lee,G。;Abramson,D.M。;艾达拉,A。;Chiasson,医学硕士。;Jessop,D.J.,抗逆转录病毒治疗与纽约市艾滋病死亡率下降,《医疗杂志》,4512-521(2003)
[28] Mosteller,F。;Tukey,J.W.,《数据分析与回归:统计学第二课程》(1977年),Addison-Wesley Pub。公司。
[29] 尼科迪默斯,K。;Malley,J。;斯特罗布尔,C。;Ziegler,A.,《预测相关下基于随机森林排列的变量重要性度量的行为》,BMC生物信息学,11(2010),\(110+\)
[30] Pearson,R.K.,《伪装缺失数据的问题》,SIGKDD探索通讯,883-92(2006)
[31] 昆兰,J.R.,(C4.5:机器学习程序(摩根-考夫曼机器学习系列)(1993),摩根-考夫曼)
[32] R开发核心团队,2010年。R: 用于统计计算的语言和环境。R统计计算基金会。奥地利维也纳,ISBN:3-900051-07-0。;R开发核心团队,2010年。R: 用于统计计算的语言和环境。R统计计算基金会。奥地利维也纳。ISBN:3-900051-07-0。
[33] Rieger,A.,Hothorn,T.,Strobl,C.,2010年。协变量中缺失值的随机森林。;Rieger,A.,Hothorn,T.,Strobl,C.,2010年。协变量中缺失值的随机森林。
[34] Rubin,D.B.,《推断和缺失数据》,《生物统计学》,63,581-592(1976)·Zbl 0344.62034号
[35] Rubin,D.B.,《调查中无应答的多重插补》(1987),J.Wiley&Sons:J.Willey&Sons纽约·2007年6月10日
[36] Rubin,D.B.,“年满18岁后的多重插补”,《美国统计协会杂志》,91,473-489(1996)·Zbl 0869.62014年
[37] Schafer,J.L.,《不完全多元数据分析》(1997),查普曼和霍尔出版社·Zbl 0997.62510号
[38] Schafer,J.L。;Graham,J.W.,《缺失数据:我们对最新技术的看法》,《心理学方法》,第7期,第147-177页(2002年)
[39] 斯特拉瑟,H。;韦伯,C.,关于置换统计的渐近理论,统计的数学方法,2(1999)·Zbl 1103.62346号
[40] 斯特罗布尔,C。;Boulesteix,A.L。;Augustin,T.,基于基尼指数的分类树无偏分割选择,计算统计与数据分析,52,483-501(2007)·Zbl 1452.62469号
[41] 斯特罗布尔,C。;Boulesteix,A.L。;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林条件变量重要性,BMC生物信息学,9(2008),(307+\)
[42] 斯特罗布尔,C。;Boulesteix,A.L。;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量中的偏差:插图、来源和解决方案》,BMC生物信息学,8(2007),\(25+\)
[43] 斯特罗布尔,C。;Malley,J。;Tutz,G.,《递归分区简介:分类树和回归树、套袋和随机森林的原理、应用和特征》,《心理学方法》,第14期,第323-348页(2009年)
[44] 坦普尔,M。;科瓦里克,A。;Filzmoser,P.,使用标准和稳健方法的迭代逐步回归插补,计算统计与数据分析,552793-2806(2011)
[45] Therneau,T.M.,Atkinson,B.,2009年。rpart:递归分区。R软件包版本3.1-45;B.Ripley的R港口。;Therneau,T.M.,Atkinson,B.,2009年。rpart:递归分区。R包版本3.1-45;B.Ripley的R港口。
[46] van Buuren,S.,通过完全条件规范对离散和连续数据进行多重插补,《医学研究中的统计方法》,第16期,第219-242页(2007年)·Zbl 1122.62382号
[47] Van Buuren,S。;Brand,J.P.L。;Groothuis-Audshoorn,C.G.M。;Rubin,D.B.,《多元插补的完全条件规范》,《统计计算与模拟杂志》,761049-1064(2006)·Zbl 1144.62332号
[48] van Buuren,S.,Groothuis-Oudshoorn,K.,2011年。小鼠:《统计软件杂志》第1-68页(出版中)中链式方程的多元插补。;van Buuren,S.,Groothuis-Oudshoorn,K.,2011年。《小鼠:通过连锁方程进行多元插补》,见《统计软件杂志》,第1-68页(出版中)。
[49] 韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计学与S》(2003),施普林格出版社:美国纽约施普林格·Zbl 1006.62003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。