文件Zbl 1243.62092-zbMATH Open

使用替代决策和多重插补对不完整数据进行递归分区。（英语） Zbl 1243.62092号

计算。统计数据分析。 56，第6期，1552-1565（2012）.

摘要：缺失数据的发生是统计数据分析中的一个主要问题。所有科学领域和各种类型和规模的数据都受到这个问题的影响。不幸的是，有许多临时解决方案会导致权力损失、有偏见的推断、对可变性的低估以及变量之间的扭曲关系。越来越受欢迎的一种更有希望的方法是链方程多重插补（MICE），也称为完全条件规范插补（FCS）。插补的替代方法由具有内置程序的方法提供。这些包括通过分类树和回归树以及相应的随机森林进行递归分区。然而，很少有文献对这两种方法进行比较。由于数据结构和模拟方案的限制，现有评估通常缺乏通用性。将这两种方法应用于多种数据和不同的模拟设置，旨在改进和扩展比较分析。对分类和回归研究进行了检查。递归分区由两个流行的树和一个随机森林实现执行。研究结果表明，多重插补对模拟数据和现实数据都产生了模糊的绩效结果。相反，使用代理是一种快速而简单的方法，可以实现几乎可以忽略不计的性能差，在许多情况下甚至更好。

引用于8文件

MSC公司：

62小时30分	分类和区分；聚类分析（统计方面）
99时62分	多变量分析
65C60个	统计中的计算问题（MSC2010）

关键词：

分类和回归树;随机森林;多重插补;老鼠;代理人

软件：

4.5条;老鼠;随机森林;UCI-毫升;聚会;r零件;R（右）

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Allison，T。；Cicchetti，D.V.，《哺乳动物的睡眠：生态和体质相关性》，《科学》，194732-734（1976）
[2]	Asuncion，A.，Newman，D.J.，2007年。UCI机器学习库。；Asuncion，A.，Newman，D.J.，2007年。UCI机器学习库。
[3]	Boulesteix，A.L。；斯特罗布尔，C。；奥古斯丁，T。；Daumer，M.，评估基于微阵列的分类器：概述，《癌症信息》，677-97（2008）
[4]	Breiman，L.，打包预测，机器学习，24123-140（1996）·Zbl 0858.68080号
[5]	Breiman，L.，《随机森林》，机器学习，45，5-32（2001）·Zbl 1007.68152号
[6]	布雷曼，L。；弗里德曼，J。；斯通，C.J。；Olshen，R.A.，分类和回归树（1984），查普曼和霍尔，CRC·Zbl 0541.62042号
[7]	Bühlmann，P。；Yu，B.，分析袋装，《统计年鉴》，30927-961（2002）·Zbl 1029.62037号
[8]	汉堡，L.F。；Reiter，J.P.，通过序列回归树对缺失数据进行多重插补，《美国流行病学杂志》，1721070-1076（2010）
[9]	钱伯斯，J.M.，（数据分析的图形方法（统计）（1983），查普曼和霍尔，CRC）
[10]	埃尔特，M。；舒尔兹·温特兰，R。；Wittenberg，T.，使用两种计算机辅助设计方法预测乳腺癌活检结果，这两种方法都强调可理解的决策过程，医学物理学，3414164-4172（2007）
[11]	Farhangfar，A。；库根，L。；Dy，J.，缺失值插补对离散数据分类误差的影响，模式识别，41，3692-3705（2008）·Zbl 1173.68479号
[12]	Feelders，A.J.，《处理树中缺失的数据：替代分裂或统计插补》（PKDD’99：第三届欧洲数据挖掘和知识发现原则会议论文集（1999），Springer-Verlag:Springer-Verlag London，UK），329-334
[13]	哈伯曼，S.J.，1976年。对数线性模型的广义残差。摘自：《第九届国际生物计量学会议论文集》，第104-122页。；哈伯曼，S.J.，1976年。对数线性模型的广义残差。摘自：《第九届国际生物统计学会议记录》，第104-122页。
[14]	O.哈雷。；周晓华，《多重插补：理论、实施和软件综述》，《医学统计学》，第26期，第3057-3077页（2007年）
[15]	何毅。；扎斯拉夫斯基，A。；Landrum，M。；哈灵顿，D。；Catalano，P.，《大规模复杂调查中的多重插补：实用指南》，《医学研究中的统计方法》（2009年）
[16]	希尔森贝克，S.G。；Clark，G.M.，最佳选择切点的实用（p）值调整，《医学统计学》，第15期，第103-112页（1996年）
[17]	新泽西州霍顿。；Kleinman，K.P.，《无事生非：缺失数据方法和软件的比较，以拟合不完全数据回归模型》，《美国统计学家》，6179-90（2007）
[18]	Hothorn，T.、Hornik，K.、Strobl，C.、Zeileis，A.，2008年。参与方：递归零件定位实验室。R包版本0.9-9993。；Hothorn，T.、Hornik，K.、Strobl，C.、Zeileis，A.，2008年。参与方：递归零件定位实验室。R包版本0.9-9993。
[19]	Hothorn，T。；霍尼克，K。；Zeileis，A.，无偏递归分区，计算与图形统计杂志，15651-674（2006）
[20]	詹森，K.J。；Donders，A.R。；哈雷尔，F.E。；韦古韦，Y。；陈，Q。；格罗比，D.E。；Moons，K.G.，《医学研究中缺失的协变量数据：插补比忽略要好》，《临床流行病学杂志》，63721-727（2010）
[21]	杨森，K.J。；韦古韦，Y。；Donders，A.R。；哈雷尔，F.E。；陈，Q。；格罗比，D.E。；Moons，K.G.，应用临床预测模型时处理缺失的预测值，临床化学，55994-1001（2009）
[22]	Klebanoff，医学硕士。；Cole，S.R.，《在流行病学文献中使用多重插补》，《美国流行病学杂志》，168，355-357（2008）
[23]	劳森，B。；Sauerbrei，W。；Schumacher，M.，用于探索不同尺度上测量的预后因素的分类和回归树（cart），（Dirschedl，P.；Ostermann，R.，计算统计学（1994），Physica-Verlag:Physica-Verlag Heidelberg），483-496
[24]	Liaw，A。；Wiener，M.，《随机森林分类与回归》，R News，2，18-22（2002）
[25]	Little，R.J.A。；鲁宾，D.B.，《缺失数据的统计分析》，第二版（2002年），威利国际科学·兹比尔1011.62004
[26]	卢内塔，K。；海沃德，B.L。；西格尔，J。；Van Eerdewegh，P.，《筛选大规模关联研究数据：利用随机森林开发相互作用》，BMC遗传学，5（2004）
[27]	梅塞里，P。；Lee，G。；Abramson，D.M。；艾达拉，A。；Chiasson，医学硕士。；Jessop，D.J.，抗逆转录病毒治疗与纽约市艾滋病死亡率下降，《医疗杂志》，4512-521（2003）
[28]	Mosteller，F。；Tukey，J.W.，《数据分析与回归：统计学第二课程》（1977年），Addison-Wesley Pub。公司。
[29]	尼科迪默斯，K。；Malley，J。；斯特罗布尔，C。；Ziegler，A.，《预测相关下基于随机森林排列的变量重要性度量的行为》，BMC生物信息学，11（2010），\（110+\）
[30]	Pearson，R.K.，《伪装缺失数据的问题》，SIGKDD探索通讯，883-92（2006）
[31]	昆兰，J.R.，（C4.5：机器学习程序（摩根-考夫曼机器学习系列）（1993），摩根-考夫曼）
[32]	R开发核心团队，2010年。R：用于统计计算的语言和环境。R统计计算基金会。奥地利维也纳，ISBN:3-900051-07-0。；R开发核心团队，2010年。R：用于统计计算的语言和环境。R统计计算基金会。奥地利维也纳。ISBN:3-900051-07-0。
[33]	Rieger，A.，Hothorn，T.，Strobl，C.，2010年。协变量中缺失值的随机森林。；Rieger，A.，Hothorn，T.，Strobl，C.，2010年。协变量中缺失值的随机森林。
[34]	Rubin，D.B.，《推断和缺失数据》，《生物统计学》，63，581-592（1976）·Zbl 0344.62034号
[35]	Rubin，D.B.，《调查中无应答的多重插补》（1987），J.Wiley&Sons：J.Willey&Sons纽约·2007年6月10日
[36]	Rubin，D.B.，“年满18岁后的多重插补”，《美国统计协会杂志》，91，473-489（1996）·Zbl 0869.62014年
[37]	Schafer，J.L.，《不完全多元数据分析》（1997），查普曼和霍尔出版社·Zbl 0997.62510号
[38]	Schafer，J.L。；Graham，J.W.，《缺失数据：我们对最新技术的看法》，《心理学方法》，第7期，第147-177页（2002年）
[39]	斯特拉瑟，H。；韦伯，C.，关于置换统计的渐近理论，统计的数学方法，2（1999）·Zbl 1103.62346号
[40]	斯特罗布尔，C。；Boulesteix，A.L。；Augustin，T.，基于基尼指数的分类树无偏分割选择，计算统计与数据分析，52，483-501（2007）·Zbl 1452.62469号
[41]	斯特罗布尔，C。；Boulesteix，A.L。；Kneib，T。；奥古斯丁，T。；Zeileis，A.，随机森林条件变量重要性，BMC生物信息学，9（2008），（307+\）
[42]	斯特罗布尔，C。；Boulesteix，A.L。；Zeileis，A。；Hothorn，T.，《随机森林变量重要性度量中的偏差：插图、来源和解决方案》，BMC生物信息学，8（2007），\（25+\）
[43]	斯特罗布尔，C。；Malley，J。；Tutz，G.，《递归分区简介：分类树和回归树、套袋和随机森林的原理、应用和特征》，《心理学方法》，第14期，第323-348页（2009年）
[44]	坦普尔，M。；科瓦里克，A。；Filzmoser，P.，使用标准和稳健方法的迭代逐步回归插补，计算统计与数据分析，552793-2806（2011）
[45]	Therneau，T.M.，Atkinson，B.，2009年。rpart：递归分区。R软件包版本3.1-45；B.Ripley的R港口。；Therneau，T.M.，Atkinson，B.，2009年。rpart：递归分区。R包版本3.1-45；B.Ripley的R港口。
[46]	van Buuren，S.，通过完全条件规范对离散和连续数据进行多重插补，《医学研究中的统计方法》，第16期，第219-242页（2007年）·Zbl 1122.62382号
[47]	Van Buuren，S。；Brand，J.P.L。；Groothuis-Audshoorn，C.G.M。；Rubin，D.B.，《多元插补的完全条件规范》，《统计计算与模拟杂志》，761049-1064（2006）·Zbl 1144.62332号
[48]	van Buuren，S.，Groothuis-Oudshoorn，K.，2011年。小鼠：《统计软件杂志》第1-68页（出版中）中链式方程的多元插补。；van Buuren，S.，Groothuis-Oudshoorn，K.，2011年。《小鼠：通过连锁方程进行多元插补》，见《统计软件杂志》，第1-68页（出版中）。
[49]	韦纳布尔斯，W.N。；里普利，B.D.，《现代应用统计学与S》（2003），施普林格出版社：美国纽约施普林格·Zbl 1006.62003号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用替代决策和多重插补对不完整数据进行递归分区。（英语） Zbl 1243.62092号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

使用替代决策和多重插补对不完整数据进行递归分区。 （英语） Zbl 1243.62092号

MSC公司：

关键词：

软件：

参考文献：

使用替代决策和多重插补对不完整数据进行递归分区。（英语） Zbl 1243.62092号