×

不完全高维数据的变量选择和预测。 (英语) Zbl 1454.62028号

小结:我们提出了一种多重插补随机拉索(MIRL)方法,用于选择重要变量并预测青少年饮食和活动的流行病学研究结果。在这项研究中,80%的人至少缺少一个变量。因此,使用针对列表删除后的完整数据开发的变量选择方法大大降低了预测能力。最近关于存在不完整数据的预测模型的工作无法充分解释大量具有任意缺失模式的变量。我们建议MIRL将惩罚回归技术与多重插补和稳定性选择相结合。进行了广泛的模拟研究,以将MIRL与几种备选方案进行比较。在高维场景中,MIRL在减少预测误差和提高变量选择性能方面优于其他方法,并且当变量之间的相关性较高且缺失比例较高时,它具有更大的优势。与其他适用方法相比,将MIRL分别应用于男孩和女孩的青少年饮食和活动研究,以及社会经济地位低(SES)、肥胖风险高的亚洲男孩亚组,结果表明MIRL的表现有所改善。

MSC公司:

62-08 统计问题的计算方法
62D10号 缺少数据
62J07型 岭回归;收缩估计器(拉索)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Azur,M.J.、Stuart,E.A.、Frangakis,C.和Leaf,P.J.(2011)。链方程多重插补:它是什么?它是如何工作的?国际精神病学杂志。第20 40-49号决议。
[2] Belloni,A.和Chernozhukov,V.(2013)。高维稀疏模型中模型选择后的最小二乘法。伯努利19 521-547·Zbl 1456.62066号 ·doi:10.3150/11-BEJ410
[3] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. ·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Buuren,S.和Groothuis-Oudshoorn,K.(2011年)。小鼠:R.统计软件杂志45 1-67中通过链式方程进行的多元插补。
[5] Chen,Q.和Wang,S.(2013)。用于二恶英接触研究的多重插补数据的变量选择。统计医学32 3646-3659·doi:10.1002/sim.5783
[6] Claeskens,G.和Consentino,F.(2008)。具有不完整协变量数据的变量选择。生物统计学64 1062-1069·Zbl 1152.62388号 ·doi:10.1111/j.1541-0420.2008.01003.x
[7] Derksen,S.和Keselman,H.J.(1992年)。向后、向前和逐步自动子集选择算法:获取真实和噪声变量的频率。英国数学杂志。Stat.Psychol公司。45 265-282.
[8] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[9] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[10] Frerichs,L.、Perin,D.M.P.和Huang,T.T.-K.(2012)。儿童肥胖研究的当前趋势。当前营养报告1 228-238。
[11] Garcia,R.I.、Ibrahim,J.G.和Zhu,H.(2010a)。缺少数据的回归模型的变量选择。统计师。Sinica 20 149-165年·Zbl 1180.62057号
[12] Garcia,R.I.、Ibrahim,J.G.和Zhu,H.(2010年b)。随机缺失协变量的Cox回归模型中的变量选择。生物统计学66 97-104·兹比尔1187.62167 ·文件编号:10.1111/j.1541-0420.2009.01274.x
[13] Glynn,R.J.、Laird,N.M.和Rubin,D.B.(1993)。混合模型中不可忽视的无应答与随访的多重插补。J.Amer。统计师。协会88 984-993·Zbl 0780.62011号 ·doi:10.2307/2290790
[14] Groll,A.和Tutz,G.(2014年)。基于(L_{1})惩罚估计的广义线性混合模型变量选择。统计计算。24 137-154之间·Zbl 1325.62139号 ·数字对象标识代码:10.1007/s11222-012-9359-z
[15] Hastie,T.、Tibshirani,R.、Friedman,J.和Franklin,J.(2005)。统计学习的要素:数据挖掘、推理和预测。数学。情报员27 83-85。
[16] Hurvich,C.M.和Tsai,C.L.(1990年)。线性回归中模型选择对推理的影响。阿默尔。统计师。44 214-217.
[17] Ibrahim,J.G.、Zhu,H.、Garcia,R.I.和Guo,R.(2011)。混合效应模型中的固定效应和随机效应选择。生物统计学67 495-503·Zbl 1217.62171号 ·文件编号:10.1111/j.1541-0420.2010.01463.x
[18] Johnson,B.A.、Lin,D.Y.和Zeng,D.(2008)。半参数回归模型中的惩罚估计函数和变量选择。J.Amer。统计师。协会103 672-680·Zbl 1471.62330号 ·doi:10.1198/0162145000000184
[19] Kral,T.V.和Faith,M.S.(2009年)。从行为遗传学角度对儿童饮食和体重发展的影响。《儿科心理学杂志》34 596-605。
[20] Laird,N.M.和Ware,J.H.(1982年)。纵向数据的随机效应模型。生物统计学38 963-974·Zbl 0512.62107号 ·doi:10.2307/2529876
[21] Larson,N.I.、Wall,M.M.、Story,M.T.和Neumark-Sztainer,D.R.(2013)。家庭/家庭、同龄人、学校和社区与青少年肥胖相关。肥胖(银泉)21 1858-1869。
[22] Matthews,B.W.(1975年)。T4噬菌体溶菌酶二级结构预测值与观察值的比较。生物化学与生物物理学报(BBA)-蛋白质结构405 442-451。
[23] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。J.R.统计社会服务。B.统计方法。72 417-473. ·文件编号:10.1111/j.1467-9868.2010.00740.x
[24] Neumark-Sztainer,D.、Wall,M.M.、Larson,N.、Story,M.、Fulkerson,J.A.、Eisenberg,M.E.和Hannan,P.J.(2012)。1999年至2010年青少年体重状况以及与体重相关的态度和行为的长期趋势。预防医学54 77-81。
[25] Rubin,D.B.(1987)。调查中无应答的多重插补。纽约威利·2007年6月10日
[26] Shen,C.-W.和Chen,Y.-H.(2012)。适应辍学损失的广义估计方程的模型选择。生物统计学68 1046-1054·Zbl 1258.62108号 ·doi:10.1111/j.1541-0420.2012.01758.x
[27] Siddique,J.和Belin,T.R.(2008)。使用近似贝叶斯引导法对不可忽略的缺失数据进行乘法插补。计算。统计师。数据分析。53 405-415. ·Zbl 1231.62037号 ·doi:10.1016/j.csda.2008.07.042
[28] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.R.统计社会服务。B.统计方法。58 267-288. ·Zbl 0850.62538号
[29] Wang,S.、Nan,B.、Rosset,S.和Zhu,J.(2011)。随机套索。附录申请。统计数字5 468-485·Zbl 1220.62091号 ·doi:10.1214/10-AOAS377
[30] Wood,A.M.、White,I.R.和Royston,P.(2008年)。如何使用多重插补数据进行变量选择?Stat.Med.27 3227-3246·doi:10.1002/sim.3177
[31] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B.统计方法。67 301-320. ·兹比尔1069.62054 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。