×

关于推导多元回归模型的稳定性问题。 (英语) Zbl 1329.62035号

摘要:在分析实证数据的许多科学领域,任务通常是确定影响结果的重要变量。这通常是通过在多变量回归模型中使用变量选择策略来实现的。通过对儿童臭氧影响的研究(n=496,24个协变量),我们将讨论与推导合适模型相关的方面。以模型稳定性为重点,我们将探讨并说明预测模型和解释模型之间的差异、停止标准的关键作用以及引导重采样的价值(有替换和无替换)。Bootstrap重采样将用于评估变量选择的稳定性,导出包含模型不确定性的预测器,检查影响点,并可视化变量选择过程。对于后两项任务,我们调整和扩展了最近的方法,例如稳定路径,以达到我们的目的。根据之前的经验和示例的结果,我们将讨论更简单的模型,并且无论使用何种选择方法,预测通常都非常相似。相应方差存在重要差异,模型不确定性概念有助于防止严重低估相关预测衍生数据的方差。稳定性调查结果表明,在推导合适的解释模型的任务中存在严重困难。似乎可以确定少数对结果有重要且可能真正影响的变量,但通常会包含几个变量,这些变量的选择可能是偶然的结果,也可能取决于少数观察结果。

MSC公司:

62-07 数据分析(统计)(MSC2010)
62H11型 定向数据;空间统计学
62页第10页 统计学在生物学和医学中的应用;元分析
62J05型 线性回归;混合模型
62F40型 引导、折刀和其他重采样方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H.(1973)。信息论和最大似然原理。摘自:Petrov,B.N.(主编)和Csaki,F.(主编辑),第二届信息理论国际研讨会。Akademiai Kiado,匈牙利布达佩斯,第267-281页·Zbl 0283.62006号
[2] Altman,D.G.和Andersen,P.K.(1989)。Cox回归模型稳定性的Bootstrap研究。医学统计8771-783。
[3] Andersen,P.K.和Skovgaard,L.T.(2010)。线性预测回归。纽约州纽约州施普林格·兹比尔1284.62025
[4] Atkinson,A.C.(1981)。回归中外围和有影响的观测值的稳健性、转换和两个图形显示。生物特征68,13-20·Zbl 0462.62049号
[5] Augustin,N.H.、Sauerbrei,W.和Schumacher,M.(2005)。将模型选择不确定性纳入生存数据预测模型的实用性。统计建模5,95-118·Zbl 1071.62096号
[6] Babu,J.G.(2011)。模型拟合和模型选择的重采样方法。《生物制药统计学杂志》21,1177-1186。
[7] Binder,H.和Sauerbrei,W.(2009年)。使用纽结去除法对呼吸健康数据的加性样条模型进行稳定性分析。《皇家统计学会杂志》C58,577-600。
[8] Binder,H.和Schumacher,M.(2008a)。在高维bootstrap样本中调整预测误差估计值以进行有偏复杂度选择。遗传学和分子生物学中的统计应用7,第12条·Zbl 1276.62060号
[9] Binder,H.和Schumacher,M.(2008b)。考虑强制协变量,以提高稀疏高维生存模型的估计。BMC生物信息学9、14。
[10] Bland,M.J.和Altman,D.G.(1986年)。评估两种临床测量方法之间一致性的统计方法。《柳叶刀》8307-310。
[11] Box,G.E.P.(1979)。科学建模策略的稳健性。收录于:Launer,R.L.(编辑)和Wilkinson,G.N.(编辑,编辑),《统计学中的稳健性》。学术出版社,纽约州纽约市,第201-236页。
[12] Breiman,L.(1992)。回归中选择维度的小bootstrap和其他方法:X固定预测误差。《美国统计协会杂志》87,738-754·Zbl 0850.62518号
[13] Breiman,L.(1996)。装袋预测器。机器学习24123-140·Zbl 0858.68080号
[14] Buchholz,A.、Holländer,N.和Sauerbrei,W.(2008)。关于用两步bootstrap模型平均法导出的预测因子的性质——线性回归模型中的模拟研究。计算统计与数据分析52,2778-2793·Zbl 1452.62038号
[15] 巴克兰,S.T.,伯纳姆,K.P.和奥古斯丁,N.H.(1997)。模型选择:推理不可或缺的一部分。生物统计学53,603-618·Zbl 0885.62118号
[16] Bühlmann,P.和Yu,B.(2003)。L2损失推动:回归和分类。《美国统计协会杂志》98,324-339·Zbl 1041.62029号
[17] Burnham,K.P.和Anderson,D.R.(2004)。多模型推理——在模型选择中理解AIC和BIC。社会学方法与研究33,261-304。
[18] Chen,C.和George,S.L.(1985)。通过Cox比例风险回归模型对预后因素的引导和识别。医学统计4,39-46。
[19] Chernick,M.R.(2008)。引导方法。执业者和研究人员指南。新泽西州霍博肯威利·Zbl 1136.62029号
[20] Cox,D.R.(1972)。回归模型和生命表(含讨论)。英国皇家统计学会期刊B34187-220·Zbl 0243.62041号
[21] Davison,A.C.和Hinkley,D.V.(1997年)。引导方法及其应用。剑桥大学出版社,马萨诸塞州剑桥·Zbl 0886.62001号
[22] Davison,A.C.、Hinkley,D.V.和Young,G.A.(2003)。引导方法的最新发展。统计科学18,141-157·Zbl 1331.62179号
[23] Efron,B.(1979年)。引导方法:另一个看刀。统计年鉴7,1-26·Zbl 0406.62024号
[24] Efron,B.(1983年)。估计预测规则的错误率:改进交叉验证。《美国统计协会杂志》78,316-331·Zbl 0543.62079号
[25] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。《统计学年鉴》32407-499·Zbl 1091.62054号
[26] Furnival,G.M.和Wilson,R.W.(1974年)。跳跃式回归。技术计量16,499-511·Zbl 0294.62079号
[27] Gifi,J.(1990)。非线性多元分析。英国奇切斯特John Wiley&Sons·Zbl 0697.62048号
[28] Gong,G.(1982)。关于使用引导程序评估模型可变性的一些想法。摘自:海纳·K·W(编辑)、萨切尔·R·S(编辑)和威尔金森·J·W(主编),《计算机科学与统计:第14届界面研讨会论文集》。施普林格,纽约州纽约市,第169-173页·Zbl 0566.62003号
[29] 格陵兰,S.(1989)。流行病学分析中的建模和变量选择。《美国公共卫生杂志》79,340-348。
[30] Harrell,F.E.(2001)。回归建模策略,以及线性模型、逻辑回归和生存分析的应用。纽约州纽约州施普林格·Zbl 0982.62063号
[31] Hastie,T.、Taylor,J.、Tibshirani,R.和Walther,G.(2007年)。正向分段回归和单调套索。电子统计杂志1,1-29·Zbl 1306.62176号
[32] Hoeting,J.A.、Madigan,D.、Raftery,A.E.和Volinsky,C.T.(1999)。贝叶斯模型平均:教程(含讨论)。统计科学14,382-417·Zbl 1059.62525号
[33] Hothorn,T.、Hornik,K.、Strobl,K.和Zeileis,A.(2013)。递归分区的实验室。R软件包版本1.0-8。可在http://cran.r网址‐project.org/web/packages/party/index.html。
[34] Ihorst,G.、Frischer,T.、Horak,F.、Schumacher,M.、Kopp,M.,Forster,J.、Mattes,J.和Kuehr,J.(2004)。臭氧对肺部生长的长期和中期影响,包括广泛的暴露。《欧洲呼吸杂志》23,292-299。
[35] Janitza,S.,Binder,H.和Boulesteix,A.‐L。(2014). 自举样本的假设检验和模型选择的陷阱:生物特征应用中的原因和后果。慕尼黑LMU统计部技术报告163。可在网址:https://epub.ub.uni‐muenchen.de/2038/index.html。
[36] LePage,R.和Billard,L.(1992年)。探索引导的局限性。威利,纽约州纽约市。
[37] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。《皇家统计学会杂志》B72,417-473·Zbl 1411.62142号
[38] Miller,A.J.(2002)。回归中的子集选择(第二版)。查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 1051.62060号
[39] Nixon,R.M.和Thompson,S.G.(2004)。医学研究中成本数据的参数化建模。医学统计231311-1331。
[40] Park,T.和Casella,G.(2008)。贝叶斯套索。《美国统计协会杂志》103,681-686·Zbl 1330.62292号
[41] Porzelius,C.、Schumacher,M.和Binder,H.(2010年)。低维生存环境中的稀疏回归技术。统计与计算20,151-163。
[42] Rousseeuw,P.J.和Leroy,A.M.(1987)。稳健回归和异常检测。威利,纽约州纽约市·Zbl 0711.62030号
[43] Royston,P.、Altman,D.G.和Sauerbrei,W.(2006年)。将多元回归中的连续预测因子二分法:一个坏主意。医学统计25127-141。
[44] Royston,P.和Sauerbrei,W.(2003)。具有变量选择和变换的多变量分数多项式模型的稳定性:自举研究。医学统计22,639-659。
[45] Royston,P.和Sauerbrei,W.(2008)。多变量模型构建——基于分数多项式建模连续变量的回归分析实用方法。威利,纽约州纽约市·Zbl 1269.62053号
[46] Sauerbrei,W.(1993年)。比较回归模型中变量选择程序的模拟研究和实例。收录:Michaelis,J.(编辑)、Hommel,G.和Wellek,S。MMV,缪晨,第108-113页。
[47] Sauerbrei,W.(1999)。在医学统计学中使用重采样方法来简化回归模型。应用统计48313-329·Zbl 0939.62114号
[48] Sauerbrei,W.,Boulesteix,A.-L。和Binder,H.(2011)。针对低维和高维数据导出的多变量回归模型的稳定性研究。《生物制药统计杂志》21,1206-1231。
[49] Sauerbrei,W.和Royston,P.(2007)。建模以从临床试验数据中提取更多关于引导的一些角色的信息。医学统计264989-5001。
[50] Sauerbrei,W.、Royston,P.和Binder,H.(2007)。多变量模型构建中重要变量的选择和连续预测函数形式的确定。医学统计26,5512-5528。
[51] Sauerbrei,W.和Schumacher,M.(1992年)。用于模型构建的引导重采样过程:应用于Cox回归模型。医学统计11,2093-2109。
[52] Schemper,M.(1993)。预后因素在生存研究中的相对重要性。医学统计12,2377-2382。
[53] Shmueli,G.(2010年)。解释还是预测?统计科学3,289-310·Zbl 1329.62045号
[54] Strobl,C.,Boulesteix,A.‐L。,Zeileis,A.和Hothorn,T.(2007年)。随机森林变量重要性度量中的偏差:插图、来源和解决方案。BMC生物信息学8,25。
[55] Tibshirani,R.(1996)。通过套索回归收缩和选择。《皇家统计学会杂志》58,267-288·Zbl 0850.62538号
[56] Tsao,M.和Ling,X.(2012)。回归模型稳健估计的子抽样方法。开放统计杂志2,281-296。
[57] Tutz,G.和Binder,H.(2007年)。推进岭回归。计算统计学和数据分析51604-6059·Zbl 1330.62294号
[58] Van Houwelingen,H.C.(2001)。收缩和惩罚似然作为提高预测准确性的方法。Neerlandica统计55,17-34·Zbl 1075.62591号
[59] Van Houwelingen,H.C.和Sauerbrei,W.(2013)。重新审视线性回归中的交叉验证、收缩和变量选择。开放统计杂志3,79-102。
[60] Westfall,P.H.(2011)。关于使用引导数据库进行多次比较。《生物制药统计杂志》21,1187-1205。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。