×

高维考克斯模型:作为模型构建过程的一部分,选择惩罚。 (英语) Zbl 1442.62257号

摘要:Cox比例风险回归模型是最流行的建模生存时间协变量信息的方法。在这种情况下,协变数远大于观测数的高维模型的开发是一个持续的挑战。一种可行的方法是在这种情况下使用岭惩罚Cox回归。除了专注于寻找最佳预测规则外,人们还常常对确定对预后最重要的协变量子集感兴趣。这可能是微阵列数据生物统计分析中的一组基因。例如,协变量选择可以通过使用Lasso的(L_{1})惩罚Cox回归来完成[提卜希拉尼,“Cox模型中变量选择的Lasso方法”,《统计医学》第16卷第4期,385–395页(1997年;doi:10.1002/(sici)1097-0258(19970228)16:4<385::aid-sim380>3.0.co;2-3)]. 近年来,除了拉索之外,还开发了几种结合协变量选择的方法。这包括对拉索和非凸变量的修改,如平滑剪裁绝对偏差(SCAD)[J.风扇R.李《美国统计协会期刊》96,第456、1348–1360号(2001年;Zbl 1073.62547号); Ann.Stat.30,No.1,74-99(2002;Zbl 1012.62106号].
本文的目的是在使用考克斯比例风险模型分析高维数据时,将其实际应用到模型构建过程中。为了评估Lasso以外的受惩罚回归模型,我们包括SCAD变量和自适应Lasso[H.邹《美国统计协会期刊》第101卷第476、1418–1429号(2006年;Zbl 1171.62326号)]. 我们将其与“标准”应用程序进行比较,如岭回归、拉索和弹性网。将研究预测准确性、变量选择特征和估计偏差,以评估这些方法的实际应用。我们观察到SCAD和自适应Lasso的性能高度依赖于非平凡的预选过程。这个问题的实际解决方案尚不存在。由于在不适当的初始选择步骤后使用SCAD或自适应套索时,存在丢失相关协变量的高风险,因此我们建议在实际数据应用中使用套索或弹性网。但是,关于真正稀疏模型的有希望的结果,我们看到了SCAD和自适应拉索的一些优点,如果可以使用更好的预选程序的话。这需要进一步的方法研究。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62J07型 岭回归;收缩估计量
62号02 生存分析和删失数据中的估计
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bair,《监督主成分预测》,《美国统计协会杂志》101第119页–(2006)·Zbl 1118.62326号
[2] Bender,《生成生存时间以模拟Cox比例风险模型》,《医学统计学》24卷1713页–(2005年)
[3] Bickel,《Lasso和Dantzig选择器的同步分析》,《统计年鉴》第37卷第1705页–(2009年)·Zbl 1173.62022号
[4] Bøvelstad,《从微阵列数据预测生存率——一项比较研究》,生物信息学23第2080页——(2007)
[5] Brier,《用概率表示的预测验证》,《月度天气评论》78页,第1页–(1950)
[6] Bühlmann,关于“超高维特征空间的确定独立筛选”的讨论(J.Fan和J.Lv),《皇家统计学会杂志》,B辑70 pp 884–(2008)
[7] Dupuy,《已发表的癌症预后微阵列研究的批判性评论以及统计分析和报告指南》,《国家癌症研究所杂志》99,第147页–(2007)
[8] Fan,通过非一致惩罚似然进行变量选择及其预言属性,《美国统计协会杂志》96页1348–(2001)·Zbl 1073.62547号
[9] Fan,Cox比例风险模型和脆弱性模型的变量选择,《统计年鉴》30第74页–(2002)·Zbl 1012.62106号
[10] Fan,超高维特征空间的确定独立筛选,《皇家统计学会杂志》,B辑70页849–(2008)
[11] Gneiting,《严格正确的评分规则、预测和估计》,《美国统计协会杂志》102第359页–(2007)·Zbl 1284.62093号
[12] Goeman,J.(2009)。L1和L2惩罚回归模型。R包版本0.9-24。
[13] Goeman,Cox比例风险模型中L1惩罚估计,《生物医学杂志》52第70页–(2010)·Zbl 1207.62185号
[14] Graf,生存数据预后分类方案的评估和比较,《医学统计学》18页2529–(1999)
[15] Hummel,预后基因特征和功能基因集之间的关联,生物信息学和生物学见解2,第335页–(2008)
[16] Knight,套索型估计量的渐近性,《统计年鉴》28页1356–(2000)·Zbl 1105.62357号
[17] Kohlmann,基因表达谱在常规白血病诊断中应用的国际标准化计划:白血病研究准备阶段的微阵列创新,英国血液学杂志142第802页–(2008)
[18] Meinshausen,《用套索选择高维图和变量》,《统计年鉴》34,第1436页–(2006)·兹比尔1113.62082
[19] Meinshausen,《讨论:三个堂兄弟的故事:拉索、L2boosting和丹齐格》,《统计年鉴》第35卷第2373页–(2007年)
[20] Metzeler,86探针集基因表达特征预测细胞遗传学正常的急性髓细胞白血病的生存率,《血液》112第4193页–(2008)
[21] Pawitan,使用Cox回归预测基因表达谱,《医学统计学》23页1767–(2004)
[22] 舒马赫,基于微阵列数据的生存预测模型评估,生物信息学23页1768–(2007)
[23] Shedden,基于基因表达的肺腺癌生存预测:一项多地点、盲法验证研究,《自然医学》14,第822页–(2008)
[24] Tibshirani,Cox模型中变量选择的套索方法,《医学统计学》16,第385页–(1997)
[25] Tibshirani,高维数据Cox模型中的单变量收缩,遗传学和分子生物学中的统计应用8(2009)·Zbl 1276.62096号
[26] van de Vijver,基因表达特征作为乳腺癌生存预测因子,《新英格兰医学杂志》第347页,1999-(2002)
[27] van Houwelingen,微阵列基因表达数据的交叉验证Cox回归,《医学统计学》25页3201–(2006)
[28] van Wieringen,《使用基因表达数据进行生存预测:回顾与比较》,《计算统计与数据分析》53页1590–(2009)·Zbl 1453.62225号
[29] van t Veer,基因表达谱预测乳腺癌的临床结局,《自然》415第530页–(2002)
[30] Verweij,生存分析中的交叉验证,《医学统计学》12页2305–(1993)
[31] Verweij,Cox回归中的惩罚可能性,《医学统计学》13,第2427页–(1994)
[32] Wyatt,评论:预后模型:临床有用还是很快被遗忘?,英国医学杂志311第1539页–(1995)·doi:10.1136/bmj.311.7019.1539
[33] Zhang,Cox比例风险模型的自适应套索,Biometrika 94 pp 691–(2007)·Zbl 1135.62083号
[34] 赵,《关于套索模型选择一致性的研究》,《机器学习研究杂志》,第7页,2541–(2006)·兹比尔1222.62008
[35] 邹,自适应套索及其预言性质,《美国统计协会杂志》101第1418页–(2006)·Zbl 1171.62326号
[36] 邹,通过弹性网进行正则化和变量选择,《皇家统计学会杂志》,B辑67第301页–(2005)·Zbl 1069.62054号
[37] 邹,非冲突惩罚似然模型中的一步稀疏估计(讨论),《统计年鉴》36页1509–(2008)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。