×

基于L_1惩罚估计的广义线性混合模型变量选择。 (英语) Zbl 1325.62139号

摘要:广义线性混合模型是一种广泛使用的纵向数据建模工具。然而,它们的使用通常仅限于少数协变量,因为许多预测因子的存在会产生不稳定的估计。本文提出的广义线性混合模型拟合方法包括一个L_1惩罚项,该惩罚项同时强制变量选择和收缩。提出了一种梯度上升算法,该算法可以在降低复杂度的情况下最大化惩罚对数似然屈服模型。与普通程序不同,它可以用于高维环境,其中有大量潜在影响的解释变量可用。该方法在仿真研究中进行了研究,并使用实际数据集进行了说明。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62-07 数据分析(统计)(MSC2010)
62页第10页 统计学在生物学和医学中的应用;元分析
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H.:信息理论和最大似然原理的扩展。摘自:第二届信息理论国际研讨会,第267-281页(1973年)·Zbl 0283.62006号
[2] Bates,D.,Maechler,M.:lme4:使用S4类的线性混合效应模型。R包版本0.999375-34(2010)
[3] Bondell,H.D.,Krishna,A.,Ghosh,S.K.:线性混合效应模型中固定效应和随机效应的联合变量选择。生物统计学66,1069–1077(2010)·Zbl 1233.62134号 ·文件编号:10.1111/j.1541-0420.2010.01391.x
[4] Booth,J.G.:广义混合模型的Bootstrap方法及其在小面积估算中的应用。参见:Seeber,G.U.H.,Francis,B.J.,Hatzinger,R.,Steckel-Berger,G.(编辑)《统计建模》,第104卷,第43-51页。施普林格,纽约(1996)·Zbl 0925.62311号
[5] Booth,J.G.,Hobert,J.P.:使用自动蒙特卡罗EM算法最大化广义线性混合模型的可能性。J.R.Stat.Soc.B 61、265–285(1999)·Zbl 0917.62058号 ·doi:10.1111/1467-9868.00176
[6] Breiman,L.:模型选择中不稳定性和稳定性的启发式。Ann.Stat.6,2350–2383(1996)·Zbl 0867.62055号
[7] Breiman,L.:电弧分类器。Ann.Stat.26,801–849(1998年)·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[8] Breslow,N.E.,Clayton,D.G.:广义线性混合模型中的近似推断。《美国统计协会期刊》88,9–25(1993)·Zbl 0775.62195号
[9] Breslow,N.E.,Lin,X.:具有单个离散分量的广义线性混合模型中的偏差校正。《生物特征》82、81–91(1995)·Zbl 0823.62059号 ·doi:10.1093/biomet/82.181
[10] Broström,G.:glmmML:带聚类的广义线性模型。R包版本0.81-6(2009)
[11] Bühlmann,P.,Hothorn,T.:增强算法:正则化、预测和模型拟合。统计科学。22, 477–522 (2007) ·兹比尔1246.62163 ·doi:10.1214/07-STS242
[12] Bühlmann,P.,Yu,B.:L2损失推动:回归和分类。《美国统计协会期刊》98、324–339(2003)·Zbl 1041.62029号 ·doi:10.1198/0162145003000125
[13] Candes,E.,Tao,T.:Dantzig选择器:当p远大于n时的统计估计Ann.Stat.35,2313–2351(2007)·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[14] Chatterjee,A.,Lahiri,S.N.:自举套索估值器。《美国统计协会期刊》106、608–625(2011)·Zbl 1232.62088号 ·doi:10.1198/jasa.2011.tm10159
[15] Davison,A.C.,Hinkley,D.V.:Bootstrap方法及其应用。剑桥大学出版社,剑桥(1997)·Zbl 0886.62001号
[16] 埃夫隆(Efron,B.):《折刀》(The Jackknife)、《引导带》(The Bootstrap)和其他重新采样计划。SIAM:CBMS-NSF应用数学区域会议系列,第38卷。(1982) ·Zbl 0496.62036号
[17] Efron,B.:估计预测规则的错误率:交叉验证的改进。《美国统计协会期刊》78、316–331(1983)·Zbl 0543.62079号 ·doi:10.1080/01621459.1983.10477973
[18] Efron,B.:预测规则的表观错误率有多大偏差?《美国统计协会期刊》81、461–470(1986)·Zbl 0621.62073号 ·doi:10.1080/01621459.1986.10478291
[19] Efron,B.,Tibshirani,R.:Bootstrap简介。查普曼&纽约霍尔(1993)·Zbl 0835.62038号
[20] Efron,B.,Hastie,T.,Johnstone,I.,Tibshirani,R.:最小角度回归。Ann.Stat.32,407–499(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[21] Fahrmeir,L.,Lang,S.:基于马尔可夫随机场先验的广义可加混合模型的贝叶斯推断。申请。《统计》第50卷,第201–220页(2001年)。doi:10.111/1467-9876.00229
[22] Fahrmeir,L.,Tutz,G.:基于广义线性模型的多元统计建模,第2版。施普林格,纽约(2001)·Zbl 0980.62052号
[23] Fan,J.,Li,R.:通过非冲突惩罚可能性及其预言属性的变量选择。《美国法律总汇》第961348-1360页(2001年)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[24] Freund,Y.,Schapire,R.E.:一种新的增强算法的实验。摘自:《第十三届机器学习国际会议论文集》,第148-156页。Morgan Kaufmann,旧金山(1996)
[25] Friedman,J.H.:贪婪函数近似:梯度提升机。Ann.Stat.29,337–407(2001)·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[26] Geissler,S.:预测样本重用方法及其应用。《美国统计协会杂志》70、320–328(1975)·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[27] Genkin,A.,Lewis,D.,Madigan,D.:文本分类的大尺度贝叶斯逻辑回归。技术计量学49,291–304(2007)·doi:10.1198/004017000000245
[28] Goeman,J.J.:考克斯比例风险模型中的L1惩罚估计。生物。J.52,70–84(2010)·Zbl 1207.62185号
[29] Groll,A.:glmmLasso:通过L1优化估计对广义线性混合模型进行变量选择。R包版本1.0.1(2011a)·Zbl 1235.62090号
[30] Groll,A.:GMMBoost:广义混合模型的基于组件似然的推进方法。R包版本1.0.2(2011b)
[31] Gui,J.,Li,H.Z.:高维和低样本设置下的惩罚Cox回归分析,应用于微阵列基因表达数据。生物信息学21,3001–3008(2005)·doi:10.1093/bioinformatics/bti422
[32] Hastie,T.、Rosset,S.、Tibshirani,R.、Zhu,J.:支持向量机的整个正则化路径。J.马赫。学习。第5号决议,1391-1415(2004年)·Zbl 1222.68213号
[33] 易卜拉欣,J.G.,朱,H.,加西亚,R.I.,郭,R.:混合效应模型中的固定效应和随机效应选择。生物统计学67,495–503(2011)·Zbl 1217.62171号 ·文件编号:10.1111/j.1541-0420.2010.01463.x
[34] James,G.M.,Radchenko,P.:具有收缩调整的通用Dantzig选择器。生物特征96(2),323–337(2009)·Zbl 1163.62054号 ·doi:10.1093/biomet/asp013
[35] Kim,Y.,Kim,J.:用于特征选择的渐变套索。收录于:《第21届国际机器学习大会论文集》。ACM国际会议文集,第69卷,第473–480页(2004)
[36] Kneib,T.、Hothorn,T.和Tutz,G.:地质加性回归中的变量选择和模型选择。生物计量学65,626–634(2009)·Zbl 1167.62096号 ·doi:10.1111/j.1541-0420.2008.01112.x
[37] Lesaffre,E.,Asefa,M.,Verbeke,G.:评估巢穴和器皿模型的神性-示例:Jimma婴儿生存差异纵向研究。Stat.Med.18,835–854(1999年)·doi:10.1002/(SICI)1097-0258(19990415)18:7<835::AID-SIM75>3.0.CO;2-7
[38] Lin,X.,Breslow,N.E.:具有多个离散分量的广义线性混合模型中的偏差校正。《美国统计协会期刊》91,1007–1016(1996)·Zbl 0882.62059号 ·doi:10.1080/01621459.1996.10476971
[39] Littell,R.,Milliken,G.,Stroup,W.,Wolfinger,R.:混合模型的SAS系统。SAS Institute Inc.,Cary(1996)
[40] McCullagh,P.:重采样和可交换阵列。伯努利6,303–322(2000)·Zbl 0976.62035号 ·doi:10.2307/3318577
[41] McCulloch,C.E.,Searle,S.R.,Neuhaus,J.M.:广义、线性和混合模型,第2版。威利,纽约(2008)·Zbl 1165.62050号
[42] Meier,L.,Van de Geer,S.,Bühlmann,P.:逻辑回归的组套索。J.R.Stat.Soc.B 70、53–71(2008)·兹比尔1400.62276 ·文件编号:10.1111/j.1467-9868.2007.00627.x
[43] Ni,X.,Zhang,D.,Zhanng,H.H.:纵向研究中半参数混合模型的变量选择。生物统计学66,79–88(2010)·Zbl 1187.62075号 ·doi:10.1111/j.1541-0420.2009.01240.x
[44] Osborne,M.,Presnell,B.,Turlach,B.:关于套索及其对偶。J.计算。图表。统计(2000)
[45] Park,M.Y.,Hastie,T.:广义线性模型的L1正则化路径算法。J.R.Stat.Soc.B 19,659–677(2007年)·doi:10.1111/j.1467-9868.2007.00607.x
[46] Picard,R.,Cook,D.:回归模型的交叉验证。《美国统计协会期刊》79,575–583(1984)·Zbl 0547.62047号 ·doi:10.1080/01621459.1984.10478083
[47] Pinheiro,J.C.,Bates,D.M.:S和S-Plus中的混合效应模型。施普林格,纽约(2000年)·兹比尔0953.62065
[48] Radchenko,P.,James,G.M.:变量包含和收缩算法。《美国统计协会期刊》103,1304–1315(2008)·兹比尔1205.62100 ·doi:10.1198/016214500000481
[49] Schall,R.:具有随机效应的广义线性模型中的估计。《生物特征》78、719–727(1991)·Zbl 0850.62561号 ·doi:10.1093/biomet/78.4.719
[50] Schelldorfer,J.:lmmlasso:拉索线性混合效应模型。R包版本0.1-2。(2011)
[51] Schelldorfer,J.,Bühlmann,P.:GLMMLasso:使用L1-enalization的高维广义线性混合模型算法。预印本,苏黎世联邦理工学院,(2011年)。http://stat.ethz.ch/people/schell ·Zbl 1246.62161号
[52] Schelldorfer,J.,Bühlmann,P.,van de Geer,S.:使用L1-enalization估计高维线性混合效应模型。扫描。《美国联邦法律大全》38(2),197-214(2011)·Zbl 1246.62161号 ·doi:10.1111/j.1467-9469.2011.00740.x
[53] Schwarz,G.:估算模型的维数。Ann.Stat.6,461–464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[54] Segal,M.R.:与存活表型相关的微阵列基因表达数据:再次访问弥漫性大b细胞淋巴瘤。生物统计学7268–285(2006)·Zbl 1169.62388号 ·doi:10.1093/biostatistics/kxj006
[55] Shang,J.,Cavanaugh,J.E.:混合模型选择的Akaike信息标准的Bootstrap变体。计算。统计数据分析。52, 2004–2021 (2008) ·Zbl 1452.62512号 ·doi:10.1016/j.csda.2007.06.019
[56] Shevade,S.K.,Keerthi,S.S.:一种使用稀疏逻辑回归进行基因选择的简单高效算法。生物信息学19,2246–2253(2003)·doi:10.1093/bioinformatics/btg308
[57] Stone,M.:统计预测的交叉验证选择和评估(讨论)。J.R.Stat.Soc.B 36、111–147(1974)·Zbl 0308.62063号
[58] Stone,M.:交叉验证:综述。数学。Oper.forsch公司。Stat.9,127–139(1978年)·兹伯利039262052
[59] Tibshirani,R.:通过套索进行回归收缩和选择。J.R.Stat.Soc.B 58、267–288(1996)·Zbl 0850.62538号
[60] Tibshirani,R.:Cox模型中变量选择的套索方法。Stat.Med.16,385–395(1997)·doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3
[61] Tutz,G.,Groll,A.:基于增压的广义线性混合模型。摘自:Kneib,T.,Tutz,G.(编辑)《统计建模和回归结构——路德维希·法赫梅尔荣誉节》。《物理》,海德堡(2010)
[62] Tutz,G.,Groll,A.:二进制和有序随机效应模型中基于似然数的增强。J.计算。图表。统计数据(2012年)。doi:10.1080/10618600.2012.694769
[63] Tutz,G.,Reithinger,F.:柔性半参数混合模型的增强方法。Stat.Med.26,2872–2900(2007年)·数字对象标识代码:10.1002/sim.2738
[64] Venables,W.N.,Ripley,B.D.:《现代应用统计学与S》,第4版。斯普林格,纽约(2002)·Zbl 1006.62003号
[65] Vonesh,E.F.:关于拉普拉斯近似用于非线性混合效应模型的注释。《生物特征》83、447–452(1996)·Zbl 0878.62019号 ·doi:10.1093/biomet/83.2.447
[66] Wang,D.,Eskridge,K.M.,Crossa,J.:使用自适应混合套索识别结构植物种群中的QTL和上位性。《农业杂志》。生物与环境。统计数据16,170–184(2010a)·Zbl 1306.62358号 ·doi:10.1007/s13253-010-0046-2
[67] Wang,S.,Song,P.X.,Zhu,J.:线性混合效应模型中固定效应和随机效应的估计和选择的双正则REML。密歇根大学技术报告89(2010b)
[68] Wolfinger,R.W.:非线性混合模型的拉普拉斯近似。《生物特征》80、791–795(1994)·Zbl 0800.62351号 ·doi:10.1093/biomet/80.4.791
[69] Wolfinger,R.,O'Connell,M.:广义线性混合模型;伪似然方法。J.统计计算。模拟。48, 233–243 (1993) ·Zbl 0833.62067号 ·网址:10.1080/00949659308811554
[70] Wood,S.N.:广义加性模型:R.Chapman和amp;霍尔,伦敦(2006)·Zbl 1087.62082号
[71] Yang,H.:纵向数据分析中广义线性混合模型的变量选择程序。北卡罗来纳州立大学博士论文(2007年)
[72] Yuan,M.,Lin,Y.:分组变量回归中的模型选择和估计。J.R.Stat.Soc.B 68,49–67(2006年)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005.00532.x
[73] Zhao,P.,Rocha,G.,Yu,B.:分组和分层变量选择的复合绝对惩罚系列。Ann.Stat.37,3468–3497(2009年)·兹比尔1369.62164 ·doi:10.1214/07-AOS584
[74] Zou,H.,Hastie,T.:通过弹性网进行正则化和变量选择。J.R.Stat.Soc.B 67,301–320(2005)·Zbl 1069.62054号 ·doi:10.1111/j.1467-9868.2005.00503.x
[75] Zou,H.,Hastie,T.:自适应套索及其预言属性。《美国统计协会期刊》101,1418–1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。