×

广义线性模型中拉索的AIC。 (英语) Zbl 1347.62145号

摘要:拉索是一种流行的正则化方法,可以同时进行估计和模型选择。它包含一个正则化参数,并提出了几个选择其适当值的信息准则。虽然它们中的任何一个都可以确保模型选择的一致性,但我们没有适当的规则在标准之间进行选择。同时,在高斯回归设置中对AIC进行了有限修正。从理论上来说,有限修正不是从一致性的角度来保证的,而是从最小化预测误差的角度来确保的,并且不存在上述困难。我们的目的是为广义线性模型中的拉索推导这样一个准则。为此,我们从AIC的原始定义中导出了一个准则,即Kullback-Leibler散度的渐近无偏估计。这成为高斯回归设置中的有限修正,因此我们的准则可以被视为其推广。我们的标准很容易获得,并且比交叉验证需要更少的计算任务,但仿真研究和实际数据分析表明,其性能几乎与交叉验证相同或优于交叉验证。此外,我们的准则还推广到了其他一类正则化方法。

MSC公司:

62J07型 岭回归;收缩估计量
62J12型 广义线性模型(逻辑模型)
62E20型 统计学中的渐近分布理论
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1973)。信息论和最大似然原理的推广。年,第二届信息理论国际研讨会,编辑:B.N.Petrov和F.Csaki,布达佩斯:Akademiai Kiado 716-723·Zbl 0283.62006号
[2] Andersen,P.K.和Gill,R.D.(1982)。计数过程的考克斯回归模型:一项大样本研究。,安。统计师。10 1100-1120. ·Zbl 0526.62026号 ·doi:10.1214/aos/1176345976
[3] Bunea,F.、Tsybakov,A.B.和Wegkamp,M.H.(2007年)。高斯回归的聚合。,安。统计师。35 1674-1697. 内政部:·Zbl 1209.62065号 ·doi:10.1214/00905360000001587
[4] Chételat,D.、Lederer,J.和Salmon,J.(2014)。回归中的最优两步预测。,arXiv公司·Zbl 1364.62090号
[5] Claeskens,G.和Hjort,N.L.(2003)。聚焦信息标准。,J.Amer。统计师。协会98 900-945。通过讨论和作者的反驳。内政部:·Zbl 1045.62003号 ·doi:10.1198/0162145000000819
[6] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。,安。统计师。32 407-499. 通过讨论,以及作者的反驳。内政部:·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[7] Fan,Y.和Tang,C.Y.(2013)。高维惩罚似然中的调整参数选择。,J.R.统计社会服务。B.统计方法。75 531-552. 内政部:。 ·doi:10.1111/rssb.12001
[8] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)。用图形套索进行稀疏逆协方差估计。,生物统计学9 432-441·Zbl 1143.62076号 ·doi:10.1093/生物统计学/kxm045
[9] Geyer,C.J.(1996年)。关于凸随机优化的渐近性。,未发表的手稿。
[10] Hjort,N.L.和Pollard,D.(1993年)。凸过程极小化子的渐近性。,未发表的手稿。
[11] Hurvich,C.M.和Tsai,C.L.(1989年)。小样本回归和时间序列模型选择。,生物特征76 297-307。内政部:·Zbl 0669.62085号 ·doi:10.1093/biomet/76.2.297
[12] Javanmard,A.和Montanari,A.(2014)。高维回归的置信区间和假设检验。,J.马赫。学习。第15号决议2869-2909·Zbl 1319.62145号
[13] K.奈特和W.傅(2000)。套索型估计的渐近性。,安。统计师。28 1356-1378. 内政部:·Zbl 1105.62357号 ·doi:10.1214操作系统/1015957397
[14] Konishi,S.和Kitagawa,G.(1996年)。模型选择中的通用信息标准。,生物特征83 875-890。内政部:·Zbl 0883.62004号 ·doi:10.1093/biomet/83.4.875
[15] Konishi,S.和Kitagawa,G.(2008)。,信息标准和统计建模。统计学中的斯普林格系列。纽约州施普林格。内政部:·Zbl 1172.62003年
[16] Kullback,S.和Leibler,R.A.(1951年)。关于信息和充分性。,安。数学。统计数字22 79-86·Zbl 0042.38403号 ·doi:10.1214/aoms/1177729694
[17] Lee,J.D.、Sun,D.L.、Sun,Y.和Taylor,J.E.(2013)。精确的后选择推理,应用于套索。,arXiv公司·Zbl 1341.62061号 ·doi:10.1214/15-OS1371
[18] Lockhart,R.、Taylor,J.、Tibshirani,R.J.和Tibshirani,R.(2014)。套索的显著性测试。,安。统计师。42 413-468. 内政部:·Zbl 1305.62255号 ·doi:10.1214/14-AOS1175REJ
[19] Lv,J.和Liu,J.S.(2014)。错误指定模型中的模型选择原则。,J.R.统计社会服务。B.统计方法。76 141-167. 内政部:。 ·doi:10.1111/rssb.12023
[20] McCullagh,P.和Nelder,J.A.(1983)。,广义线性模型。统计学和应用概率专著。查普曼和霍尔,伦敦·Zbl 0588.62104号
[21] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。,J.R.统计社会服务。B统计方法。72 417-473. 内政部:。 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[22] Meinshausen,N.和Yu,B.(2009年)。高维数据稀疏表示的Lasso类型恢复。,安。统计师。37 246-270. 内政部:·Zbl 1155.62050号 ·doi:10.1214/07-AOS582
[23] Pollard,D.(1991)。最小绝对偏差回归估计量的渐近性。,计量经济学理论7 186-199。内政部:。 ·网址:10.1017/S0266466600004394
[24] Rockafellar,R.T.(1970)。,凸分析。普林斯顿数学系列,第28期。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 0193.18401号
[25] Sachs,K.、Perez,O.、Peer,D.、Lauffenburger,D.A.和Nolan,G.P.(2005)。由多参数单细胞数据导出的因果蛋白信号网络。,《科学》308 523-529。
[26] Spiegelhalter,D.J.、Best,N.G.、Carlin,B.P.和van der Linde,A.(2002)。模型复杂性和拟合的贝叶斯度量。,J.R.统计社会服务。B统计方法。64 583-639. 内政部:·兹比尔1067.62010 ·数字对象标识代码:10.1111/1467-9868.00353
[27] Stein,C.M.(1981)。多元正态分布平均值的估计。,安。统计师。9 1135-1151. ·Zbl 0476.62035号 ·doi:10.1214/aos/1176345632
[28] Stone,M.(1974年)。交叉验证和多项式预测。,生物特征61 509-515·Zbl 0292.62025号 ·doi:10.1093/biomet/61.3.509
[29] Sugiura,N.(1978年)。根据Akaike的信息准则和有限修正进一步分析数据。,通信统计。理论方法7 13-26·兹比尔0382.62060 ·doi:10.1080/03610927808827599
[30] Sun,T.和Zhang,C.-H.(2012)。比例稀疏线性回归。,生物特征99 879-898。内政部:·Zbl 1452.62515号 ·doi:10.1093/biomet/ass043
[31] Tibshirani,R.(1996)。通过套索进行回归收缩和选择。,J.R.统计社会服务。B统计方法。58 267-288. ·Zbl 0850.62538号
[32] Tibshirani,R.J.和Taylor,J.(2011)。广义套索的解路径。,安。统计师。39 1335-1371. 内政部:·Zbl 1234.62107号 ·doi:10.1214/11-AOS878
[33] van de Geer,S.A.(2008)。高维广义线性模型与套索。,安。统计师。36 614-645. 内政部:·Zbl 1138.62323号 ·doi:10.1214/00905360700000929
[34] Wainwright,M.J.(2009)。使用约束二次规划(Lasso)恢复高维和噪声稀疏性的锐化阈值。,IEEE传输。通知。理论55 2183-2202·Zbl 1367.62220号 ·doi:10.1109/TIT.2009.2016018
[35] Wang,H.、Li,B.和Leng,C.(2009)。具有发散参数数的收缩率调谐参数选择。,J.R.统计社会服务。B统计方法。71 671-683. 内政部:·Zbl 1250.62036号 ·文件编号:10.1111/j.1467-9868.2008.00693.x
[36] Xie,M.和Yang,Y.(2003)。大簇尺寸广义估计方程的渐近性。,安。统计师。31 310-347. 内政部:·Zbl 1018.62019号 ·doi:10.1214/aos/1046294467
[37] Yuan,M.和Lin,Y.(2007)。高斯图形模型中的模型选择和估计。,生物特征94 19-35。内政部:·Zbl 1142.62408号 ·doi:10.1093/biomet/asm018
[38] Zhang,Y.,Li,R.和Tsai,C.-L.(2010)。基于广义信息准则的正则化参数选择。,J.Amer。统计师。协会105 312-323。在线提供补充材料。内政部:·Zbl 1397.62262号 ·doi:10.1198/jasa.2009.tm08013
[39] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。,J.马赫。学习。第7号决议2541-2563·兹比尔1222.62008
[40] 邹华(2006)。自适应套索及其oracle属性。,J.Amer。统计师。协会101 1418-1429。内政部:·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[41] Zou,H.、Hastie,T.和Tibshirani,R.(2007)。关于套索的“自由度”。,安。统计师。35 2173-2192. 内政部:·Zbl 1126.62061号 ·doi:10.1214/009053600700000127
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。