×

SLOPE——通过凸优化进行自适应变量选择。 (英语) Zbl 1454.62212号

摘要:我们引入了线性模型(y=X\beta+z)中系数向量(\beta\)的一个新的估计量,其中(X\)的维数为(n\乘以p\),且(p\)可能大于(n\)。SLOPE是排序L-One惩罚估计的缩写,是\[\最小{b\in\mathbb{R}^{p}}\frac{1}{2}\|y-Xb\|{ell{2}}^{2}+\lambda{1}|b|{(1)}+\lambda{2}|b|{(2)}+\ cdots+\lampda{p}|b|1{(p)},\]其中,\(\lambda{1}\geq\lambda{2}\geq\cdots\geq\lambda{p}\geq)和\(|b|{(1)}\gegq|b|_{(2)}\ geq\cdots\geq|b|{(p)}\)是\(b)的条目的递减绝对值。这是一个凸程序,我们演示了一个求解算法,其计算复杂度大致可与Lasso等经典程序的计算复杂度相媲美。这里,正则化子是一个排序的范数,它根据回归系数的秩对其进行惩罚:秩越高,即信号越强,惩罚越大。这与Y.本杰米尼Y.霍克伯格程序(BH)[J.R.Stat.Soc.,Ser.B 57,No.1,289–300(1995;Zbl 0809.62014号)]它将更显著的(p)值与更严格的阈值进行比较。序列的一个值得注意的选择是BH临界值(lambda{mathrm{BH}}(i)=z(1-i\cdot q/2p)),其中(q\in(0,1)和(z(alpha))是标准正态分布的分位数。SLOPE旨在为所选模型提供有限样本保证;特别令人感兴趣的是错误发现率(FDR),定义为所有选定预测因子中不相关回归因子的预期比例。在正交设计下,具有(lambda{mathrm{BH}})的斜率可证明地将FDR控制在水平(q)。此外,正如在模拟和真实数据上进行的一系列实验所证明的那样,在更一般的设计下,它似乎也具有可观的推理性质,同时具有相当大的功率。

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramovich,F.和Benjamini,Y.(1995年)。作为多假设测试程序的小波系数阈值。在小波和统计学中。统计学课堂讲稿103 5-14。柏林施普林格·Zbl 0875.62081号
[2] Abramovich,F.、Benjamini,Y.、Donoho,D.L.和Johnstone,I.M.(2006)。通过控制错误发现率来适应未知稀疏性。安。统计师。34 584-653. ·Zbl 1092.62005年 ·doi:10.1214/00905360000000074
[3] Akaike,H.(1974年)。统计模型识别的新视角。IEEE传输。自动化。控制AC-19 716-723。系统识别和时间序列分析·兹伯利0314.62039 ·doi:10.1109/TAC.1974.1100705
[4] Barlow,R.E.、Bartholomew,D.J.、Bremner,J.M.和Brunk,H.D.(1972年)。顺序限制下的统计推断。等渗回归理论与应用。纽约威利·Zbl 0246.62038号
[5] Bauer,P.、Pötscher,B.M.和Hackl,P.(1988)。通过多种测试程序进行模型选择。统计19 39-44·Zbl 0644.62024号 ·网址:10.1080/02331888808802068
[6] Beck,A.和Teboulle,M.(2009年)。线性反问题的快速迭代收缩阈值算法。SIAM J.成像科学。2 183-202. ·Zbl 1175.94009号 ·doi:10.1137/080716542
[7] Becker,S.R.、CandèS,E.J.和Grant,M.C.(2011年)。凸锥问题的模板及其在稀疏信号恢复中的应用。数学。程序。计算。3 165-218. ·Zbl 1257.90042号 ·doi:10.1007/s12532-011-0029-5
[8] Benjamini,Y.和Gavrilov,Y.(2009年)。基于错误发现率控制的简单前向选择过程。附录申请。《法律总汇》第3卷第179-198页·Zbl 1160.62068号 ·doi:10.1214/08-AOAS194
[9] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.罗伊。统计师。Soc.序列号。乙57 289-300·Zbl 0809.62014号
[10] Benjamini,Y.和Yekutieli,D.(2005)。错误发现率调整了选定参数的多个置信区间。J.Amer。统计师。协会100 71-93·Zbl 1117.62302号 ·doi:10.1198/0162145000001907
[11] Berk,R.、Brown,L.、Buja,A.、Zhang,K.和Zhao,L.(2013)。有效的后选择推理。安。统计师。41 802-837. ·Zbl 1267.62080号 ·doi:10.1214/12-AOS1077
[12] Best,M.J.和Chakravarti,N.(1990年)。保序回归的活动集算法;统一的框架。数学。程序。47 425-439. ·Zbl 0715.90085号 ·doi:10.1007/BF01580873
[13] Birgé,L.和Massart,P.(2001)。高斯模型选择。《欧洲数学杂志》。Soc.(JEMS)3 203-268·Zbl 1037.62001 ·doi:10.1007/s100970100031
[14] Bogdan,M.、Chakrabarti,A.、Frommlet,F.和Ghosh,J.K.(2011年)。一些多重测试过程稀疏性下的渐近贝叶斯优化。安。统计师。39 1551-1579. ·Zbl 1221.62012年 ·doi:10.1214/10-AOS869
[15] Bogdan,M.、Ghosh,J.K.和Żak-Szatkowska,M.(2008)。用修正的贝叶斯信息准则选择解释变量。资格。Reliab公司。工程国际24 627-641。
[16] Bogdan,M.、van den Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015)。对“通过凸优化进行SLOPE自适应变量选择”的补充·Zbl 1454.62212号
[17] Bogdan,M.、van den Berg,E.、Su,W.和Candès,E.J.(2013)。通过有序范数进行统计估计和检验。预打印。可在。arXiv:1310.1969v2
[18] Bondell,H.D.和Reich,B.J.(2008)。OSCAR预测因子的同步回归收缩、变量选择和监督聚类。生物统计学64 115-123,322-323·Zbl 1160.62068号 ·doi:10.1214/08-AOAS194
[19] Bühlmann,P.(2013)。高维线性模型的统计显著性。伯努利19 1212-1242·Zbl 1273.62173号 ·doi:10.3150/12-BEJSP11
[20] Candes,E.和Tao,T.(2007)。Dantzig选择器:当\(p)远大于\(n)时的统计估计。安。统计师。35 2313-2351. ·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[21] Candès,E.J.、Wakin,M.B.和Boyd,s.P.(2008)。通过重新加权\(l_{1}\)最小化来增强稀疏性。J.傅里叶分析。申请。14 877-905. ·Zbl 1176.94014号 ·doi:10.1007/s00041-008-9045-x
[22] de Leeuw,J.、Hornik,K.和Mair,P.(2009)。R中的同位素优化:池邻接违规算法(PAVA)和活动集方法。J.统计软件。32 1-24.
[23] Efron,B.(2011年)。Tweedie公式和选择偏差。J.Amer。统计师。协会106 1602-1614·Zbl 1234.62007年 ·doi:10.1198/jasa.2011.tm11181
[24] Foster,D.P.和George,E.I.(1994年)。多元回归的风险通货膨胀标准。安。统计师。22 1947-1975. ·Zbl 0829.62066号 ·doi:10.1214/aos/1176325766
[25] Foster,D.P.和Stine,R.A.(1999年)。局部渐近编码和最小描述长度。IEEE传输。通知。理论45 1289-1293·Zbl 0959.62006年 ·doi:10.1109/18.761287
[26] Foygel Barber,R.和Candès,E.J.(2014)。通过仿冒品控制错误发现率。安。统计师。出现。可在上获取。arXiv:1404.5609·兹比尔1327.62082 ·doi:10.1214/15-AOS1337
[27] Frommlet,F.和Bogdan,M.(2013年)。稀疏条件下FDR控制规则的一些最优性。电子。《美国联邦法律大全》第7卷第1328-1368页·Zbl 1337.62184号 ·doi:10.1214/13-EJS808
[28] Frommlet,F.、Ruhaltinger,F.,Twaróg,P.和Bogdan,M.(2012年)。全基因组关联研究的贝叶斯信息标准的修改版本。计算。统计师。数据分析。56 1038-1051.
[29] Grazier G'Sell,M.、Hastie,T.和Tibshirani,R.(2013)。回归中的错误变量选择率。预打印。可从获取。arXiv公司:1302.2303
[30] Grotzinger,S.J.和Witzgall,C.(1984年)。订单单纯形上的投影。申请。数学。最佳方案。12 247-270. ·Zbl 0577.65049号 ·doi:10.1007/BF01449044
[31] 于英格斯特(Yu Ingster)。I.(1998)。(l^{n})-球信号的最小最大检测。数学。方法统计。7 401-428. ·Zbl 1103.62312号
[32] Javanmard,A.和Montanari,A.(2014a)。高维回归的置信区间和假设检验。J.马赫。学习。第15号决议2869-2909·Zbl 1319.62145号
[33] Javanmard,A.和Montanari,A.(2014b)。高斯随机设计模型下高维回归的假设检验:渐近理论。IEEE传输。通知。理论60 6522-6554·Zbl 1360.62074号 ·doi:10.1109/TIT.2014.2343629
[34] Kruskal,J.B.(1964年)。非度量多维标度:一种数值方法。《心理测量学》29 115-129·Zbl 0123.36804号 ·doi:10.1007/BF02289694
[35] Lockhart,R.、Taylor,J.、Tibshirani,R.J.和Tibshirani,R.(2014)。拉索的显著性检验。安。统计师。42 413-468·Zbl 1305.62254号 ·doi:10.1214/13-AOS1175
[36] Mallows,C.L.(1973)。关于\(c_{p}\)的一些注释。技术计量学15 661-676·Zbl 0269.62061号 ·doi:10.2307/1267380
[37] Meinshausen,N.(2007年)。放松的拉索。计算。统计师。数据分析。52 374-393. ·Zbl 1452.62522号
[38] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。J.R.统计社会服务。B.统计方法。72 417-473. ·doi:10.1111/j.1467-9868.2010.00740.x
[39] Meinshausen,N.、Meier,L.和Bühlmann,P.(2009)\高维回归的(p\)-值。J.Amer。统计师。协会104 1671-1681·Zbl 1205.62089号 ·doi:10.1198/jasa.2009.tm08647
[40] Nesterov,Y.(2004)。凸优化入门讲座。基础课程。Kluwer Academic,马萨诸塞州波士顿·Zbl 1086.90045号
[41] Nesterov,Y.(2007)。最小化复合目标函数的梯度方法。核心讨论文件。鲁汶天主教大学运营研究和计量经济中心(CORE)。可从获取。
[42] Parikh,N.和Boyd,S.(2013年)。近似算法。优化基础与趋势1 123-231。
[43] Sarkar,S.K.(2002)。关于逐步多重测试过程中错误发现率的一些结果。安。统计师。30 239-257. ·兹比尔1101.62349 ·doi:10.1214/aos/1015362192
[44] Service,S.K.,Teslovich,T.M.,Fuchsberger,C.,Ramensky,V.,Yajnik,P.,Koboldt,D.C.,Larson,D.E.,Zhang,Q.,Lin,L.,Welch,R.,Ding,F.S.、Narisu,N.、Stringham,H.M.、Tuomilehto,J.、Ripatti,S.、Fulton,R.S.、Sabatti,C.、Wilson,R.K.、Boehnke,M.和Freimer,N.B.(2014)。重新测序扩大了我们对GWAS基因座变异的表型影响的理解。《公共科学图书馆·遗传学》。10 e1004147。
[45] Städler,N.、Bühlmann,P.和van de Geer,S.(2010年)\混合回归模型的(ell{1})惩罚。测试19 209-256·Zbl 1203.62128号 ·doi:10.1007/s11749-010-0197-z
[46] Sun,T.和Zhang,C.-H.(2012)。缩放稀疏线性回归。生物特征99 879-898·Zbl 1452.62515号 ·doi:10.1093/biomet/ass043
[47] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B 58 267-288·Zbl 0850.62538号
[48] Tibshirani,R.和K.奈特(1999)。自适应模型选择的协方差膨胀准则。J.R.统计社会服务。B.统计方法。61 529-546. ·Zbl 0924.62031号 ·doi:10.1111/1467-9868.00191
[49] van de Geer,S.、Bühlmann,P.、Ritov,Y.和Dezeure,R.(2014)。关于高维模型的渐近最优置信域和检验。安。统计师。42 1166-1202. ·Zbl 1305.62259号 ·doi:10.1214/14-AOS1221
[50] Wasserman,L.和Roeder,K.(2009年)。高维变量选择。安。统计师。37 2178-2201. ·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
[51] Wu,Z.和Zhou,H.H.(2013)。模型选择和尖锐渐近极小性。普罗巴伯。理论相关领域156 165-191·Zbl 06176805号 ·doi:10.1007/s00440-012-0424-5
[52] Zeng,X.和Figueiredo,M.(2014)。递减加权排序l1正则化。IEEE信号处理。莱特。1240-1244. ·Zbl 1086.90045号
[53] Zhang,C.-H和Zhang,S.S.(2014)。高维线性模型中低维参数的置信区间。J.R.统计社会服务。B.统计方法。76 217-242. ·doi:10.1111/rssb.12026
[54] Zhong,L.和Kwok,J.(2012)。具有自动特征分组的高效稀疏建模。IEEE传输。神经网络。学习。系统。1436-1447.
[55] 邹华(2006)。自适应Lasso及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。