×

通过自由度调整来消除拉索的偏置。 (英语) Zbl 07526563号

摘要:本文研究了高斯设计稀疏线性回归中拉索解偏倚的方案,其目标是估计和构造未知系数向量在预想方向上的低维投影的置信区间{a} _0(0) \). 我们的分析表明,为了在稀疏程度的全范围内享受名义覆盖和渐近效率,需要对之前分析的拉索去比亚斯命题进行修改。这种修改采用了自由度调整的形式,该调整考虑了拉索所选模型的尺寸。自由度调整(a)在先前提案成功的制度中保持去偏倚方法的成功,以及(b)在先前的提案产生虚假推论且证明无法实现名义覆盖的制度中修复名义覆盖并提供效率。因此,我们的理论和模拟结果要求在去偏倚方法中实施这种自由度调整。
设(s_0)表示真系数向量和总体Gram矩阵的非零系数的个数。如果(Sigma)已知,则未调整的去偏方案可能在(s_0\ggg{n^{2/3}})时无法达到标称覆盖。如果\(\Sigma\)未知,自由度调整将为一般方向上的对比度提供效率\(\boldsymbol{a} 0\)何时\[\压裂{{s_0}\log p}{n}+\min\left\{\frac{{s_{\Omega}}\logp}{n{,\压裂{\|{\Sigma^{-1}}{\boldsymbol{a} _0(0)}{\|1}\sqrt{\log p}}{\|{\Sigma^{-1/2}}{\粗体符号{a} _0(0)}{_2}\sqrt{n}}\right\}+\frac{\min({s_{\Omega}},{s_0})\log p}{\sqrt}}\到0\]其中\(s_{\Omega}=\|{\Sigma^{-1}}{\boldsymbol{a} _0(0)}{\|_0} \). 在\(s_0\)、\(s_{\Omega}\)和\(\|{\Sigma^{-1}}{\boldsymbol)中的依赖关系{a} _0(0)}{1})是最优的,它弥补了以前上下限的差距。我们对估计得分向量的构造提供了一种处理密集方向的新方法{a} _0(0) \).
除了自由度调整之外,我们的证明技术还为Lasso产生了一个明显的误差界,这是一个独立的兴趣。

MSC公司:

62至XX 统计
94-XX年 信息与通信理论、电路

软件:

CorrT公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bellec,P.C.和Zhang,C.-H.(2021)。二阶Stein:当然可以,以及在高维推理中的其他应用。安。统计师。出现·兹比尔1486.62209
[2] Bellec,P.C.和Zhang,C.-H.(2022)。补充“通过自由度调整消除套索的倾斜”·Zbl 07526563号 ·doi:10.3150/21-BEJ1348SUPP文件
[3] Belloni,A.和Chernozhukov,V.(2013)。高维稀疏模型中模型选择后的最小二乘法。伯努利19 521-547. ·Zbl 1456.62066号 ·doi:10.3150/11-BEJ410
[4] Belloni,A.、Chernozhukov,V.和Hansen,C.(2014)。在高维对照中选择后对治疗效果的推断。经济收益率。螺柱。81 608-650之间·兹比尔1409.62142 ·doi:10.1093/restud/rdt044
[5] Belloni,A.、Chernozhukov,V.和Wang,L.(2014)。非参数回归中通过平方套索进行轴心估计。安。统计师。42 757-788. ·Zbl 1321.62030号 ·doi:10.1214/14-AOS1204
[6] Bickel,P.J.、Klaassen,C.A.J.、Ritov,Y.和Wellner,J.A.(1993年)。半参数模型的有效自适应估计.约翰·霍普金斯数理科学系列马里兰州巴尔的摩:约翰·霍普金斯大学出版社·兹比尔0786.62001
[7] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。同时分析套索和Dantzig选择器。安。统计师。37 1705-1732. ·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[8] Bühlmann,P.(2013)。高维线性模型的统计显著性。伯努利19 1212-1242. ·Zbl 1273.62173号 ·doi:10.3150/12-BEJSP11
[9] Cai,T.、Cai,T和Guo,Z(2019)。个性化治疗选择:高维模型中的最佳假设检验方法。ArXiv预印本。可从ArXiv:1904.12891获得。
[10] Cai,T.T.和Guo,Z.(2017)。高维线性回归的置信区间:最小最大速率和适应性。安。统计师。45 615-646. ·Zbl 1371.62045号 ·doi:10.1214/16-AOS1461
[11] Candes,E.和Tao,T.(2007)。Dantzig选择器:当\(p)远大于\(n)时的统计估计。安。统计师。35 2313-2351. ·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[12] Candes,E.J.和Tao,T.(2005)。通过线性规划进行解码。IEEE传输。Inf.理论51 4203-4215. ·Zbl 1264.94121号 ·doi:10.1109/TIT.2005.858979
[13] Javanmard,A.和Montanari,A.(2014)。高维回归的置信区间和假设检验。J.马赫。学习。物件。15 2869-2909. ·Zbl 1319.62145号
[14] Javanmard,A.和Montanari,A.(2014)。高斯随机设计模型下高维回归的假设检验:渐近理论。IEEE传输。Inf.理论60 6522-6554. ·Zbl 1360.62074号 ·doi:10.1109/TIT.2014.2343629
[15] Javanmard,A.和Montanari,A.(2018年)。摆脱套索:高斯设计的最佳样本量。安。统计师。46 2593-2622. ·Zbl 1407.62270号 ·doi:10.1214/17-AOS1630
[16] Lounici,K.(2008年)。Lasso和Dantzig估计的超形式收敛速度和符号集中性质。电子。J.统计。2 90-102. ·Zbl 1306.62155号 ·doi:10.1214/08-EJS177
[17] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[18] Schick,A.(1986年)。半参数模型中的渐近有效估计。安。统计师。14 1139-1151. ·Zbl 0612.62062号 ·doi:10.1214/aos/1176350055
[19] Sun,T.和Zhang,C.-H.(2012)。缩放稀疏线性回归。生物特征99 879-898. ·Zbl 1452.62515号 ·doi:10.1093/biomet/ass043
[20] Tibshirani,R.J.和Taylor,J.(2012)。套索问题的自由度。安。统计师。40 1198-1232. ·Zbl 1274.62469号 ·doi:10.1214/12-AOS1003
[21] Tropp,J.A.(2006年)。放松:识别噪声中稀疏信号的凸编程方法。IEEE传输。Inf.理论52 1030-1051. ·兹比尔1288.94025 ·doi:10.1109/TIT.2005.864420
[22] van de Geer,S.(2016)。稀疏性下的估计与检验.数学讲义。查姆:斯普林格·Zbl 1362.62006年 ·doi:10.1007/978-3-319-3274-7
[23] van de Geer,S.(2017)。关于脱毛套索的效率。arXiv预印本。可从arXiv:1708.07986获得。
[24] van de Geer,S.、Bühlmann,P.、Ritov,Y.和Dezeure,R.(2014)。关于高维模型的渐近最优置信域和检验。安。统计师。42 1166-1202. ·Zbl 1305.62259号 ·doi:10.1214/14-AOS1221
[25] van der Vaart,A.W.(1998)。渐近统计学.剑桥统计与概率数学系列3.剑桥:剑桥大学出版社·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[26] Wainwright,M.J.(2009年)。使用\[{\ell_1}\]约束二次规划(Lasso)恢复高维和噪声稀疏性的锐化阈值。IEEE传输。Inf.理论55 2183-2202. ·Zbl 1367.62220号 ·doi:10.1109/TIT.2009.2016018
[27] 张春华(2005)。随机变量和的估计:示例和信息界。安。统计师。33 2022-2041. ·Zbl 1086.62035号 ·doi:10.1214/009053605000000390
[28] Zhang,C.-H.(2010)。极小极大凹惩罚下的几乎无偏变量选择。安。统计师。38 894-942. ·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[29] Zhang,C.-H.(2011)。高维数据的统计推断《Mathematisches Forschungsinstitut Oberwolfach:超高维半参数模型》,报告48,28-31。
[30] Zhang,C.-H.和Huang,J.(2008)。高维线性回归中LASSO选择的稀疏性和偏差。安。统计师。36 1567-1594. ·Zbl 1142.62044号 ·doi:10.1214/07-AOS520
[31] Zhang,C.-H.和Zhang的S.S.(2014)。高维线性模型中低维参数的置信区间。J.R.Stat.Soc.系列。B.统计方法。76 217-242. ·Zbl 1411.62196号 ·doi:10.1111/rssb.12026
[32] Zhang,C.-H.和Zhang、T.(2012)。高维稀疏估计问题的凹正则化的一般理论。统计师。科学。27 576-593. ·Zbl 1331.62353号 ·doi:10.1214/12-STS399
[33] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。物件。7 2541-2563·Zbl 1222.62008年
[34] Zhu,Y.和Bradic,J.(2018)。非解析高维线性模型的显著性检验。电子。J.统计。12 3312-3364. ·Zbl 1416.62305号 ·doi:10.1214/18-EJS1443
[35] Zhu,Y.和Bradic,J.(2018)。密集高维线性模型中的线性假设检验。J.Amer。统计师。协会。113 1583-1600. ·Zbl 1409.62139号 ·doi:10.1080/01621459.2017.1356319
[36] Zhu,Y.和Bradic,J.(2018)。非稀疏高维线性模型的显著性检验。电子。J.统计。12 3312-3364·Zbl 1416.62305号 ·doi:10.1214/18-EJS1443
[37] Zou,H.、Hastie,T.和Tibshirani,R.(2007)。关于套索的“自由度”。安。统计师。35 2173-2192 ·Zbl 1126.62061号 ·doi:10.1214/009053600700000127
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。