×

Dantzig选择器:当\(p)远大于\(n)时的统计估计。(经过讨论和答辩)。 (英语) Zbl 1139.62019号

摘要:在许多重要的统计应用中,变量或参数的数量(p)远远大于观察值的数量(n)。假设我们有观测值(y=X\beta+z\),其中(\beta\in\mathbb R^p\)是感兴趣的参数向量,(X\)是行数可能远少于列数的数据矩阵,(z_i)是i.i.d.(n(0,\sigma^2))。是否可以基于噪声数据可靠地估计(β)?为了估计(β),我们引入了一个新的估计量——我们称之为Dantzig选择器——这是正则化问题的解决方案
\[\min_{\widetilde{\beta}\in\mathbb R^p}\|\widetilde{\beta}\|_{\ell_1}\quad\text{subject to}\quad \|X^*R \|{\ell_\infty}\leq(1+t^{-1})\sqrt{2\log p}\cdot\sigma,\]
其中,\(r)是剩余向量\(y-X\widetilde{\beta}\),\(t)是正标量。我们证明,如果(X)遵循统一的不确定性原则(使用单位列),并且如果真参数向量(β)足够稀疏(这里大致保证模型是可识别的),那么概率非常大,
\[\|\widehat{\beta}-\beta\|_{\ell_2}^2\leq C^2\cdot 2\log p\cdot\Bigl(\sigma^2+\sum_i\min(\beta_i^2,\sigma ^2)\Bigr)。\]
我们的结果是非共鸣的,我们给出了常数(C)的值。即使(n)可能比(p)小得多,我们的估计器在理想均方误差的对数因子内实现了一个损失,我们可以用预言机获得关于哪些坐标非零,哪些坐标高于噪声水平的完美信息。
在多元回归中,从模型选择的角度来看,我们的结果表明,通过求解一个非常简单的凸规划,几乎可以选择变量的最佳子集,事实上,这个凸规划可以很容易地重新构造为一个方便的线性规划。

MSC公司:

62G08号 非参数回归和分位数回归
62G05型 非参数估计
94A08型 信息与通信理论中的图像处理(压缩、重建等)
94甲12 信号理论(表征、重建、滤波等)
90C05(二氧化碳) 线性规划
62C05型 统计决策理论的一般考虑
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1974年)。统计模型识别的新视角。IEEE传输。自动控制19 716-723·兹伯利0314.62039 ·doi:10.1109/TAC.1974.1100705
[2] Antoniadis,A.和Fan,J.(2001)。小波近似的正则化(讨论)。J.Amer。统计师。协会96 939-967·Zbl 1072.62561号 ·doi:10.1198/016214501753208942
[3] Baraud,Y.(2000)。固定设计回归的模型选择。普罗巴伯。理论相关领域117 467-493·Zbl 0997.62027号 ·doi:10.1007/s004400000058
[4] Barron,A.R.、Birgé,L.和Massart,P.(1999)。通过惩罚选择模型的风险边界。普罗巴伯。理论相关领域113 301-413·Zbl 0946.62036号 ·doi:10.1007/s004400050210
[5] Barron,A.R.和Cover,T.M.(1991)。最小复杂度密度估计。IEEE传输。通知。理论37 1034-1054·Zbl 0743.62003号 ·数字对象标识代码:10.1109/18.86996
[6] Birgé,L.和Massart,P.(1997)。从模型选择到自适应估计。为吕西安·勒卡姆(D.Pollard,E.Torgersen and G.L.Yang,eds.)撰写的《费斯切里夫》(Festschrift)55-87。纽约州施普林格·Zbl 0920.62042号
[7] Birgé,L.和Massart,P.(2001)。高斯模型选择。《欧洲数学杂志》。Soc.3 203-268号·Zbl 1037.62001 ·doi:10.1007/s100970100031
[8] Boyd,S.和Vandenberghe L.(2004)。凸优化。剑桥大学出版社·Zbl 1058.90049号
[9] Candès,E.J.和Romberg,J.(2005)。从随机投影中恢复实际信号。计算成像III:程序。SPIE国际电子成像研讨会176-86。加利福尼亚州圣何塞。
[10] Candès,E.J.、Romberg,J.和Tao,T.(2006)。从不完整和不准确的测量中恢复稳定的信号。普通纯应用程序。数学。59 1207-1223. ·邮编1098.94009 ·doi:10.1002/cpa.20124年
[11] Candès,E.J.、Romberg,J.和Tao,T.(2006)。鲁棒不确定性原理:从高度不完整的频率信息中精确重建信号。IEEE传输。通知。理论52 489-509·Zbl 1231.94017号 ·doi:10.1109/TIT.2005.862083
[12] Candès,E.J.、Rudelson,M.、Vershynin,R.和Tao,T.(2005)。通过线性编程进行错误纠正。程序中。第46届IEEE计算机科学基础年度研讨会(FOCS)295-308。IEEE,加利福尼亚州洛斯阿拉米托斯。
[13] Candès,E.J.和Tao,T.(2005)。通过线性规划进行解码。IEEE传输。通知。理论51 4203-4215·Zbl 1264.94121号 ·doi:10.1109/TIT.2005.858979
[14] Candès,E.J.和Tao,T.(2006)。随机投影的近最优信号恢复:通用编码策略?IEEE传输。通知。理论52 5406-5425·Zbl 1309.94033号 ·doi:10.1109/TIT.2006.885507
[15] Chen,S.S.、Donoho,D.L.和Saunders,M.A.(1998年)。通过基追踪进行原子分解。SIAM J.科学。计算。20 33-61. ·Zbl 0919.94002号 ·doi:10.1137/S1064827596304010
[16] Daniel,B.L.,Yen,Y.F.,Glover,G.H.等人(1998年)。乳腺疾病:动态螺旋MR成像。放射学209 499-509。
[17] Daubechies,I.(2005)。个人交流。
[18] Donoho,D.L.(2006)。对于大多数大型欠定线性方程组,最小(ell_1)范数解也是最稀疏解。普通纯应用程序。数学。59 797-829. ·Zbl 1113.15004号 ·doi:10.1002/cpa.20132年
[19] Donoho,D.L.(2006)。压缩传感。IEEE传输。通知。理论52 1289-1306·Zbl 1288.94016号 ·doi:10.1109/TIT.2006.871582
[20] Donoho,D.L.和Huo,X.(2001)。测不准原理和理想原子分解。IEEE传输。通知。理论47 2845-2862·Zbl 1019.94503号 ·doi:10.1109/18.959265
[21] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425-455·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[22] Donoho,D.L.和Johnstone,I.M.(1994年)。在从基库中选择的正交基中进行理想的去噪。C.R.学院。科学。巴黎。I数学。319 1317-1322. ·Zbl 0819.94007号
[23] Donoho,D.L.和Johnstone,I.M.(1995)。经验原子分解。未发表的手稿。
[24] Elad,M.和Bruckstein,A.M.(2002年)。广义测不准原理和基对的稀疏表示。IEEE传输。通知。理论48 2558-2567·Zbl 1062.15001号 ·doi:10.1109/TIT.2002.801410
[25] Fan,J.和Peng,H.(2004)。具有发散参数数的非凹陷惩罚似然。Ann.Statist公司。32 928-961. ·Zbl 1092.62031号 ·doi:10.1214/009053604000000256
[26] Foster,D.P.和George,E.I.(1994年)。多元回归的风险通货膨胀标准。Ann.Statist公司。22 1947-1975. ·Zbl 0829.62066号 ·doi:10.1214/aos/1176325766
[27] Fuchs,J.(2004)。任意冗余基中的稀疏表示。IEEE传输。通知。理论50 1341-1344·Zbl 1284.94018号 ·doi:10.1109/TIT.2004.828141
[28] Greenshtein,E.和Ritov,Y.(2004)。高维线性预测器选择的持续性和超参数化的优点。伯努利10 971-988·Zbl 1055.62078号 ·doi:10.3150/bj/1106314846
[29] Haupt,J.和Nowak,R.(2006年)。从噪声随机投影中重建信号。IEEE传输。通知。理论52 4036-4048·兹比尔1323.94046 ·doi:10.1109/TIT.2006.880031
[30] Kettenring,J.,Lindsay,B.和Siegmund,D.编辑(2003)。统计:二十一世纪的挑战和机遇。NSF报告。网址:www.pnl.gov/scales/docs/nsf_report.pdf。
[31] Mallows,C.L.(1973)。关于\(C_P\)的一些注释。技术计量学15 661-675·Zbl 0269.62061号 ·doi:10.2307/1267380
[32] Natarajan,B.K.(1995年)。线性系统的稀疏近似解。SIAM J.计算。24 227-234. ·兹伯利0827.68054 ·doi:10.1137/S0097539792240406
[33] Peters,D.C.、Korosec,F.R.、Grist,T.M.、Block,W.F.、Holden,J.E.、Vigen,K.K.和Mistretta,C.A.(2000)。欠采样投影重建在MR血管造影中的应用。医学中的磁共振43 91-101。
[34] Rudin,L.I.、Osher,S.和Fatemi,E.(1992年)。基于非线性全变分的噪声去除算法。物理D 60 259-268·Zbl 0780.49028号 ·doi:10.1016/0167-2789(92)90242-F
[35] Sardy,S.、Bruce,A.G.和Tseng,P.(2000)。非参数小波去噪的块坐标松弛方法。J.计算。图表。统计师。9 361-379.
[36] Schwarz,G.(1978年)。估算模型的维度。Ann.Statist公司。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[37] Szarek,S.J.(1991)。随机矩阵的条件数。J.复杂性7 131-149·兹比尔0760.15018 ·doi:10.1016/0885-064X(91)90002-F
[38] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288·Zbl 0850.62538号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。