×

利用(ell_p)正则化统计对模型X仿冒品进行幂分析。 (英语) Zbl 07732737号

摘要:利用惩罚似然估计的程序的变量选择特性是高维线性回归问题研究的中心主题。现有文献强调了通过接收器工作特性曲线或预测性能中反映的程序对变量进行排序的质量。具体来说,最近的工作利用了现代近似消息传递理论(AMP),在特定的环境下,获得了依赖于正则化估值器的选择过程的I型和II型误差权衡的精确渐近预测。
实际上,由于需要对I类错误进行一些校准,因此仅凭有效排名往往是不够的。在这项工作中,我们从理论上研究了选择过程的威力,这些选择过程类似地通过(ell_p)正则化估计器的大小对特征进行排序,但在没有关于信号的先验信息的实际情况下,我们进一步使用Model-X模拟来控制错误发现率。在分析结果过程的威力时,我们扩展了AMP理论中的现有结果,以处理原始变量及其复制品之间的配对。这用于导出功率的精确渐近预测。我们应用一般结果来比较Lasso和阈值Lasso选择的仿制品版本的功率,并证明在所考虑的i.i.d.协变量设置中,通过对增强设计矩阵的交叉验证进行调整几乎是最优的。我们进一步证明了当选择被系数符号的决定所补充时,这些技术如何允许分析S型误差和相应的幂概念。

MSC公司:

62年5月 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
62F03型 参数假设检验
94甲12 信号理论(表征、重建、滤波等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] BARBER,R.F.和CANDÈS,E.J.(2015)。通过仿冒品控制错误发现率。安。统计师。43 2055-2085. ·Zbl 1327.62082号 ·doi:10.1214/15-AOS1337
[2] BARBER,R.F.和CANDÈS,E.J.(2019年)。用于高维选择性推理的仿冒过滤器。安。统计师。47 2504-2537. ·Zbl 1444.62034号 ·doi:10.1214/18-AOS1755
[3] Bayati,M.和Montanari,A.(2011年)。消息在密集图形上传递的动力学,以及压缩感知的应用。IEEE传输。Inf.理论57 764-785. ·Zbl 1366.94079号 ·doi:10.1109/TIT.2010.2094817
[4] Bayati,M.和Montanari,A.(2012年)。高斯矩阵的LASSO风险。IEEE传输。Inf.理论58 1997-2017. ·Zbl 1365.62196号 ·doi:10.1109/TIT.2011.2174612
[5] BENJAMINI,Y.、KRIEGER,A.M.和YEKUTIELI,D.(2006年)。控制错误发现率的自适应线性加速过程。生物特征93 491-507. ·Zbl 1108.62069号 ·doi:10.1093/biomet/93.3491
[6] 布兰查德(G.Blanchard)和罗奎恩(R.Roquin)。(2009). 独立性和依赖性下的自适应错误发现率控制。J.马赫。学习。物件。10 2837-2871. ·Zbl 1235.62093号
[7] Bogdan,M.、van den Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015)。SLOPE——通过凸优化进行自适应变量选择。附录申请。斯达。9 1103-1140. ·Zbl 1454.62212号 ·doi:10.1214/15-OAS842
[8] BOGDAN,M.、VAN DEN BERG,E.、SU,W.J.和CANDÈS,E.J.(2013)。通过排序的\(\ell_1\)范数进行统计估计和检验。ArXiv预印本。可从ArXiv:1310.1969获得。
[9] Bühlmann,P.和van de Geer,S.(2011)。高维数据统计:方法、理论和应用.统计学中的斯普林格系列海德堡施普林格·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[10] Candès,E.、Fan,Y.、Janson,L.和Lv,J.(2018年)。淘金:高维可控变量选择的“X型”仿制品。J.R.统计社会服务。B.统计方法。80 551-577. ·Zbl 1398.62335号 ·doi:10.1111/rssb.12265
[11] DONOHO,D.和TANNER,J.(2009)。观察到高维几何中相变的普遍性,对现代数据分析和信号处理具有启示。菲洛斯。事务处理。R.Soc.伦敦。序列号。数学。物理学。工程科学。367 4273-4293. ·Zbl 1185.94029号 ·doi:10.1098/rsta.2009.0152
[12] DOSSAL,C.(2012)。通过(\ell_1)最小化实现精确稀疏恢复的一个充要条件。C.R.数学。阿卡德。科学。巴黎350 117-120. ·Zbl 1236.94028号 ·doi:10.1016/j.crma.2011.12.014
[13] GELMAN,A.和TUERLINCKX,F.(2000年)。经典和贝叶斯单一和多重比较程序的S型错误率。计算。统计人员。15 373-390. ·Zbl 1037.62015年
[14] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[15] SU,W.,BOGDAN,M.和CANDÈS,E.(2017)。在拉索之路的早期就出现了错误的发现。安。统计师。45 2133-2150. ·Zbl 1459.62142号 ·doi:10.1214/16-AOS1521
[16] TARDIVEL,P.J.C.和BOGDAN,M.(2022)。在符号恢复上采用最小绝对收缩和选择算子,阈值化最小绝对收缩与选择算子,以及阈值化基追踪去噪。扫描。J.统计。49 1636-1668. ·Zbl 07674522号
[17] 图基,J.W.(1960)。结论与决定。技术计量学2 423-433. ·Zbl 0097.34404号 ·doi:10.2307/1266451
[18] TUKEY,J.W.(1991)。多重比较的哲学。统计师。科学。100-116.
[19] VAN DE GEER,S.、BüHLMANN,P.和ZHOU,S.(2011年)。潜在指定错误模型的自适应和阈值拉索(以及拉索的下限)。电子。J.统计。5 688-749. ·Zbl 1274.62471号 ·doi:10.1214/11-EJS624
[20] WAINWRIGHT,M.J.(2009年)。使用(ell_1)约束二次规划(Lasso)恢复高维和噪声稀疏性的锐化阈值。IEEE传输。Inf.理论55 2183-2202. ·Zbl 1367.62220号 ·doi:10.1109/TIT.2009.2016018
[21] WANG,S.、WENG,H.和MALEKI,A.(2020年)。哪种桥式估计器最适合变量选择?安。统计师。48 2791-2823. ·Zbl 1456.62147号 ·doi:10.1214/19-AOS1906
[22] WANG,W.和JANSON,L.(2022)。条件随机化试验和模拟试验的高维功效分析。生物特征109 631-645. ·Zbl 07582643号
[23] WEINSTEIN,A.、BARBER,R.和CANDÈS,E.J.(2017)。用套索统计法对假冒产品进行功效和预测分析。ArXiv预印本。可从ArXiv:1712.06465获得。
[24] WEINSTEIN,A.、SU,W.J.、BOGDAN,M.、FOYGEL BARBER,R.和CANDÈS,E.J.(2023年)。补充“使用(ell_{mathit{p}})正则化统计对模型X仿冒品进行功率分析”https://doi.org/10.1214/23-AOS2274SUPP网站 ·Zbl 07732737号
[25] WENG,H.、MALEKI,A.和ZHENG,L.(2018)。通过正则化技术的高阶分析克服相变的局限性。安。统计师。46 3099-3129. ·Zbl 1411.62194号 ·doi:10.1214/17-AOS1651
[26] YE,F.和ZHANG,C.-H.(2010)。拉索和Dantzig选择器对\(ell_{mathit{q}}\)球中损失的最小性进行评级。J.马赫。学习。物件。11 3519-3540. ·Zbl 1242.62074号
[27] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。物件。7 2541-2563. ·Zbl 1222.62008年
[28] ZHOU,第(2009)条。高维变量选择和统计估计的阈值程序。神经信息处理系统研究进展2304-2312.
[29] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会。101 1418-1429 ·Zbl 1171.62326号 ·doi:10.19198/016214506000000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。