×

过度乐观:SURE调整的估计器的明显误差有多大偏差? (英语) Zbl 1420.62248号

摘要:统计预测中几乎所有的估值器都以某种方式附带了相关的调整参数。在给定数据的情况下,通常的做法是选择使估计器预测误差的构造估计最小化的调谐参数值;我们关注Stein的无偏风险估计量(SURE),它通过估计估计量的自由度来增加观测到的训练误差,从而形成对预测误差的无偏估计。在各种各样的问题设置中,许多作者提倡通过SURE最小化进行参数调整,一般来说,很自然会问:SURE调整估计器的预测误差是多少?一个明显的策略是简单地使用SURE报告的表观误差估计值,即SURE准则的最小值,来估计SURE调整估计器的预测误差。但这不再是无偏见的;事实上,我们预计SURE准则的最小值对于真实的预测误差会有系统地向下偏移。在这项工作中,我们将SURE调整估计器的过度乐观定义为SURE最小值中的向下偏差量。我们认为,以下两个性质激发了对过度乐观的研究:(i)过度乐观的无偏估计,加上SURE准则的最小值,给出了SURE调整估计量的预测误差的无偏估算;(ii)过度乐观是过度风险的上界,即SURE-tuned估计器的风险与oracle风险之间的差异(oracle使用最佳固定调整参数选择)。我们研究了两种常见情况下的过度乐观:收缩估计和子集回归估计。我们的主要结果包括SURE调谐收缩估计器的James-Stein类性质,它被证明支配MLE;以及SURE调整子集回归的过度乐观的上下限。在后一种设置中,当子集集合嵌套时,我们的边界特别紧,这表明在没有信号的情况下,无论从多少模型中选择,过度乐观总是在0到10个自由度之间。

MSC公司:

62甲12 多元分析中的估计
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.,信息理论和最大似然原理的扩展,第二届信息理论国际研讨会,267-281(1973)·Zbl 0283.62006号
[2] Ball,K.,高斯测度的反等周问题,离散与计算几何,10,411-420(1993)·Zbl 0788.52010号
[3] Baranchik,A.,多元正态分布均值的多元回归和估计(1964年)
[4] 伯克,R。;布朗,L。;Buja,A。;张凯。;Zhao,L.,有效的选择后推断,《统计年鉴》,41802-837(2013)·Zbl 1267.62080号
[5] 伯瑙,C。;奥古斯丁,T。;Boulesteix,A.-L.,《通过估计包装算法的错误率修正基于最佳重采样的错误率》,生物计量学,69,693-702(2013)·Zbl 1429.62234号
[6] Breiman,L.,The Little Bootstrap和回归中维度选择的其他方法:X(X)-修正预测误差,《美国统计学会杂志》,87738-754(1992)·Zbl 0850.62518号
[7] 坎迪斯,E.J。;Sing-Long,C.M。;Trzasko,J.D.,奇异值阈值和谱估计的无偏风险估计,IEEE信号处理学报,614643-4657(2013)·Zbl 1393.94187号
[8] 骑士,L。;Golubev,Y。;Picard,D。;Tsybakov,A.,《Oracle反问题不等式》,《统计年鉴》,30843-874(2002)·Zbl 1029.62032号
[9] 陈,X。;林,Q。;Sen,B.,《投影自由度估计及其在多元形状限制回归中的应用》(2015)
[10] Donoho,D.L。;Johnstone,I.M.,《通过小波收缩实现理想空间自适应》,生物特征,81425-455(1994)·Zbl 0815.62019号
[11] ---《通过小波收缩适应未知平滑度》,美国统计协会杂志,90,1200-1224(1995)·Zbl 0869.62024号
[12] ---《基于小波收缩的最小极大估计》,《统计年鉴》,第26期,第879-921页(1998年)·Zbl 0935.62041号
[13] Efron,B.,预测规则的表观错误率有多大偏差?,《美国统计协会杂志》,81461-470(1986)·兹比尔06216.2073
[14] ---《预测误差的估计:协方差惩罚和交叉验证》,《美国统计协会杂志》,第99期,第619-632页(2004年)·Zbl 1117.62324号
[15] ---《大尺度同步推断:估计、测试和预测的经验贝叶斯方法》(2010),纽约:剑桥大学出版社·Zbl 1277.62016年
[16] ---《模型选择后的估计和准确性》,《美国统计协会杂志》,109991-1007(2014)·Zbl 1368.62071号
[17] 埃夫隆,B。;Hastie,T.,《计算机时代统计推断:算法、推断和数据科学》(2016),纽约:剑桥大学出版社·Zbl 1377.62004号
[18] Fithian,W。;Sun,D。;Taylor,J.,模型选择后的最优推理(2014)
[19] Hoerl,A。;Kennard,R.,《岭回归:非正交问题的有偏估计》,技术计量学,12,55-67(1970)·Zbl 0202.17205号
[20] 詹姆斯·W·。;Stein,C.,二次损失估计,第四届伯克利数理统计与概率研讨会论文集,1361-379(1961)·Zbl 1281.62026号
[21] Janson,L。;Fithian,W。;Hastie,T.,《有效自由度:有缺陷的隐喻》,《生物特征》,102479-485(2015)·Zbl 1452.62251号
[22] Johnstone,I.M.,《相关数据和反问题的小波收缩:适应性结果》,《统计学》,第9期,第51-83页(1999年)·Zbl 1065.62519号
[23] ---《高斯估计:序列和小波模型》(2015),纽约:剑桥大学出版社,初稿
[24] Klivans,A。;奥唐纳,R。;Servedio,R.,《通过高斯表面积学习几何概念》,《计算机科学基础》,49,541-550(2008)
[25] Kneep,A.,有序线性平滑器,统计学年鉴,22835-866(1994)·Zbl 0815.62022号
[26] Krstajic,D。;Buturovic,L。;莱希,D。;Thomas,S.,《选择和评估回归和分类模型时的交叉验证陷阱》,《化学信息学杂志》,6(2014)
[27] Lee,J。;Sun,D。;孙,Y。;Taylor,J.,《精确选后推断及其在拉索中的应用》,《统计年鉴》,44907-927(2016)·Zbl 1341.62061号
[28] Li,K.-C.,《从Stein的无偏风险估计到广义交叉验证方法》,《统计年鉴》,第14期,第1352-1377页(1985年)·Zbl 0605.62047号
[29] ---,(C_{L})的渐近最优性和岭回归中的广义交叉验证及其在样条平滑中的应用,统计年鉴,14,1101-1112(1986)·Zbl 0629.62043号
[30] ---,(C_{p},C_{L})的渐近最优性,交叉验证和广义交叉验证:离散指标集,统计年鉴,15958-975(1987)·Zbl 0653.62037号
[31] 罗克哈特。;泰勒,J。;蒂布希拉尼,R.J。;Tibshirani,R.,《拉索的显著性检验》,《统计年鉴》,第42期,第413-468页(2014年)·Zbl 1305.62254号
[32] Mallows,C.,关于(C_{p})的一些评论,技术计量学,15661-675(1973)·Zbl 0269.62061号
[33] Mikkelsen,F.R。;Hansen,N.R.,分段Lipschitz估计的自由度(2016)
[34] Nazarov,F.,关于中凸集的最大周长\(####\)关于高斯测度,函数分析的几何方面,1806169-187(2003)·Zbl 1036.52014年
[35] Stein,C.,多元正态分布平均值的估计,统计年鉴,9,1135-1151(1981)·Zbl 0476.62035号
[36] 田哈里斯,X.,模型选择后的预测误差(2016)
[37] Tibshirani,R.J.,《自由度与模型搜索》,中国统计局,第25期,第1265-1296页(2015年)·Zbl 1415.62058号
[38] 蒂布希拉尼,R.J。;Taylor,J.,《广义拉索的求解路径》,《统计学年鉴》,391335-1371(2011)·Zbl 1234.62107号
[39] ---《拉索问题的自由度》,《统计年鉴》,第40卷,第1198-1232页(2012年)·Zbl 1274.62469号
[40] 蒂布希拉尼,R.J。;泰勒,J。;罗克哈特。;Tibshirani,R.,《序贯回归程序的精确选后推断》,美国统计协会杂志,111,600-620(2016)
[41] 蒂布希拉尼,R.J。;Tibshirani,R.,《交叉验证中最小错误率的偏差修正》,《应用统计年鉴》,3822-829(2009)·Zbl 1166.62311号
[42] 沙马尔迪诺斯一世。;Rakhshani,A。;Lagani,V.,《基于交叉验证的协议与同步超参数优化的性能估计特性》,《国际人工智能工具杂志》,24(2015)
[43] M.O.Ulfarsson。;Solo,V.,非负矩阵分解的调谐参数选择,IEEE声学、语音和信号处理国际会议(2013)
[44] ---《欠定降秩回归的调整参数选择》,IEEE信号处理快报,20,881-884(2013)
[45] 瓦尔马,S。;Simon,R.,《使用交叉验证进行模型选择时误差估计的偏差》,BMC生物信息学,7(2006)
[46] 谢,X。;寇,S。;Brown,L.,异方差层次模型的SURE估计,美国统计协会杂志,1071465-1479(2012)·Zbl 1284.62450号
[47] Ye,J.,《关于测量和纠正数据挖掘和模型选择的影响》,《美国统计学会杂志》,93,120-131(1998)·Zbl 0920.62056号
[48] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《论拉索的“自由度”》,《统计年鉴》,352173-2192(2007)·Zbl 1126.62061号
[49] 邹,H。;袁明,《多元分位数回归中的正则化同时模型选择、计算统计与数据分析》,52,5296-5304(2008)·Zbl 1452.62301号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。