×

我们可以信任高维引导吗?线性模型的情况。 (英语) Zbl 1444.62039号

小结:我们考虑了线性回归设置下高维bootstrap的性能,其中\(p<n\)但\(p/n\)不接近于零。我们考虑了普通最小二乘法和稳健回归方法,并采用了一个最低性能要求:bootstrap能否为单个坐标\(\beta\)(其中\(\beta\)是真正的回归向量)提供良好的置信区间?
我们通过数值和理论工作的结合表明,引导程序充满了问题。回归中最常用的两种自举方法——剩余自举法和配对自举法——随着比率(p/n)的增长,对(β)的推断很差。我们发现,当比率(p/n)增长时,剩余自举法倾向于给出反保守估计(膨胀的I型误差),而配对自举法给出非常保守的估计(严重的功率损失)。我们还表明,用于估计({β})方差的折刀重采样技术严重高估了高维度的差异。
我们根据我们的理论结果提供了替代程序,从而产生了维数自适应和鲁棒的bootstrap方法。

MSC公司:

62F40型 引导、折刀和其他重采样方法
62层25 参数公差和置信区域
62J05型 线性回归;混合模型
60对20 随机矩阵(概率方面)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] M.四月。MATLAB手册的MOSEK优化工具箱。7.1版(第28次修订)。,2015.网址http://docs.mosek.com/7.1/toolbox/index.html。
[2] D.Bean、P.J.Bickel、N.El Karoui和B.Yu。高维回归中的最优M估计。《美国国家科学院院刊》,110(36):14563–145682013年。
[3] A.Belloni、V.Chernozhukov和K.Kato。最小绝对偏差回归和其他Z估计问题的一致后选择推理。Biometrika,102(1):77-942015年3月·Zbl 1345.62049号
[4] R.Beran和M.S.Srivastava。协方差矩阵函数的自举检验和置信域。,13(1):95–115, 1985. ·Zbl 0607.62048号
[5] P.J.Bickel和D.A.Freedman。具有多参数的自举回归模型。华兹华斯统计师埃里希·莱曼的《节日》/普罗巴伯。序列号。,第28-48页。加利福尼亚州贝尔蒙特市沃兹沃斯,1983年·Zbl 0529.62057号
[6] P.J.Bickel、F.G¨otze和W.R.van Zwet。重新采样少于n个观察值:收益、损失和损失补救。统计师。中国科学院,7(1):1997年1月31日。经验贝叶斯,序列分析和统计与概率相关主题(新泽西州新不伦瑞克,1995)·Zbl 0927.62043号
[7] P.J.Bickel和D.A.Freedman。引导的一些渐近理论。安.统计师。,9(6):1196–1217, 1981. ·Zbl 0449.62034号
[8] O.Chapelle、E.Manavoglu和R.Rosales。用于显示广告的简单且可扩展的响应预测。ACM事务处理。智力。系统。技术。,5(4):61:1–61:342014年12月。
[9] A.Chatterjee和S.N.Lahiri.LASSO估计剩余BOOTSTRAP的渐近性质。美国数学学会学报,138(12):4497–45092010年12月·Zbl 1203.62014年6月
[10] A.Chatterjee和S.N.Lahiri。自适应LASSO估计量对Oracle分布的收敛速度和通过bootstrap进行的高阶精化。《统计年鉴》,41(3):1232–12592013年6月·Zbl 1293.62153号
[11] A.Chatterjee和S.Lahiri。自举套索估值器。美国统计协会杂志,106(494):608-6252011·Zbl 1232.62088号
[12] M.R.Chernick先生。引导方法:实践者指南。威利,1999年·Zbl 0932.62035号
[13] 克里蒂奥。2017年《评论》公开数据集。统一资源定位地址http://research.criteo.com/外联/。
[14] A.C.Davison和D.V.Hinkley。引导方法及其应用。剑桥统计与概率数学系列。剑桥大学出版社,剑桥,1997年。62 ·Zbl 0886.62001号
[15] A.Delaigle和I.Gijbels。污染样品的积分平方密度导数估计。《皇家统计学会杂志》,B,64:869-8862002·Zbl 1067.62034号
[16] A.Delaigle和I.Gijbels。反卷积核密度估计中的实用带宽选择。计算统计与数据分析,45:249–2672004·Zbl 1429.62125号
[17] A.Delaigle。含误差变量的非参数核方法:构造估计量,计算估计量,避免常见错误。澳大利亚。N.Z.J.Stat.,56(2):105–124,2014年·Zbl 1334.62006年
[18] R.Dezeure、P.B–uhlmann和C.-H.Zhang。用bootstrap进行高维同步推理。测试,26(4):685–7192017年10月·Zbl 06833591号
[19] P.Diaconis和D.Freedman。图形投影追踪的渐近性。Ann.Statist.,《统计年鉴》。,12(3):793–8151984年·Zbl 0559.62002号
[20] D.Donoho和A.Montanari。高维稳健m估计:通过近似消息传递的渐近方差。arXiv:1310.73202013年·Zbl 1357.62220号
[21] M.L.Eaton和D.E.Tyler。关于Wielandt不等式及其在随机对称矩阵特征值渐近分布中的应用。,19(1):260– 271, 1991. ·Zbl 0742.62015号
[22] B.埃夫隆。引导方法:再次审视折刀。安.统计师。,7(1):1–26, 1979. ·Zbl 0406.62024号
[23] B.埃夫隆。《折刀、引导和其他重采样计划》,CBMS-NSF应用数学区域会议系列第38卷。工业和应用数学学会(SIAM),宾夕法尼亚州费城,1982年·Zbl 0496.62036号
[24] B.Efron和C.Stein。方差的折刀估计。安.统计师。,9(3):586–596, 1981. ·Zbl 0481.62035号
[25] B.Efron和R.J.Tibshirani。《统计学和应用概率论专著》第57卷引导简介。查普曼和霍尔,纽约,1993年·Zbl 0835.62038号
[26] N.El Karoui。随机矩阵的测度和谱的集中:应用于相关矩阵、椭圆分布等。应用概率年鉴,19(6):2362–24052009年12月·Zbl 1255.62156号
[27] N.El Karoui。Markowitz问题和其他线性约束二次规划中的高维效应:风险低估。安.统计师。,38(6):3487–3566, 2010. ·Zbl 1274.62365号
[28] N.El Karoui。关于高维markowitz投资组合的已实现风险。SIAM金融数学期刊,4(1),2013·Zbl 1358.91092号
[29] N.El Karoui。非正则和脊线正则高维稳健回归估计量的渐近行为:严格结果。arXiv:1311.24452013年。ArXiv:1311.2445。63
[30] N.El Karoui。关于预测器几何对高维脊线规整广义稳健回归估计器性能的影响。概率论及相关领域,2017年。
[31] N.El Karoui和H.Koestes。随机矩阵结果的几何敏感性:协方差和相关统计方法的收缩估计的结果。提交给Bernoulli,2011年。arXiv:1105.1404(68页)提供。
[32] N.El Karoui、D.Bean、P.Bickel、C.Lim和B.Yu。关于具有高维预测因子的稳健回归。《技术报告811》,加州大学伯克利分校,统计部,2011年。最初作为手稿AoS111-009提交。不再考虑·Zbl 1359.62184号
[33] N.El Karoui、D.Bean、P.J.Bickel、C.Lim和B.Yu。关于具有高维预测因子的稳健回归。《美国国家科学院院刊》,2013年·Zbl 1359.62184号
[34] J.范。关于非参数反褶积问题的最优收敛速度。安.统计师。,19(3):1257–1272, 1991. ·Zbl 0729.62033号
[35] M.Grant和S.Boyd。非光滑凸程序的图形实现。编辑V.Blondel、S.Boyd和H.Kimura,《学习和控制的最新进展》,《控制和信息科学的讲稿》,第95-110页。Springer-Verlag有限公司,2008年。http://stanford.edu网站/boyd/graph_dcp.html·Zbl 1205.90223号
[36] M.Grant和S.Boyd。CVX:用于严格凸编程的Matlab软件,2.1版。网址:http://cvxr.com/cvx,2014年3月。
[37] L.R.哈夫。Wishart分发与应用程序的标识。《多元分析杂志》。,9(4):531–544, 1979. ·Zbl 0423.62036号
[38] P.霍尔。引导和Edgeworth扩展。统计学中的斯普林格系列。SpringerVerlag,纽约,1992年·Zbl 0744.62026号
[39] P.Hall和S.Lahiri。反褶积问题中分布、矩和分位数的估计。《统计年鉴》,36(5):2110–21342008·Zbl 1148.62028号
[40] P.Hall、J.S.Marron和A.Neeman。高维、低样本数据的几何表示。J.R.统计社会服务。B统计方法。,67(3):427–444, 2005. ·Zbl 1069.62097号
[41] J.-B.Hiriart-Urruti和C.Lemar’echal。凸分析基础。格兰德伦文本版。Springer-Verlag,柏林,2001年。简化版的凸分析和最小化算法。I[施普林格,柏林,1993年;MR1261420(95m:90001)]和ıt II[同上;MR1295240(95m:90002)]·Zbl 0795.49002号
[42] R.A.Horn和C.R.Johnson。矩阵分析。剑桥大学出版社,剑桥,1990年。修正了1985年原版的重印本·Zbl 0704.15002号
[43] P.J.Huber。稳健回归:渐近、猜想和蒙特卡罗。安.统计师。,1:799–821, 1973. 64 ·Zbl 0289.62033号
[44] P.J.Huber和E.M.Ronchetti。稳健的统计数据。概率统计威利级数。John Wiley&Sons Inc.,新泽西州霍博肯,第二版,2009年·Zbl 1276.62022号
[45] I.约翰斯通。关于主成分分析中最大特征值的分布。安.统计师。,29(2):295–327, 2001. ·Zbl 1016.62078号
[46] 加藤(T.Kato)。线性算子的摄动理论。数学经典。施普林格·弗拉格,柏林,1995年。重印1980年版·Zbl 0836.47009号
[47] A.Kleiner、A.Talwalkar、P.Sarkar和M.I.Jordan。大规模数据的可扩展引导。《皇家统计学会杂志:B辑(统计方法)》,76(4):795–8162014·Zbl 07555464号
[48] R.Koenker。分位数回归,《计量经济学社会专题论文》第38卷。剑桥大学出版社,剑桥,2005年·Zbl 1111.62037号
[49] R.Koenker。quantreg:分位数回归,2013年。统一资源定位地址http://CRAN.R-project.org/package=量程。R软件包版本5.05·Zbl 1432.62097号
[50] J.Langford、L.Li和A.Strehl,2007年。统一资源定位地址https://github.com/JohnLangford/vovepal_wabbit/wiki。
[51] 勒杜(M.Ledoux)。《测量现象的集中》,《数学测量与专著》第89卷。美国数学学会,普罗维登斯,RI,2001年·Zbl 0995.60002号
[52] M.洛佩斯。近低秩设计下高维回归的残差自举方法。《神经信息处理系统NIPS进展》,第3239–3247页,2014年。
[53] E.妈妈。稳健回归的渐近增维及其在bootstrap中的应用。安.统计师。,17(1):382–400, 1989. ·Zbl 0674.62017年
[54] E.哺乳动物。引导、野引导和渐近正态性。普罗巴伯。理论相关领域,93(4):439–4551992·Zbl 0766.62021号
[55] E.哺乳动物。高维线性模型的引导和野生引导。安.统计师。,21(1):255–285, 1993. ·Zbl 0771.62032号
[56] K.V.Mardia、J.T.Kent和J.M.Bibby。多元分析。学术出版社[Harcourt Brace Jovanovich出版社],伦敦,1979年。概率与数理统计:一系列专著和教科书·Zbl 0432.62029号
[57] J.W.McKean、S.J.Sheather和T.P.Hettmansperger。基于稳健估计的残差的使用和解释。美国统计协会杂志,88(424):1254–12631993年12月·Zbl 0792.62061号
[58] P.D.米勒。应用渐近分析,《数学研究生》第75卷。美国数学学会,普罗维登斯,RI,2006·Zbl 1101.41031号
[59] J.-J.莫罗。Proximit’e et dualit’e dans un espace hilbertien公司。牛市。社会数学。法国,93:273-2991965年。65 ·Zbl 0136.12101号
[60] 莫斯科。Rmosek:R到MOSEK优化界面,2014年。统一资源定位地址http://rmosek。r-forg.r-project.org/,http://www.mosek.com/。R软件包版本7.0.5。
[61] A.Pajor和L.Pastur。关于具有对数凹分布的秩一矩阵和的特征值的极限经验测度。数学研究生。,195(1):11–29, 2009. ·Zbl 1178.15023号
[62] M.I.Parzen、L.J.Wei和Z.Ying。基于关键估计函数的重采样方法。《生物特征》,81(2):341-3501994年·Zbl 0807.62038号
[63] D.N.Politis、J.P.Romano和M.Wolf。二次采样。统计学中的斯普林格系列。Springer-Verlag,纽约,1999年·Zbl 0931.62035号
[64] S.波特诺伊。p2/n较大时p回归参数M-估计的渐近性I.相合性。安.统计师。,12(4):1298–1309, 1984. ·Zbl 0584.62050号
[65] S.波特诺伊。p2/n较大时p回归参数M估计的渐近性。法线近似。安.统计师。,13(4):1403–1417, 1985. ·Zbl 0601.62026号
[66] S.波特诺伊。多参数回归模型M估计残差的经验分布的渐近行为。安.统计师。,14(3):1152–1170, 1986. ·Zbl 0612.62072号
[67] S.波特诺伊。适用于稳健回归估计的中心极限定理。《多元分析杂志》。,22(1):24–50, 1987. ·Zbl 0626.62033号
[68] G.R.肖拉克。引导稳健回归。通信统计。A-理论方法,11(9):961–9721982·兹伯利0523.62033
[69] J.W.西尔弗斯坦。大维随机矩阵特征值经验分布的强收敛性。《多元分析杂志》。,55(2):331–339, 1995. ·Zbl 0851.62015号
[70] D.W.斯特洛克。概率论,分析的观点。剑桥大学出版社,剑桥,1993年·Zbl 0925.60004号
[71] A.W.范德法特。渐进统计。剑桥统计与概率数学系列。剑桥大学出版社,剑桥,1998年·Zbl 0910.62001号
[72] W.N.Venables和B.D.Ripley。《现代应用统计学与S.Springer》,纽约,第四版,2002年。国际标准图书编号0-387-95457-0·Zbl 1006.62003号
[73] K.W.Wachter。独立元素样本矩阵的随机矩阵谱的强极限。《概率年鉴》,6(1):1978年1月18日·Zbl 0374.60039号
[74] X.Wang和B.Wang。测量误差模型中的去卷积估计:r包去卷积。《统计软件杂志》,39(10):1–242011年。
[75] 应用线性回归。概率统计威利级数。John Wiley&Sons,Inc.,新泽西州霍博肯,第四版,2014年·Zbl 1281.62015年
[76] C.F.J.Wu。回归分析中的折刀法、自举法和其他重采样方法。安.统计师。,14(4):1261–1350, 1986. 作者进行了讨论和反驳·Zbl 0618.62072号
[77] S.Zheng、D.Jiang、Z.Bai和X.He。利用中等高维数据对多重相关系数进行推断。Biometrika,101:748–754,2014年·兹比尔1336.62157
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。