×

模型选择后的条件预测推理。 (英语) Zbl 1173.62026号

小结:我们对随机设计回归模型选择后的预测推理过程进行了有限样本分析。分析的重点是一个具有统计挑战性的场景,其中潜在重要解释变量的数量可能是无限的,其中对未知参数没有规则性条件,其中“好”中的解释变量数量模型可以与样本大小具有相同的顺序,其中候选模型的数量可以比样本大小具有更大的顺序。推理过程的性能是以训练样本为条件进行评估的。
在仅考虑候选模型数量及其复杂度的弱条件下,并一致地覆盖所有考虑中的数据生成过程,我们证明了在有限样本中,某个预测区间是近似有效且短且概率高的,其实际覆盖概率接近标称覆盖概率,其长度接近通过实际知道“最佳”候选模型构建的不可行区间的长度。类似的结果也适用于预测推断程序,而不是预测区间,例如,测试未来的响应是否高于或低于给定的阈值。

MSC公司:

62G08号 非参数回归和分位数回归
62G15年 非参数容差和置信区域
62甲12 多元分析中的估计
62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
60埃15 不平等;随机排序
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adam,B.-L.,Qu,Y.,Davis,J.W.,Ward,M.D.,Clements,M.A.,Cazares,L.H.,Semmes,O.J.,Schellway,P.F.,Yasui,Y.、Feng,Z.和Wright,G.L.J.(2002)。血清蛋白指纹结合模式匹配算法将前列腺癌与良性前列腺增生和健康男性区分开来。癌症研究62 3609-3614。
[2] Baraud,Y.(2004)。高斯回归中的置信球。安。统计师。32 528-551. ·Zbl 1093.62051号 ·doi:10.1214/009053604000000085
[3] Barndorff Nielsen,O.E.和Cox,D.R.(1996年)。预测和渐近。伯努利2 319-340·Zbl 0870.62008号 ·doi:10.2307/3318417
[4] Beran,R.和Dümbgen,L.(1998)。估计量和置信集的调制。安。统计师。1826年-1856年·Zbl 1073.62538号 ·doi:10.1214/aos/1024691359
[5] Breiman,L.和Freedman,D.(1983年)。回归方程中应输入多少变量?J.Amer。统计师。协会78 131-136。JSTOR公司:·Zbl 0513.62068号 ·doi:10.2307/2287119
[6] Cai,T.T.和Low,M.G.(2004)。非参数置信区间的自适应理论。安。统计师。32 1805-1840·Zbl 1056.62060号 ·doi:10.1214/00905360400000049
[7] Cai,T.T.和Low,M.G.(2006)。适应性信心球。安。统计师。34 202-228. ·Zbl 1091.62037号 ·doi:10.1214/0090536000000146
[8] Ding,A.A.和Hwang,J.T.G.(1999)。预测区间、因子分析模型和高维经验线性预测。J.Amer。统计师。协会94 446-455。JSTOR公司:·Zbl 1072.62592号 ·doi:10.2307/2670165
[9] Geisser,S.(1993)。预测推理:导论。统计学和应用概率专著55。查普曼和霍尔,纽约·Zbl 0824.62001号
[10] Genovese,C.R.和Wasserman,L.(2005)。非参数小波回归的置信集。安。统计师。33 698-729·Zbl 1068.62057号 ·doi:10.1214/009053605000000011
[11] Genovese,C.R.和Wasserman,L.(2008)。自适应置信带。安。统计师。36 875-905. ·Zbl 1139.62311号 ·doi:10.1214/07-AOS500
[12] Golub,T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.,Caligiuri,M.A.、Bloomfield,D.C.和Lander,E.S.(1999)。《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》286 531-537。
[13] Hocking,R.R.(1976年)。线性回归中变量的分析和选择。生物统计学32 1-49。JSTOR公司:·Zbl 0328.62042号 ·doi:10.2307/2529336
[14] Hoffmann,M.和Lepski,O.(2002年)。各向异性回归中的随机率。安。统计师。30 325-396·Zbl 1012.62042号 ·doi:10.1214/aos/1021379858
[15] Joshi,V.M.(1969年)。一元或二元正态总体均值的常用置信集的可容许性。安。数学。统计师。40 1042-1067. ·Zbl 0205.46202号 ·doi:10.1214/aoms/1177697608
[16] Juditsky,A.和Lambert-Lacroix,S.(2003年)。非参数置信集估计。数学。方法统计。12 410-428.
[17] Kabaila,P.和Leeb,H.(2006年)。关于模型选择后置信区间的大样本最小覆盖概率。J.Amer。统计师。协会101 619-629·Zbl 1119.62322号 ·doi:10.1198/01621450050001140
[18] Leeb,H.(2005)。模型选择后线性预测器的分布:条件有限样本分布和渐近近似。J.统计学家。计划。推论134 64-89·兹比尔1066.62071 ·doi:10.1016/j.jspi.2004.04.005
[19] Leeb,H.(2006)。模型选择后线性预测器的分布:无条件有限样本分布和渐近逼近。IMS课堂讲稿——专著系列49 291-311·Zbl 1268.62064号 ·doi:10.1214/074921706000000518
[20] Leeb,H.(2008年)。当样本大小相对于数据生成过程的复杂性较小时,评估和选择样本外预测模型。伯努利14 661-690·Zbl 1155.62029号 ·doi:10.3150/08-BEJ127
[21] Leeb,H.和Pötscher,B.M.(2003)。模型选择后估计量的有限样本分布,以及一致与非一致近似。计量经济学理论19 100-142。JSTOR公司:·Zbl 1032.62011年 ·doi:10.1017/S0266466603191050
[22] Leeb,H.和Pötscher,B.M.(2005年)。模型选择和推理:事实和虚构。计量经济学理论21 21-59·Zbl 1085.62004号 ·网址:10.1017/S0266466605050036
[23] Leeb,H.和Pötscher,B.M.(2006)。可以估计模型选择后估计量的条件分布吗?安。统计师。34 2554-2591. ·Zbl 1106.62029号 ·doi:10.1214/0090536000000821
[24] Leeb,H.和Pötscher,B.M.(2008)。可以估计模型选择后估计量的无条件分布吗?计量经济学理论24 338-376·Zbl 1284.62152号
[25] Li,K.-C.(1989)。非参数回归的诚实置信区域。安。统计师。17 1001-1008. ·Zbl 0681.62047号 ·doi:10.1214/aos/1176347253
[26] Nychka,D.(1988)。平滑样条曲线的贝叶斯置信区间。J.Amer。统计师。协会83 1134-1143。JSTOR公司:·doi:10.2307/2290146
[27] Pötscher,B.M.(1991)。模型选择对推理的影响。计量经济学理论7 163-185。JSTOR公司:·doi:10.1017/S0266466600004382
[28] Robins,J.和van der Vaart,A.(2006年)。自适应非参数置信集。安。统计师。34 229-253. ·Zbl 1091.62039号 ·doi:10.1214/009053605000000877
[29] 沈欣、黄海川、叶杰(2004)。模型选择后的推断。J.Amer。统计师。协会99 751-761·Zbl 1117.62423号 ·doi:10.1198/0162145000001097
[30] Souders,T.M.和Stenbakken,G.N.(1991年)。降低了高昂的测试成本。IEEE频谱28 48-51。
[31] Stenbakken,G.N.和Souders,T.M.(1987)。通过线性模型的QR分解选择测试点和测试性度量。IEEE传输。仪器。测量。36 406-410.
[32] 汤普森,M.L.(1978)。多元回归中变量的选择:第二部分。选择的程序、计算和示例。国际统计。修订版46 129-146·Zbl 0426.62046号 ·doi:10.2307/1402809
[33] Tibshirani,R.、Saunders,M.、Rosset,S.、Zhu,J.和Knight,K.(2005年)。通过融合套索实现轻盈流畅。J.罗伊。统计师。Soc.序列号。乙67 91-108。JSTOR公司:·兹比尔1060.62049 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[34] van de Vijver,M.J.、He,Y.D.、van t Veer,L.J.、Dai,H.、Hart,A.A.M.、Voskuil,D.W.、Schreiber,G.J.、Peterse,J.L.、Roberts,C.、Marton,M.、Parrish,M.,Atsma,D.、Witteveen,A.、Glas,A.、Delahaye,L.、van der Velde,t.、Bartelink,H.,Rodenhuis,S.、Rutgers,E.t.、Friend,S.H.和Bernards,R.(2002)。基因表达特征作为乳腺癌生存预测因子。《新英格兰医学杂志》(The New England Journal of Medicine),第347期,1999-2009年。
[35] van t Veer,L.J.,Dai,H.,van de Vijver,M.J.,He,Y.D.,Hart,A.A.M.,Mao,M.,Peterse,H.L.,van der Kooy,K.,Marton,M.J..,Witteveen,A.t.,Schreiber,G.J.,Kerkhoven,R.M.,Roberts,C.,Linsley,P.S.,Bernards,R.和Friend,S.H.(2002年)。基因表达谱预测乳腺癌的临床结局。自然415 530-536。
[36] Wahba,G.(1983年)。交叉验证平滑样条的贝叶斯“置信区间”。J.Amer。统计师。协会45 133-150。JSTOR公司:·Zbl 0538.65006号
[37] West,M.、Blanchette,C.、Dressman,H.、Huang,E.、Ishida,S.、Spang,R.、Zuzan,H.,Olson,J.A.J.、Marks,J.R.和Nevins,J.R.(2001)。利用基因表达谱预测人类乳腺癌的临床状况。程序。国家。阿卡德。科学。美国98 11462-11467。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。