×

无模型线性回归中的有效后选择推理。 (英语) Zbl 1455.62137号

摘要:现代数据驱动的建模方法广泛使用协变量/模型选择。这样的选择带来了代价:它使经典的统计推断无效。对这个问题提出了保守的补救办法R.伯克等【Ann.Stat.41,No.2,802-837(2013;Zbl 1267.62080号)]并进一步延长F.Bachoc公司等【Ann.Stat.48,No.1,440–463(2020;Zbl 1466.62263号)]。这些被称为“PoSI方法”的建议在任意模型选择后提供了有效的推断。它们在计算上是NP-hard的,并且在理论证明上有局限性。因此,我们提出了计算有效的置信区域,命名为“UPoSI”(“U”表示“一致”或“通用”),并证明了它们的大-(p)渐近性。对于线性OLS回归,无论是固定协变量还是随机协变量,还是独立数据还是某些类型的相关数据,我们都会对正常线性模型进行错误指定。我们首先证明了后选择推理问题和同时推理问题的一般等价结果,在这种情况下,去除了Berk等人[loc.cit.]的相关结果中仍然存在的不重要特征。然后,我们构建了有效的PoSI置信区,该置信区是第一个大大提高计算效率的置信区,因为所需的计算时间仅随协变量总数的二次而非指数增长。当协变量总数(p)与样本大小(n)相差(几乎成指数)时,这些也是第一个具有保证渐近有效性的PoSI置信区。在标准尾部假设下,我们只需要\(\log p)^7=o(n)\)和\(k=o(\sqrt{n/\log p})\),其中\(k)(\(le p))是考虑用于选择的协变量(模型大小)的最大数量。我们研究了这些置信区域的各种性质,包括它们的勒贝格测度,并从理论上与先前提出的结果进行了比较。

MSC公司:

62J05型 线性回归;混合模型
62J10型 方差和协方差分析(ANOVA)
62J15型 配对和多重比较;多次测试
62甲12 多元分析中的估计
62F40型 引导、折刀和其他重采样方法
62层25 参数公差和置信区域
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bachoc,F.、Blanchard,G.和Neuvial,P.(2018年)。关于受限等距性质下的后置选择推理常数。电子。《美国联邦法律大全》第12卷第3736-3757页。Zentralblatt数学:1406.62074
数字对象标识符:doi:10.1214/18-EJS1490
·Zbl 1406.62074号 ·doi:10.1214/18-EJS1490
[2] Bachoc,F.、Leeb,H.和Pötscher,B.M.(2019年)。模型选择后预测的有效置信区间。安。统计师。47 1475-1504。Zentralblatt数学:1419.62164
数字对象标识符:doi:10.1214/18-AOS1721
欧几里德项目:Euclid.aos/1550026846
·Zbl 1419.62164号 ·doi:10.1214/18-AOS1721
[3] Bachoc,F.、Preinerstorfer,D.和Steinberger,L.(2016)。模型选择后统一有效的置信区间。预印。可从arXiv:1611.01043获得。arXiv公司:1611.01043
Zentralblatt数学:07196546
数字对象标识符:doi:10.1214/19-AOS1815
欧几里德项目:Euclid.aos/1581930142
·兹比尔1466.62263 ·doi:10.1214/19-AOS1815
[4] Belloni,A.、Rosenbaum,M.和Tsybakov,A.B.(2017年)。高维变量误差模型中的线性和二次规划估值器。J.R.统计社会服务。B.统计方法。79 939-956. Zentralblatt数学:1411.62180
数字对象标识符:doi:10.1111/rssb.12196
·Zbl 1411.62180号 ·doi:10.1111/rssb.12196
[5] Berk,R.、Brown,L.、Buja,A.、Zhang,K.和Zhao,L.(2013)。有效的后选择推理。安。统计师。41 802-837. Zentralblatt数学:1267.62080
数字对象标识符:doi:10.1214/12-AOS1077
欧几里德项目:Euclid.aos/1369836961
·Zbl 1267.62080号 ·doi:10.1214/12-AOS1077
[6] Buehler,R.J.和Feddersen,A.P.(1963年)。关于Student(t)的条件属性的注释。安。数学。《美国联邦法律大全》第34卷第1098-1100页。Zentralblatt数学:0124.10101
数字对象标识符:doi:10.1214/aoms/1177704034
欧几里德项目:Euclid.aoms/1177704034
·Zbl 0124.10101号 ·doi:10.1214/aoms/1177704034
[7] Buja,A.、Brown,L.D.、Berk,R.A.、George,E.I.、Traskin,M.、Pitkin,E.、Zhao,L.H.和Zhang,K.(2019)。模型近似,第一部分:用线性回归说明的结果。统计师。科学。出现。可从arXiv:1404.1578获取。arXiv公司:1404.1578
Zentralblatt数学:1440.62020
数字对象标识符:doi:10.1214/18-STS693
欧几里德项目:Euclid.ss/1578474016
·Zbl 1440.62020年 ·doi:10.1214/18-STS693
[8] Chernozhukov,V.、Chetverikov,D.和Kato,K.(2017年)。高维中心极限定理和bootstrap。安·普罗巴伯。45 2309-2352. Zentralblatt数学:1377.60040
数字对象标识符:doi:10.1214/16-AOP1113
欧几里德项目:Euclid.aop/1502438428
·Zbl 1377.60040号 ·数字对象标识码:10.1214/16-AOP1113
[9] Claeskens,G.和Carroll,R.J.(2007)。一般半参数问题中模型选择推理的渐近理论。生物特征94 249-265。Zentralblatt数学:1132.62032
数字对象标识符:doi:10.1093/biomet/asm034
·Zbl 1132.62032号 ·doi:10.1093/biomet/asm034
[10] Cui,Y.、Leng,C.和Sun,D.(2016)。高维相关矩阵的稀疏估计。计算。统计师。数据分析。93 390-403. Zentralblatt数学:06918713
数字对象标识符:doi:10.1016/j.csda.2014.10.001
·Zbl 1468.62044号 ·doi:10.1016/j.csda.2014.10.001
[11] Deng,H.和Zhang,C.-H.(2017)。超越高斯近似:独立随机向量和最大值的引导。预印本。可从arXiv:1705.09528获取。arXiv:1705.09528
[12] Fithian,W.、Sun,D.L.和Taylor,J.(2014)。模型选择后的最优推理。预印本。可从arXiv:1410.2597获得。arXiv公司:1410.2597
[13] Freedman,D.A.(1983年)。关于筛选回归方程的注释。阿默尔。统计师。37 152-155.
[14] Hjort,N.L.和Claeskens,G.(2003)。频繁模型平均估值器。J.Amer。统计师。协会98 879-899。Zentralblatt数学:1047.62003
数字对象标识符:doi:10.1198/0162145000000828
·Zbl 1047.62003年 ·doi:10.1198/0162145000000828
[15] Kivaranovic,D.和Leeb,H.(2018年)。多面体约束条件下的模型后选择置信区间的预期长度。预印本。可在arXiv:1803.01665上获得。arXiv:1803.01665
[16] Kuchibhotla,A.K.、Brown,L.D.和Buja,A.(2018)。普通最小二乘线性回归的无模型研究。预印本。可从arXiv:1809.10538获得。arXiv:1809.10538号
[17] Kuchibhotla,A.K.和Chakrabortty,A.(2018)。超越高维统计中的亚高斯性:协方差估计和线性回归的应用。预印。arXiv:1804.02605提供。arXiv:1804.02605
[18] Kuchibhotla,A.K.、Brown,L.D.、Buja,A.、George,E.I.和Zhao,L.(2018)。线性回归的无模型透视图:选择后推理的模型内统一边界。预印本。可在arXiv:1802.05801上获得。arXiv公司:1802.05801
[19] Kuchibhotla,A.K.、Brown,L.D.、Buja,A.、Cai,J.、George,E.I.和Zhao,L.H.(2020年)。补充“无模型线性回归中的有效后选择推理”https://doi.org/10.1214/19-AOS1917SUPP。
[20] Lee,J.D.、Sun,D.L.、Sun,Y.和Taylor,J.E.(2016)。精确的后选择推理,并应用于套索。安。统计师。44 907-927. Zentralblatt数学:1341.62061
数字对象标识符:doi:10.1214/15-AOS1371
欧几里德项目:Euclid.aos/1460381681
·Zbl 1341.62061号 ·doi:10.1214/15-AOS1371
[21] Liu,R.Y.和Singh,K.(1995年)。对一般非身份识别模型使用身份识别引导推理。J.统计。计划。推论43 67-75。Zentralblatt数学:0811.62052
·Zbl 0811.62052号
[22] Olshen,R.A.(1973)。(F)测试的条件级别。J.Amer。统计师。协会68 692-698。Zentralblatt数学:0271.62068
·Zbl 0271.62068号
[23] Rencher,A.C.和Pun,F.C.(1980年)。最佳子集回归中的通货膨胀。技术计量22 49-53。Zentralblatt数学:0438.62058
数字对象标识符:doi:10.2307/1268382
·Zbl 0438.62058号 ·doi:10.2307/1268382
[24] Rinaldo,A.、Wasserman,L.、G'Sell,M.和Lei,J.(2019年)。高维无假设推理的自举和样本分割。安。统计师。出现。可从arXiv:1611.05401获取。arXiv公司:1611.05401
[25] Simmons,J.P.、Nelson,L.D.和Simonsohn,U.(2011年)。错误积极心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。精神病。科学。22 1359-1366.
[26] Tian,X.、Bi,N.和Taylor,J.(2016)。MAGIC:一种通用、强大且易于处理的选择性推理方法。预印本。可在arXiv:1607.02630购买。arXiv:1607.02630
[27] Tibshirani,R.J.、Taylor,J.、Lockhart,R.和Tibshirani,R.(2016)。序列回归程序的精确选择后推断。J.Amer。统计师。协会111 600-620。
[28] Tibshirani,R.J.、Rinaldo,A.、Tibshirani,R.和Wasserman,L.(2018)。一致渐近推断和模型选择后的引导。安。统计师。46 1255-1287. Zentralblatt数学:1392.62210
数字对象标识符:doi:10.1214/17-AOS1584
欧几里德项目:Euclid.aos/1525313082
·Zbl 1392.62210号 ·doi:10.1214/17-AOS1584
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。