×

使用折刀+进行预测推断。 (英语) Zbl 1461.62050

小结:本文介绍了jackknife+,这是一种构建预测置信区间的新方法。尽管折刀输出以测试点的预测响应为中心的间隔,间隔的宽度由遗漏残差的分位数决定,但折刀+也使用测试点的遗漏预测来解释拟合回归函数的可变性。假设可交换的训练样本,我们证明,对于任何对称处理训练点的算法,无论数据点的分布如何,这种关键的修改都允许严格的覆盖保证。对于最初的折刀,这样的保证是不可能的,我们演示了覆盖率实际上可能会消失的示例。我们的理论和实证分析表明,只要拟合算法遵循某种形式的稳定性,折刀和折刀+区间就可以实现几乎精确的覆盖,并且具有相似的长度。此外,我们将jackknife+扩展到\(K\)-折叠交叉验证,并类似地建立严格的覆盖属性。我们的方法与提出的交叉共形预测有关V.沃夫克[Ann.Math.Artif.Intell.74,No.1-2,9-28(2015;Zbl 1331.68195号)]我们讨论联系。

MSC公司:

62G09号 非参数统计重采样方法
62G15年 非参数容差和置信区域
62G08号 非参数回归和分位数回归
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Barber,R.F.、Candès,E.J.、Ramdas,A.和Tibshirani,R.J.(2021年)。补充“折刀+预测推理”https://doi.org/10.1214/20-AOS1965SUPP网站
[2] Bousquet,O.和Elisseeff,A.(2002年)。稳定性和泛化。J.马赫。学习。第2号决议499-526·Zbl 1007.68083号
[3] Burnaev,E.和Vovk,V.(2014)。保角岭回归的效率。学习理论会议605-622。
[4] Butler,R.和Rothman,E.D.(1980年)。基于样本重用的预测间隔。J.Amer。统计师。协会75 881-889·Zbl 0472.62045号 ·doi:10.1080/01621459.1980.10477567
[5] Buza,K.(2014)。博客的反馈预测。在数据分析、机器学习和知识发现145-152。柏林施普林格。
[6] Chen,W.,Chun,K.-J.和Barber,R.F.(2018)。用于有效无分布推理的离散保角预测。统计数据7 e173。
[7] Devroye,L.P.和Wagner,T.J.(1979年)。删除和保持误差估计的无分布不等式。IEEE传输。信息理论25 202-207·Zbl 0408.62055号 ·doi:10.1109/TIT.1979.1056032
[8] Efron,B.(1979年)。引导方法:再看一下折刀。安。统计师。7 1-26. ·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[9] Efron,B.和Gong,G.(1983年)。从容地看一下引导、折刀和交叉验证。阿默尔。统计师。37 36至48。
[10] Geisser,S.(1975)。预测样本重用方法及其应用。J.Amer。统计师。协会70 320-328·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[11] Hastie,T.、Montanari,A.、Rosset,S.和Tibshirani,R.J.(2019年)。高维无脊最小二乘插值的惊喜。预印本。arXiv:1903.08560提供。
[12] Landau,H.G.(1953年)。关于支配关系和动物社会结构。三、 分数结构的条件。牛市。数学。生物物理学。15 143-148.
[13] Lei,J.(2019)。利用分段线性同伦实现套索的快速精确共形。生物特征106 749-764·Zbl 1437.62278号 ·doi:10.1093/biomet/asz046
[14] Lei,J.、G'Sell,M.、Rinaldo,A.、Tibshirani,R.J.和Wasserman,L.(2018)。回归的无分布预测推断。J.Amer。统计师。协会113 1094-1111·Zbl 1402.62155号 ·doi:10.1080/01621459.2017.1307116
[15] Miller,R.G.(1974)。杰克刀——一篇评论。生物特征61 1-15·Zbl 0275.62035号
[16] Papadopoulos,H.(2008)。归纳共形预测:神经网络的理论和应用。维也纳InTech人工智能工具。
[17] Pedregosa,F.、Varoqueux,G.、Gramfort,A.等人(2011年)。Scikit-learn:Python中的机器学习。J.马赫。学习。第12号决议2825-2830·Zbl 1280.68189号
[18] Quenouille,M.H.(1949年)。时间序列相关性的近似检验。J.罗伊。统计师。Soc.序列号。B 11 68-84·Zbl 0035.09201号 ·doi:10.1111/j.2517-6161.194.tb00023.x
[19] Quenouille,M.H.(1956年)。关于估计偏差的注释。Biometrika 43 353-360·Zbl 0074.14003号 ·doi:10.1093/biomet/43.3-4.353
[20] Redmond,M.和Baveja,A.(2002年)。一种数据驱动的软件工具,用于实现警察部门之间的合作信息共享。《欧洲期刊》。第141 660-678号决议·Zbl 1081.68745号 ·doi:10.1016/S0377-2217(01)00264-8
[21] Steinberger,L.和Leeb,H.(2016)。多变量线性回归模型中的删去预测区间。预印。arXiv:1602.05801提供。
[22] Steinberger,L.和Leeb,H.(2018年)。高维稳定算法的条件预测推理。预印。arXiv:1809.01412提供·Zbl 1390.60067号 ·doi:10.3150/16-BEJ888
[23] Stine,R.A.(1985)。回归的引导预测区间。J.Amer。统计师。协会80 1026-1031·兹伯利0582.62038 ·doi:10.1080/01621459.1985.10478220
[24] Stone,M.(1974年)。统计预测的交叉验证选择和评估。J.罗伊。统计师。Soc.序列号。乙36 111-147·Zbl 0308.62063号 ·doi:10.1111/j.2517-6161.1974.tb00994.x
[25] Trena,M.、Ezzati-Rice、Rohde,F.和Greenblatt,J.(2008)。1998-2007年医疗支出小组调查家庭部分的样本设计。MEPS第22号方法报告,医疗研究和质量机构。
[26] Tukey,J.(1958)。在不太大的样本中的偏差和信心。安。数学。统计数据29 614。
[27] Vovk,V.(2012)。归纳共形预测因子的条件有效性。在亚洲机器学习会议475-490。
[28] Vovk,V.(2015)。交叉一致性预测因子。安。数学。Artif公司。智力。74 9-28. ·兹比尔1331.68195 ·doi:10.1007/s10472-013-9368-4
[29] Vovk,V.、Gammerman,A.和Shafer,G.(2005)。随机世界中的算法学习。纽约州施普林格·Zbl 1105.68052号
[30] Vovk,V.、Nourettinov,I.、Manokhin,V.和Gammerman,A.(2018)。交叉正态预测分布。保角和概率预测及应用37-51。
[31] Vovk,V.和Wang,R.(2012)。通过平均值组合p值。预印。可从arXiv:1212.4966获取。
[32] 徐,H。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。