×

充满信心的交叉验证。 (英语) Zbl 1453.62580号

摘要:交叉验证是统计学和机器学习中最流行的模型和调整参数选择方法之一。尽管传统的交叉验证方法具有广泛的适用性,但由于忽视了测试样本中的不确定性,往往会过度拟合。我们开发了一种基于交叉验证的新型统计原理推理工具,该工具考虑了测试样本中的不确定性。该方法输出一组具有高度竞争性的候选模型,其中包含具有保证概率的最优模型。因此,我们的方法可以在经典线性回归设置中实现一致的变量选择,而现有的交叉验证方法需要非常规的分割比。当用于调整参数选择时,与现有的交叉验证变体相比,该方法可以在预测准确性和模型可解释性之间提供一种替代性权衡。我们在几个模拟和实际数据示例中验证了该方法的性能。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62F03型 参数假设检验
68时01分 人工智能的一般主题

软件:

共形推理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen,D.M.,“变量选择和数据增强之间的关系以及预测方法”,《技术计量学》,第16期,第125-127页(1974年)·兹标0286.62044 ·doi:10.1080/00401706.1974.10489157
[2] 比克尔,P.J。;Ritov,Y。;Tsybakov,A.B.,“Lasso和Dantzig选择器的同步分析”,《统计年鉴》,第37期,第1705-1732页(2009年)·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[3] Breiman,L.,“随机森林”,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Chatterjee,S。;Jafarov,J.,“交叉验证拉索的预测误差”,arXiv no,1502,06291(2015)
[5] Chen,K。;Lei,J.,“确定网络数据中社区数量的网络交叉验证”,《美国统计协会杂志》,113,241-251(2018)·Zbl 1398.62159号 ·doi:10.1080/01621459.2016.1246365
[6] 切尔诺朱科夫,V。;Chetverikov,D。;Kato,K.,“高维随机向量和最大值的高斯近似和乘数自举法”,《统计年鉴》,412786-2819(2013)·Zbl 1292.62030 ·doi:10.1214/13-AOS1161
[7] 切尔诺朱科夫,V。;Chetverikov,D。;Kato,K.,“检验许多矩不等式”,arXiv no,13127614(2013)
[8] 切尔诺朱科夫,V。;Chetverikov,D。;Kato,K.,《高斯随机向量极大值的比较和反集中界》,《概率论及相关领域》,162,47-70(2015)·Zbl 1319.60072号
[9] Chetverikov,D。;Liao,Z.,“关于交叉验证的Lasso”,arXiv编号,1605,02214(2016)
[10] Dalalyan,A.S。;希比里,M。;Lederer,J.,“关于拉索的预测性能”,Bernoulli,23,552-581(2017)·Zbl 1359.62295号 ·doi:10.3150/15-BEJ756
[11] Dalalyan,A.S。;Tsybakov,A.B.,97-111(2007),斯普林格
[12] de la Peña,V.H。;Lai,T.L。;Shao,Q.-M.,《自规范化过程:极限理论和统计应用》(2008),柏林,海德堡:施普林格科学与商业媒体,柏林,海德堡
[13] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,“最小角度回归”,《统计年鉴》,32407-499(2004)·Zbl 1091.62054号 ·doi:10.1214/09053604000000067
[14] 范,Y。;Tang,C.Y.,“高维惩罚似然中的调整参数选择”,英国皇家统计学会期刊,B辑,75531-552(2013)·Zbl 1411.62216号 ·doi:10.1111/rssb.12001
[15] Feng,Y。;Yu,Y.,“高维变量选择中调谐参数选择的一致交叉验证”(2013)
[16] D.法拉利。;Yang,Y.,“F-检验模型选择的置信集”,《中国统计》,第25期,第1637-1658页(2015年)·Zbl 1377.62155号 ·doi:10.5705/ss.2014.110
[17] Geisser,S.,“预测样本重用方法及其应用”,《美国统计协会杂志》,70320-328(1975)·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[18] Hansen,P.R。;伦德,A。;Nason,J.M.,“模型置信集”,《计量经济学》,79,453-497(2011)·Zbl 1210.62030
[19] 霍姆里格豪森博士。;McDonald,D.J.,“Lasso型程序交叉验证的风险一致性”(2013年)·Zbl 1372.62022号
[20] Hui,F.K。;沃顿,D.I。;Foster,S.D.,“使用ERIC选择自适应套索的调谐参数”,美国统计协会杂志,110,262-269(2015)·Zbl 1373.62370号 ·doi:10.1080/01621459.2014.951444
[21] 姜杰。;Rao,J.S。;顾,Z。;Nguyen,T.,“混合模型选择的栅栏方法”,《统计年鉴》,361669-1692(2008)·Zbl 1142.62047号 ·doi:10.1214/07-AOS517
[22] 科尔钦斯基,V。;Lounici,K.,“样本协方差算子的集中不等式和矩界”,Bernoulli,23,110-133(2017)·Zbl 1366.60057号 ·doi:10.3150/15-BEJ730
[23] Lei,J。;G'Sell,M。;里纳尔多,A。;Tibshirani,R.J。;Wasserman,L.,“回归的无分布预测推断”,《美国统计协会杂志》,1131094-1111(2018)·Zbl 1402.62155号 ·doi:10.1080/01621459.2017.1307116
[24] Li,K.-C.,“Cp,CL,交叉验证和广义交叉验证的渐近最优性:离散指数集”,《统计学年鉴》,第15期,第958-975页(1987年)·Zbl 0653.62037号 ·doi:10.1214/aos/1176350486
[25] 林,C。;Yu,B.,“交叉验证下的估计稳定性(ESCV)”,《计算与图形统计杂志》,25,464-492(2016)·doi:10.1080/10618600.2015.020159
[26] 刘,H。;罗德,K。;Wasserman,L.,高维图形模型正则化选择(星形)的稳定性方法,神经信息处理系统的进展,1432-1440(2010)
[27] 明绍森,N。;Bühlmann,P.,“稳定性选择”,《皇家统计学会期刊》,B辑,72117-473(2010)·Zbl 1411.62142号 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[28] 明绍森,N。;Yu,B.,“高维数据稀疏表示的拉索类型恢复”,《统计年鉴》,第37期,第246-270页(2009年)·Zbl 1155.62050号 ·doi:10.1214/07-AOS582
[29] A.B.欧文。;Perry,P.O.,“SVD和非负矩阵分解的双交叉验证”,《应用统计学年鉴》,3564-594(2009)·Zbl 1166.62047号 ·doi:10.1214/08-AOAS227
[30] Rogozin,B.A.,“关于独立随机变量和离散度的增加”,《概率论及其应用》,第6期,第97-99页(1961年)·Zbl 0106.34003号 ·数字对象标识代码:10.1137/1106010
[31] 邵,J.,“通过交叉验证选择线性模型”,《美国统计协会杂志》,88,486-494(1993)·Zbl 0773.62051号 ·doi:10.1080/01621459.1993.10476299
[32] Stone,M.,“统计预测的交叉验证选择和评估”,《皇家统计学会杂志》,B辑,36111-133(1974)·Zbl 0308.62063号 ·doi:10.1111/j.2517-6161.1974.tb00994.x
[33] Tibshirani,R.J。;Tibshirani,R.,“交叉验证中最小错误率的偏差修正”,《应用统计年鉴》,3822-829(2009)·兹比尔1166.62311 ·doi:10.1214/08-AOAS224
[34] Tsybakov,A.B.,《非参数估计导论》(2009),纽约:Springer,纽约·Zbl 1176.62032号
[35] van de Geer,S.A.,“高维广义线性模型和拉索”,《统计年鉴》,36614-645(2008)·Zbl 1138.62323号 ·doi:10.1214/00905360700000929
[36] 范德吉尔,S。;Lederer,J.,“Bernstein-Orlicz范数和偏差不等式”,《概率论及相关领域》,157225-250(2013)·Zbl 1284.60060号 ·doi:10.1007/s00440-012-0455-y
[37] 范德法特,A.W。;Wellner,J.A.,《弱收敛和经验过程》(1996),纽约:Springer,纽约·Zbl 0862.60002号
[38] Wang,T。;Zhu,L.,“高维稀疏线性回归中的一致调节参数选择”,《多元分析杂志》,1021141-1151(2011)·Zbl 1216.62103号 ·doi:10.1016/j.jmva.2011.03.007
[39] Wasserman,L。;Roeder,K.,“高维变量选择”,《统计年鉴》,372178(2009)·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
[40] Yang,Y.,“回归程序比较交叉验证的一致性”,《统计年鉴》,352450-2473(2007)·Zbl 1129.62039号 ·doi:10.1214/009053607000000514
[41] Ye,C。;Yang,Y。;Yang,Y.,“稀疏性导向的高维线性回归重要性学习”,《美国统计协会杂志》,1131797-1812(2018)·Zbl 1409.62138号 ·doi:10.1080/01621459.2017.1377080
[42] 袁,Z。;Yang,Y.,“组合线性回归模型:何时以及如何?”,《美国统计协会杂志》,1001202-1214(2005)·Zbl 1117.62454号 ·doi:10.1198/01621450000000088
[43] Zhang,P.,“通过多重交叉验证进行模型选择”,《统计学年鉴》,21299-313(1993)·Zbl 0770.62053号 ·doi:10.1214/aos/1176349027
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。