×

ROC曲线估计下交叉验证区域的计算有效置信区间。 (英语) Zbl 1327.62298号

摘要:在二进制分类问题中,ROC曲线下的面积(AUC)通常用于评估预测模型的性能。通常,它与交叉验证相结合,以评估结果将如何推广到独立的数据集。为了评估交叉验证AUC估计的质量,我们获得了其方差的估计。对于海量数据集,生成单个性能估计的过程在计算上可能很昂贵。此外,当使用复杂预测方法时,即使在相对较小的数据集上交叉验证预测模型的过程仍然需要大量的计算时间。因此,在许多实际环境中,引导是一种难以计算的方差估计方法。作为bootstrap的替代方法,我们演示了一种计算效率高的基于影响曲线的方法,以获得交叉验证AUC的方差估计。

MSC公司:

62G15年 非参数容差和置信区域
62G05型 非参数估计
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ling,C.、Huang,J.和Zhang,H.(2003)。AUC:一种统计上一致且比准确性更具辨别力的度量。,2003年国际JCAI会议记录。
[2] Bradley,A.P.(1997)。机器学习算法评估中ROC曲线下面积的使用。,模式识别301145-1159。
[3] Geisser,S.(1975)。预测样本重用方法及其应用。,阿默尔。统计师。协会70,320-328·Zbl 0321.62077号 ·doi:10.2307/2285815
[4] Kleiner,A.、Talwalkar,A.,Sarkar,P.和Jordan,M.(2013)。大规模数据的可扩展引导。,英国皇家统计学会杂志,B辑。
[5] Sing,T.、Sander,O.、Beerenwinkel,N.和Lengauer,T.(2005)。ROCR:R.中分类器性能可视化,生物信息学21,20,3940-3941。
[6] Venables,W.N.和Ripley,B.D.(2002)。,《现代应用统计学与S》,第四版,施普林格出版社,纽约·Zbl 1006.62003号 ·doi:10.1007/b97626
[7] Allen,D.M.(1974)。变量选择和数据增强之间的关系以及预测方法。,技术计量16,125-127·Zbl 0286.62044号 ·doi:10.2307/1267500
[8] Bezanson,J.、Karpinski,S.、Shah,V.B.和Edelman,A.(2012)。朱莉娅:一种用于技术计算的快速动态语言。,CoRR绝对值/1209.5145。http://arxiv.org/abs/1209.5145。 ·Zbl 1356.68030号
[9] Bickel,P.J.、Götze,F.和van Zwet,W.R.(1997)。重新采样少于\(n\)个观察值:收益、损失和损失补救。,统计师。《中国日报》7,1,1-31。经验贝叶斯,序列分析和统计与概率相关主题(新泽西州新不伦瑞克,1995)·Zbl 0927.62043号
[10] Bickel,P.J.、Klaassen,C.A.J.、Ritov,Y.和Wellner,J.A.(1993)。,半参数模型的有效自适应估计。约翰·霍普金斯数学科学系列。约翰·霍普金斯大学出版社,马里兰州巴尔的摩·Zbl 0786.62001号
[11] Efron,B.(1979年)。Bootstrap方法:再看一下折刀。,安。统计师。7 , 1, 1-26. ·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[12] Efron,B.和Tibshirani,R.J.(1993)。,引导程序简介。统计学和应用概率专著,第57卷。查普曼和霍尔,纽约·Zbl 0835.62038号
[13] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。,统计软件杂志33,1,1-22。http://www.jstatsoft.org/v33/i01/。
[14] Gill,R.D.(1989)。非参数和半参数极大似然估计和von Mises方法。I.扫描。J.统计。16 , 2, 97-128. 根据J.a.Wellner和J.Prstgaard的讨论以及作者的回复·Zbl 0688.62026号
[15] Kornblith,S.(2014)。,GLMNet.jl:使用GLMNet拟合Lasso/ElasticNet GLM模型的Julia包装器。提交版本0526df8455,https://github.com/simonster/GLMNet.jl。
[16] LeDell,E.、Petersen,M.和van der Laan,M.(2013)。,cvAUC:ROC曲线置信区间下的交叉验证区域。R包版本1.0-0,http://CRAN.R-project.org/package=cvAUC。
[17] Lin,D.(2014)。,支持机器学习算法开发的一组函数。v0.4.2,https://github.com/JuliaStats/MLBase.jl。
[18] Lin,D.和White,J.M.(2014)。,概率分布和相关函数的Julia包。v0.5.4中,https://github.com/JuliaStats/Distributions.jl。
[19] Politis,D.N.、Romano,J.P.和Wolf,M.(1999)。,二次采样。统计学中的斯普林格系列。纽约施普林格-弗拉格。http://dx.doi.org/ 10.1007/978-1-4612-1554-7. ·Zbl 0931.62035号
[20] Shao,J.(1993)。通过交叉验证进行线性模型选择。,J.Amer。统计师。协会88、422、486-494·Zbl 0773.62051号 ·doi:10.2307/2290328
[21] Stone,M.(1974年)。统计预测的交叉验证选择和评估。,J.罗伊。统计师。Soc.序列号。B 36111-147。G.A.Barnard、A.C.Atkinson、L.K.Chan、A.P.Dawid、F.Downton、J.Dickey、A.G.Baker、O.Barndorff-Nielsen、D.R.Cox、S.Giesser、D.Hinkley、R.R.Hocking和A.S.Young进行了讨论,并得到了作者的回复·兹比尔0308.62063
[22] van der Vaart,A.W.和Wellner,J.A.(1996)。,弱收敛和经验过程。统计学中的斯普林格系列。纽约施普林格-弗拉格,统计应用·Zbl 0862.60002号
[23] Zheng,W.和van der Laan,M.J.(2011)。自然直接影响的目标最大似然估计。技术代表288,加州大学伯克利分校生物统计学工作文件,系列。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。