×

改进了非线性交叉验证预测指标的小样本估计。 (英语) 兹比尔1452.62246

小结:当预测结果是科学目标时,必须确定一个衡量预测质量的指标。我们考虑用训练算法所用的相同数据来衡量预测算法的性能的问题。典型的方法包括引导或交叉验证。然而,我们证明,基于自举的方法经常失败,标准交叉验证估计器可能表现不佳。我们对基于交叉验证的估计器进行了一般性研究,强调了这种不良性能的来源,并提出了使用效率理论文献中的技术进行估计的替代框架。我们提供了一个定理,证明了估计的弱收敛性。一般定理被详细地应用于两个具体的例子,我们讨论了对其他感兴趣的参数的可能扩展。对于我们考虑的两个显式示例,我们的估计量表明,与标准方法相比,有限样本方法有了显著的改进。

MSC公司:

62G05型 非参数估计
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Aeberhard,S.、Coomans,D.和De Vel,O.(1992),“高维环境中分类器的比较”,数学系。统计学。,詹姆斯·库克大学,澳大利亚昆士兰北部,技术代表92:02。
[2] 艾罗拉,A。;Pahikkala,T。;Waegeman,W。;De Baets,B。;Salakoski,T.,“估算ROC曲线下面积的交叉验证技术的实验比较”,计算统计与数据分析,551828-1844(2011)·Zbl 1328.65018号 ·doi:10.1016/j.csda.2010.11.018
[3] 宾夕法尼亚州奥斯汀。;van Klaveren,D。;韦古韦,Y。;Nieboer,D。;Lee,D.S。;Steyerberg,E.W.,“预测模型的验证:检查基线风险的时间和地理稳定性以及估计的协变量效应”,诊断和预后研究,1,12(2017)·文件编号:10.1186/s41512-017-0012-3
[4] Ayres-de Campos,D。;伯纳德,J。;加里多,A。;Marques-de Sa,J。;Pereira-Leite,L.,“SisPorto 2.0:心电描记图自动分析程序”,《妇产医学杂志》,9,311-318(2000)·doi:10.1002/1520-6661(200009/10)9:5<311::AID-MFM12>3.3.CO;2-0
[5] Benkeser,D。;Ju,C。;伦德尔,S。;van der Laan,M.,“基于在线交叉验证的集成学习”,《医学统计学》,37249-260(2017)·doi:10.1002/sim.7320
[6] 博克·R。;Chilingarian,A。;高格,M。;Hakl,F。;亨斯特贝克,T。;Jiřina,M。;克拉什卡,J。;科特奇,E。;萨维克ỳ, 体育。;塔楼,S。;Vaiciulis,A.,“多维事件分类方法:使用切伦科夫伽马射线望远镜图像的案例研究”,物理研究中的核仪器和方法A部分:加速器、光谱仪、探测器和相关设备,516,511-528(2004)·doi:10.1016/j.nima.2003.08.157
[7] Breiman,L.,“随机森林”,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[8] 陈,T。;Guestrin,C.,“Xgboost:可扩展的树木增强系统”,785-794(2016),ACM
[9] Dheeru,D。;Karra Taniskidou,E.,UCI机器学习库(2017)
[10] Fehrman,E。;穆罕默德,A.K。;Mirkes,E.M。;埃根,V。;Gorban,A.N。;Palumbo,F。;Montanari,A。;Vichi,M.,数据科学,“人格的五因素模型和药物消费风险评估”,231-242(2017),Cham:Springer,Cham
[11] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》,1(2001),纽约:斯普林格出版社,纽约·Zbl 0973.62007号
[12] 格吕默,C。;Vistisen,D。;Borch-Johnsen,K。;Colagiuri,S.,“2型糖尿病风险评分可应用于部分人群,但不适用于所有人群”,《糖尿病护理》,29,410-414(2006)·doi:10.2337/diacare.29.02.06.dc05-0945
[13] 哈雷尔,F.E。;Lee,K.L。;Mark,D.B.,“多变量预测模型:开发模型、评估假设和充分性以及测量和减少误差方面的问题”,《医学统计学》,第15期,第361-387页(1996年)·doi:10.1002/(SICI)1097-0258(19960229)15:4<361::AID-SIM168>3.0.CO;2-4
[14] Heagerty,P.J。;Lumley,T。;Pepe,M.S.,“审查生存数据和诊断标记的时间依赖RoOC曲线”,生物计量学,56337-344(2000)·Zbl 1060.62622号 ·文件编号:10.1111/j.0006-341X.2000.00337.x
[15] 哈伯德,A.E。;Kherad-Pajouh,S。;van der Laan,M.J.,“数据自适应目标参数的统计推断”,《国际生物统计学杂志》,12,3-19(2016)·doi:10.1515/ijb-2015-0013
[16] 伊布拉基莫夫,I。;Has’minskii,R.,《统计估计-渐近理论》(1981),纽约:Springer-Verlag科学与商业媒体,纽约·Zbl 0467.62026号
[17] Kandasamy,K。;克里希纳穆尔西,A。;波佐斯,B。;Wasserman,L.,熵、差和互信息的非参数Von Mises估计,神经信息处理系统进展,397-405(2015)
[18] Kohavi,R.,“扩大Naive-Bayes分类器的准确性:决策树混合”,96,202-207(1996),pp
[19] LeDell,E。;彼得森,M。;van der Laan,M.J.,“ROC曲线估计下交叉验证区域的计算有效置信区间”,《电子统计杂志》,9,1583(2015)·Zbl 1327.62298号 ·doi:10.1214/15-EJS1035
[20] 吕特克,A.R。;van der Laan,M.J.,“最佳动态治疗规则的超学习”,《国际生物统计学杂志》,第12期,第305-332页(2016年)·doi:10.1515/ijb-2015-0052
[21] 月亮,K.G。;Kengne,A.P。;格罗比,D.E。;罗伊斯顿,P。;韦古韦,Y。;奥特曼·D·G。;Woodward,M.,“风险预测模型:二、外部验证、模型更新和影响评估”,Heart,98,691-698(2012)·doi:10.1136/小时jnl-2011-301247
[22] 莫罗,S。;科尔特斯,P。;Rita,P.,“预测银行电话营销成功的数据驱动方法”,《决策支持系统》,第62、22-31页(2014年)·doi:10.1016/j.dss.2014.03.001
[23] Pfanzagl,J.,《对一般渐近统计理论的贡献》(1982),纽约:Springer-Verlag出版社,纽约·Zbl 0512.62001号
[24] 史密斯,G.C。;希曼,S.R。;伍德,A.M。;罗伊斯顿,P。;怀特,I.R.,“小数据集中乐观预测的修正”,《美国流行病学杂志》,180318-324(2014)·doi:10.1093/aje/kwu140
[25] Steyerberg,E.W。;哈雷尔,F.E。;Borsboom,G.J。;埃伊克曼斯,M。;韦古韦,Y。;Habbema,J.D.F.,“预测模型的内部验证:Logistic回归分析某些程序的效率”,《临床流行病学杂志》,54,774-781(2001)·doi:10.1016/S0895-4356(01)00341-9
[26] 斯特耶伯格,E.W。;Vickers,A.J。;库克,N.R。;Gerds,T。;戈恩,M。;Obuchowski,N。;Pencina,M.J。;Kattan,M.W.,“评估预测模型的性能:一些传统和新措施的框架”,《流行病学》,21,128(2010)·doi:10.1097/EDE.0b013e3181c30fb2
[27] van der Laan,M.J.,“基于高度自适应Lasso的通用高效目标最小损失估计”,《国际生物统计学杂志》,13(2017)·doi:10.1515/ijb-2015-0097
[28] 范德莱恩,M.J。;Robins,J.M.,《审查纵向数据和因果关系的统一方法》(2003),纽约:Springer科学与商业媒体,纽约·Zbl 1013.62034号
[29] 范德莱恩,M.J。;Rubin,D.,“目标最大似然学习”,《国际生物统计学杂志》,第2期,第1-40页(2006年)·doi:10.2202/1557-4679.1043
[30] van der Vaart,A.W.,渐进统计学(2000),剑桥:剑桥大学出版社,剑桥·Zbl 0943.6202号
[31] 范德法特,A.W。;Wellner,J.A.,《弱收敛和经验过程》(1996),纽约:Springer,纽约·Zbl 0862.60002号
[32] 是的,我。;Lien,C.,“数据挖掘技术对信用卡客户违约概率预测准确性的比较”,《应用专家系统》,362473-2480(2009)·doi:10.1016/j.eswa.2007.12.020
[33] 郑伟。;Balzer,L。;范德莱恩,M.J。;彼得森,M。;Collaboration,S.,“使用集成学习的约束二进制分类:在成本效益目标PrEP策略中的应用”,《医学统计》,37,261-279(2018)·doi:10.1002/sim.7296
[34] 郑伟。;van der Laan,M.J.,目标学习,“基于交叉验证的目标最小损失评估”,459-474(2011),纽约:Springer,纽约
[35] 邹,H。;Hastie,T.,“通过弹性网的正则化和变量选择”,《皇家统计学会杂志》,B辑,67,301-320(2005)·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。