文件Zbl 1452.62246-zbMATH Open

改进了非线性交叉验证预测指标的小样本估计。（英语）兹比尔1452.62246

美国统计协会。 115，第532号，1917-1932（2020）.

小结：当预测结果是科学目标时，必须确定一个衡量预测质量的指标。我们考虑用训练算法所用的相同数据来衡量预测算法的性能的问题。典型的方法包括引导或交叉验证。然而，我们证明，基于自举的方法经常失败，标准交叉验证估计器可能表现不佳。我们对基于交叉验证的估计器进行了一般性研究，强调了这种不良性能的来源，并提出了使用效率理论文献中的技术进行估计的替代框架。我们提供了一个定理，证明了估计的弱收敛性。一般定理被详细地应用于两个具体的例子，我们讨论了对其他感兴趣的参数的可能扩展。对于我们考虑的两个显式示例，我们的估计量表明，与标准方法相比，有限样本方法有了显著的改进。

MSC公司：

62G05型	非参数估计
6220国集团	非参数推理的渐近性质

关键词：

接收机工作特性曲线下面积；交叉验证；估计方程；机器学习；预测；基于目标最小损失的估计

软件：

XGBoost公司；UCI-毫升

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Aeberhard，S.、Coomans，D.和De Vel，O.（1992），“高维环境中分类器的比较”，数学系。统计学。，詹姆斯·库克大学，澳大利亚昆士兰北部，技术代表92:02。
[2]	艾罗拉，A。；Pahikkala，T。；Waegeman，W。；De Baets，B。；Salakoski，T.，“估算ROC曲线下面积的交叉验证技术的实验比较”，计算统计与数据分析，551828-1844（2011）·Zbl 1328.65018号 ·doi:10.1016/j.csda.2010.11.018
[3]	宾夕法尼亚州奥斯汀。；van Klaveren，D。；韦古韦，Y。；Nieboer，D。；Lee，D.S。；Steyerberg，E.W.，“预测模型的验证：检查基线风险的时间和地理稳定性以及估计的协变量效应”，诊断和预后研究，1，12（2017）·文件编号：10.1186/s41512-017-0012-3
[4]	Ayres-de Campos，D。；伯纳德，J。；加里多，A。；Marques-de Sa，J。；Pereira-Leite，L.，“SisPorto 2.0：心电描记图自动分析程序”，《妇产医学杂志》，9，311-318（2000）·doi:10.1002/1520-6661（200009/10）9:5<311:：AID-MFM12>3.3.CO；2-0
[5]	Benkeser，D。；Ju，C。；伦德尔，S。；van der Laan，M.，“基于在线交叉验证的集成学习”，《医学统计学》，37249-260（2017）·doi:10.1002/sim.7320
[6]	博克·R。；Chilingarian，A。；高格，M。；Hakl，F。；亨斯特贝克，T。；Jiřina，M。；克拉什卡，J。；科特奇，E。；萨维克ỳ, 体育。；塔楼，S。；Vaiciulis，A.，“多维事件分类方法：使用切伦科夫伽马射线望远镜图像的案例研究”，物理研究中的核仪器和方法A部分：加速器、光谱仪、探测器和相关设备，516，511-528（2004）·doi:10.1016/j.nima.2003.08.157
[7]	Breiman，L.，“随机森林”，机器学习，45，5-32（2001）·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[8]	陈，T。；Guestrin，C.，“Xgboost:可扩展的树木增强系统”，785-794（2016），ACM
[9]	Dheeru，D。；Karra Taniskidou，E.，UCI机器学习库（2017）
[10]	Fehrman，E。；穆罕默德，A.K。；Mirkes，E.M。；埃根，V。；Gorban，A.N。；Palumbo，F。；Montanari，A。；Vichi，M.，数据科学，“人格的五因素模型和药物消费风险评估”，231-242（2017），Cham:Springer，Cham
[11]	弗里德曼，J。；哈斯蒂，T。；Tibshirani，R.，《统计学习的要素》，1（2001），纽约：斯普林格出版社，纽约·Zbl 0973.62007号
[12]	格吕默，C。；Vistisen，D。；Borch-Johnsen，K。；Colagiuri，S.，“2型糖尿病风险评分可应用于部分人群，但不适用于所有人群”，《糖尿病护理》，29，410-414（2006）·doi:10.2337/diacare.29.02.06.dc05-0945
[13]	哈雷尔，F.E。；Lee，K.L。；Mark，D.B.，“多变量预测模型：开发模型、评估假设和充分性以及测量和减少误差方面的问题”，《医学统计学》，第15期，第361-387页（1996年）·doi:10.1002/（SICI）1097-0258（19960229）15:4<361:：AID-SIM168>3.0.CO；2-4
[14]	Heagerty，P.J。；Lumley，T。；Pepe，M.S.，“审查生存数据和诊断标记的时间依赖RoOC曲线”，生物计量学，56337-344（2000）·Zbl 1060.62622号 ·文件编号：10.1111/j.0006-341X.2000.00337.x
[15]	哈伯德，A.E。；Kherad-Pajouh，S。；van der Laan，M.J.，“数据自适应目标参数的统计推断”，《国际生物统计学杂志》，12，3-19（2016）·doi:10.1515/ijb-2015-0013
[16]	伊布拉基莫夫，I。；Has’minskii，R.，《统计估计-渐近理论》（1981），纽约：Springer-Verlag科学与商业媒体，纽约·Zbl 0467.62026号
[17]	Kandasamy，K。；克里希纳穆尔西，A。；波佐斯，B。；Wasserman，L.，熵、差和互信息的非参数Von Mises估计，神经信息处理系统进展，397-405（2015）
[18]	Kohavi，R.，“扩大Naive-Bayes分类器的准确性：决策树混合”，96，202-207（1996），pp
[19]	LeDell，E。；彼得森，M。；van der Laan，M.J.，“ROC曲线估计下交叉验证区域的计算有效置信区间”，《电子统计杂志》，9，1583（2015）·Zbl 1327.62298号 ·doi:10.1214/15-EJS1035
[20]	吕特克，A.R。；van der Laan，M.J.，“最佳动态治疗规则的超学习”，《国际生物统计学杂志》，第12期，第305-332页（2016年）·doi:10.1515/ijb-2015-0052
[21]	月亮，K.G。；Kengne，A.P。；格罗比，D.E。；罗伊斯顿，P。；韦古韦，Y。；奥特曼·D·G。；Woodward，M.，“风险预测模型：二、外部验证、模型更新和影响评估”，Heart，98，691-698（2012）·doi:10.1136/小时jnl-2011-301247
[22]	莫罗，S。；科尔特斯，P。；Rita，P.，“预测银行电话营销成功的数据驱动方法”，《决策支持系统》，第62、22-31页（2014年）·doi:10.1016/j.dss.2014.03.001
[23]	Pfanzagl，J.，《对一般渐近统计理论的贡献》（1982），纽约：Springer-Verlag出版社，纽约·Zbl 0512.62001号
[24]	史密斯，G.C。；希曼，S.R。；伍德，A.M。；罗伊斯顿，P。；怀特，I.R.，“小数据集中乐观预测的修正”，《美国流行病学杂志》，180318-324（2014）·doi:10.1093/aje/kwu140
[25]	Steyerberg，E.W。；哈雷尔，F.E。；Borsboom，G.J。；埃伊克曼斯，M。；韦古韦，Y。；Habbema，J.D.F.，“预测模型的内部验证：Logistic回归分析某些程序的效率”，《临床流行病学杂志》，54，774-781（2001）·doi:10.1016/S0895-4356（01）00341-9
[26]	斯特耶伯格，E.W。；Vickers，A.J。；库克，N.R。；Gerds，T。；戈恩，M。；Obuchowski，N。；Pencina，M.J。；Kattan，M.W.，“评估预测模型的性能：一些传统和新措施的框架”，《流行病学》，21，128（2010）·doi:10.1097/EDE.0b013e3181c30fb2
[27]	van der Laan，M.J.，“基于高度自适应Lasso的通用高效目标最小损失估计”，《国际生物统计学杂志》，13（2017）·doi:10.1515/ijb-2015-0097
[28]	范德莱恩，M.J。；Robins，J.M.，《审查纵向数据和因果关系的统一方法》（2003），纽约：Springer科学与商业媒体，纽约·Zbl 1013.62034号
[29]	范德莱恩，M.J。；Rubin，D.，“目标最大似然学习”，《国际生物统计学杂志》，第2期，第1-40页（2006年）·doi:10.2202/1557-4679.1043
[30]	van der Vaart，A.W.，渐进统计学（2000），剑桥：剑桥大学出版社，剑桥·Zbl 0943.6202号
[31]	范德法特，A.W。；Wellner，J.A.，《弱收敛和经验过程》（1996），纽约：Springer，纽约·Zbl 0862.60002号
[32]	是的，我。；Lien，C.，“数据挖掘技术对信用卡客户违约概率预测准确性的比较”，《应用专家系统》，362473-2480（2009）·doi:10.1016/j.eswa.2007.12.020
[33]	郑伟。；Balzer，L。；范德莱恩，M.J。；彼得森，M。；Collaboration，S.，“使用集成学习的约束二进制分类：在成本效益目标PrEP策略中的应用”，《医学统计》，37，261-279（2018）·doi:10.1002/sim.7296
[34]	郑伟。；van der Laan，M.J.，目标学习，“基于交叉验证的目标最小损失评估”，459-474（2011），纽约：Springer，纽约
[35]	邹，H。；Hastie，T.，“通过弹性网的正则化和变量选择”，《皇家统计学会杂志》，B辑，67，301-320（2005）·Zbl 1069.62054号 ·文件编号：10.1111/j.1467-9868.2005.005.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

改进了非线性交叉验证预测指标的小样本估计。（英语）兹比尔1452.62246

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

改进了非线性交叉验证预测指标的小样本估计。 （英语） 兹比尔1452.62246

MSC公司：

关键词：

软件：

参考文献：

改进了非线性交叉验证预测指标的小样本估计。（英语）兹比尔1452.62246