×

使用学习曲线估计高维数据设置中的预测性能。 (英语) Zbl 07708611号

摘要:在高维预测设置中,可靠估计测试性能仍然是一个挑战。为了应对这一挑战,提出了一种新的性能评估框架。该框架称为Learn2Evaluate,它基于学习曲线,通过拟合一条平滑的单调曲线,将测试性能描述为样本大小的函数。与常用的性能评估方法相比,Learn2Evaluate有几个优点。首先,学习曲线提供了学习者的图形概览。这一概述有助于评估添加培训样本的潜在好处,与固定子样本大小的绩效评估相比,它提供了学习者之间更完整的比较。其次,学习曲线有助于在总样本大小而非子样本大小下评估性能。第三,Learn2Evaluate允许计算理论上合理且有用的置信下限。此外,可以通过执行偏差校正来收紧该界限。模拟研究和对组学数据的应用说明了Learn2Evaluate的好处。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bamber,D.,有序优势图上方的区域和受试者操作特征图下方的区域,J.Math。心理医生。,12, 387-415 (1975) ·Zbl 0327.92017号
[2] Y.本吉奥。;Grandvalet,Y.,《k倍交叉验证方差的无偏估计》,J.Mach。学习。第5号决议,1089-1105(2004年)·Zbl 1222.68145号
[3] 贝斯特,M.G。;Sol,N.公司。;Kooi,I。;Tannous,J。;韦斯特曼,B.A。;Rustenburg,F.,肿瘤诱导血小板的Rna-seq使基于血液的泛癌、多类和分子途径癌症诊断成为可能,《癌症细胞》,28,666-676(2015)
[4] Boyle,E.A。;Li,Y.I。;Pritchard,J.K.,《复杂性状的扩展观点:从多基因到全基因》,《细胞》,1691177-1186(2017)
[5] Brier,G.W.,以概率表示的预测验证,周一。《天气评论》,78,1-3(1950)
[6] Burman,P.,《普通交叉验证、v形交叉验证和重复学习测试方法的比较研究》,《生物统计学》,76,503-514(1989)·Zbl 0677.62065号
[7] 伯德·R·H。;卢,P。;Nocedal,J。;Zhu,C.,边界约束优化的有限内存算法,SIAM J.Sci。计算。,16, 1190-1208 (1995) ·Zbl 0836.65080号
[8] 科尔特斯,C。;Jackel,L.D。;索拉,S。;Vapnik,V。;Denker,J.,学习曲线:渐进值和收敛速度6(1993),第327-334页
[9] DeLong,E.R。;DeLong,D.M。;Clarke-Pearson,D.L.,《比较两个或多个相关接收器工作特征曲线下的面积:非参数方法》,《生物计量学》,44,837-845(1988)·Zbl 0715.62207号
[10] Dobbin,K.K.,《为高维预测规则的实际错误率构建置信区间的方法》,生物统计学,10282-296(2009)·Zbl 1437.62443号
[11] Dobbin,K.K。;Simon,R.M.,《训练和测试高维分类器的最佳分割案例》,BMC Med.Genom。,2011年1月4日至8日
[12] 多诺霍,D.L。;Tanner,J.,通过线性规划求解欠定线性方程的稀疏非负解,Proc。国家。阿卡德。科学。美国,1029446-9451(2005)·Zbl 1135.90368号
[13] 埃夫隆,B。;Tibshirani,R.J.,Bootstrap简介(1994),CRC出版社
[14] Faber,N.M.,《估计预测均方根误差估计中的不确定性:应用于确定多元校准中适当测试集的大小》,Chemom。智力。实验室系统。,49, 79-89 (1999)
[15] 菲格罗亚,B.J。;曾特雷特勒(Q.Zeng Treitler)。;坎杜拉,S。;Ngo,L.,预测分类性能所需的样本量,BMC Med.Inform。Decis公司。制造商。,12, 8 (2012)
[16] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.J.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1-22 (2010)
[17] Hanley,J。;McNeil,B.J.,接收器工作特性(roc)曲线下面积的含义和使用,放射学,143,29-36(1982)
[18] Hess,K.R。;Wei,C.,微阵列数据分类中的学习曲线,Semin。Oncol.公司。,37, 65-68 (2010)
[19] Ishwaran,H。;Kogalur,U.B.,《生存、退化和分类快速统一随机森林》(RF-SRC)(2021年)
[20] 蒋伟(Jiang,W.)。;Simon,R.M.,《自举法与调整自举法在评估微阵列分类预测误差中的比较》,《统计医学》,第26期,第5320-5334页(2007年)
[21] 蒋伟(Jiang,W.)。;瓦尔马,S。;Simon,R.M.,《使用重采样计算微阵列分类中预测误差的置信区间》,《统计应用》。遗传学。分子生物学。,7 (2008) ·Zbl 1276.62076号
[22] Kim,J.H.,估计分类错误率:重复交叉验证、重复保持和引导,计算。统计数据分析。,53, 3735-3745 (2009) ·Zbl 1453.62126号
[23] LeDell,E。;彼得森,M.L。;van der Laan,M.J.,《包装cvAUC》(2014)
[24] LeDell,E。;彼得森,M.L。;van der Laan,M.J.,《roc曲线估计下交叉验证区域的计算有效置信区间》,Electron。J.Stat.,9,1,1583-1607(2015)·Zbl 1327.62298号
[25] 米歇尔,S。;科斯切尔尼,S。;Hill,C.,用微阵列预测癌症结果:多重随机验证策略,《柳叶刀》,365488-492(2005)
[26] 穆克吉,S。;Tamayo,P。;罗杰斯,S。;里夫金,R。;恩格尔。;Campbell,C.,《估算dna微阵列数据分类的数据集大小要求》,J.Compute。生物学,10119-142(2003)
[27] Ng、P。;Maechler,M.,定性约束分位数平滑样条的快速高效实现,统计模型。,7, 315-328 (2007) ·Zbl 1486.62118号
[28] Ng、P。;Maechler,M.,COBS-约束B样条(基于稀疏矩阵)(2020)
[29] Novianti,P.W。;斯诺克,公元前。;Wilting,S.M。;Van De Wiel,M.A.,《通过使用辅助联合数据从rnaseq数据中获得更好的诊断特征》,生物信息学,33,1572-1574(2017)
[30] 沼田,S。;Ye,T。;海德,T。;吉塔特,X。;陶,R。;Wininger,M.,《人类前额叶皮层发育和衰老中的Dna甲基化特征》,美国遗传学杂志。,90, 260-272 (2012)
[31] Richards,F.J.,《经验性使用的灵活增长函数》,J.Exp.Bot.,10290-301(1959)
[32] 罗宾,X。;北图尔克。;A.海纳德。;Tiberti,N。;Lisacek,F。;桑切斯,J.C。;Müller,M.,proc:一个用于r和s+分析和比较roc曲线的开源软件包,BMC Bioninform。,12, 77 (2011)
[33] Schäfer,J。;Opgen-Rhein,R。;祖伯,V。;阿赫德斯马基,M。;A.P.D.席尔瓦。;Strimmer,K.,Package corpcor(2017年)
[34] 谢弗,J。;Strimmer,K.,《大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响》,Stat.Appl。遗传学。分子生物学。,4 (2005)
[35] Sklar,M.,《重新划分维度和边界的函数》,Publ。巴黎国立大学,8229-231(1959)·Zbl 0100.14202号
[36] Stone,M.,统计预测的交叉验证选择和评估,J.R.Stat.Soc.,Ser。B、 卫理公会。,36, 111-133 (1974) ·Zbl 0308.62063号
[37] van de Wiel,医学硕士。;伯克霍夫,J。;van Wieringen,W.N.,《测试两个预测因子之间的预测误差差异》,生物统计学,10550-560(2009)·Zbl 1437.62637号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。