×

估算ROC曲线下面积的交叉验证技术的实验比较。 (英语) 兹比尔1328.65018

摘要:在处理小数据集时,很难可靠估计推断预测模型的分类性能。在这种情况下,交叉验证是评估性能的典型策略。然而,当ROC曲线下的面积(AUC)用作性能度量时,许多交叉验证的标准方法都存在广泛的偏差或方差。通过广泛的模拟研究探讨了这一问题。针对条件AUC估计提出了Leave-pair-out交叉验证,因为它几乎是无偏的,并且其偏差方差与最佳替代方法的偏差方差一样低。当使用基于正则化最小二乘的学习器时,存在有效的算法来计算离开-淘汰交叉验证估计。

MSC公司:

65C60个 统计中的计算问题(MSC2010)
62H30型 分类和区分;聚类分析(统计方面)

软件:

bmrm公司
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿加瓦尔,S。;Graepel,T。;Herbrich,R。;Har-Peled,S。;Roth,D.,ROC曲线下面积的概化界限,机器学习研究杂志,6393-425(2005)·Zbl 1222.68129号
[2] 艾罗拉,A。;Pahikkala,T。;Waegeman,W。;De Baets,B。;Salakoski,T.,《小样本研究中AUC估计值的比较》,(Díeroski,S.;Geurts,P.;Rousu,J.,《第三届系统生物学机器学习国际研讨会论文集》,MLSB'09(2009),赫尔辛基大学印刷厂:赫尔辛基大学印刷厂(芬兰赫尔辛基),15-23
[3] 艾罗拉,A。;皮萨洛,S。;比约恩,J。;Pahikkala,T。;金特,F。;Salakoski,T.,《蛋白质相互作用提取的全通图核与跨语料库学习评估》,BMC生物信息学,9,Suppl.11,S2(2008)
[4] 安,S。;刘伟。;Venkatesh,S.,《最小二乘支持向量机和核岭回归的快速交叉验证算法》,模式识别,40,8,2154-2162(2007)·Zbl 1115.68125号
[5] 贝克,S。;Kramer,B.,《识别对微阵列良好分类贡献最大的基因》,BMC生物信息学,7407(2006)
[6] Bradley,A.P.,《ROC曲线下面积在机器学习算法评估中的使用》,模式识别,30,7,1145-1159(1997)
[7] 布拉加·内托,美国。;Dougherty,E.R.,交叉验证对小样本微阵列分类有效吗?,生物信息学,20,3,374-380(2004)
[8] 科尔特斯,C。;Mohri,M.,AUC优化与错误率最小化,(Thrun,S.;Saul,L.;Schölkopf,B.,《神经信息处理系统的进展》,第16卷(2004),麻省理工学院出版社:麻省理学学院出版社,美国马萨诸塞州剑桥)
[9] 科尔特斯,C。;莫赫里,M。;Rastogi,A.,《搜索引擎的替代排名问题》,(Demetrescu,C.,《第六届实验算法研讨会论文集》,第六届算法实验研讨会论文集,《计算机科学讲稿》,第4525卷(2007),施普林格:施普林格柏林,海德堡,德国),1-21·Zbl 1203.68143号
[10] Dietterich,T.G.,用于比较监督分类学习算法的近似统计检验,神经计算,101895-1923(1998)
[11] 福塞特,T。;Flach,P.A.,对Webb和Ting“在不同类别分布下应用ROC分析预测分类性能”的回应,机器学习,58,1,33-38(2005)·Zbl 1469.68082号
[12] 福尔曼,G。;Scholz,M.,交叉验证研究中的苹果对苹果:分类器性能测量中的陷阱,SIGKDD Explorations,12,1,49-57(2010)
[13] Fung,G。;Mangasarian,O.L.,近端支持向量机分类器,(KDD'01:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(2001),ACM:ACM纽约,纽约,美国),77-86·Zbl 1101.68758号
[14] Gevaert,O。;De Smet,F。;Timmerman,D。;莫罗,Y。;De Moor,B.,通过将临床和微阵列数据与贝叶斯网络相结合预测乳腺癌预后,生物信息学,22,14,184-190(2006)
[15] B.Hanczar。;Hua,J。;司马,C。;Weinstein,J。;比特纳,M。;Dougherty,E.R.,ROC相关估计的小样本精度,生物信息学,26,6,822-830(2010)
[16] Hanley,J.A。;McNeil,B.J.,接收器工作特性(ROC)曲线下面积的含义和使用,放射学,143,1,29-36(1982)
[17] 哈斯蒂,T。;Rosset,S。;Tibshirani,R。;Zhu,J.,支持向量机的整个正则化路径,机器学习研究杂志,5,1391-1415(2004)·Zbl 1222.68213号
[18] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,(《统计学习的要素:数据挖掘、推断和预测》,《统计学习要素:数据开采、推断和预报》,《统计学中的斯普林格系列》(2009),斯普林格出版社)·Zbl 1273.62005年
[19] Herbrich,R。;Graepel,T。;Obermayer,K.,《序数回归的支持向量学习》,(第九届人工神经网络国际会议论文集。第九届国际人工神经网络会议论文集,ICANN’99(1999),电气工程师学会:伦敦电气工程师学会),97-102
[20] 霍尔,A.E。;Kennard,R.W.,《岭回归:非正交问题的有偏估计》,技术计量学,12,55-67(1970)·Zbl 0202.17205号
[21] 黄,J。;Ling,C.X.,《使用AUC和准确性评估学习算法》,IEEE知识与数据工程汇刊,17,3,299-310(2005)
[22] Kim,J.-H.,《估计分类错误率:重复交叉验证、重复保持和引导》,计算统计与数据分析,533735-3745(2009)·Zbl 1453.62126号
[23] Kohavi,R.,《精度估计和模型选择的交叉验证和自举研究》,(Mellish,C.,《第十四届国际人工智能联合会议论文集》,第2卷(1995),Morgan Kaufmann:Morgan Koufmann San Mateo,加利福尼亚州,美国),1137-1143
[24] Krzanowski,W。;Hand,D.,《评估误差率估计器:重新考虑的省去法》,《澳大利亚统计杂志》,39,1,35-46(1997)·兹比尔0877.62063
[25] 伦茨,A。;Brailovsky,V.,《关于识别统计过程中获得的字符估计》,《Kibernetica技术》,3563-575(1969)
[26] Miwa,M。;Stre,R。;Miyao,Y。;Tsujii,J.,利用多核和解析器提取蛋白质相互作用,国际医学信息学杂志,78,e39-e46(2009)
[27] Pahikkala,T.、Airola,A.、Boberg,J.、Salakoski,T.,2008年。RLS排名的准确有效的离开-淘汰交叉验证。摘自:Honkela,T.,Pöllä,M.,Paukkeri,M.-S.,Simula,O.(编辑),第二届自适应知识表示和推理国际和跨学科会议论文集。赫尔辛基科技大学。第1-8页。;Pahikkala,T.、Airola,A.、Boberg,J.、Salakoski,T.,2008年。RLS排名的准确有效的离开-淘汰交叉验证。摘自:Honkela,T.,Pöllä,M.,Paukkeri,M.-S.,Simula,O.(编辑),第二届自适应知识表示和推理国际和跨学科会议论文集。赫尔辛基科技大学。第1-8页。
[28] Pahikkala,T。;Boberg,J。;Salakoski,T.,正则化最小二乘的快速交叉验证,(Honkela,T.;Raiko,T.;Kortela,J.;Valpola,H.,《第九届斯堪的纳维亚人工智能会议论文集》(2006),Otamedia:Otamedia Espoo,芬兰),83-90
[29] Pahikkala,T。;皮萨洛,S。;Boberg,J。;Järvinen,J。;Salakoski,T.,《自然语言中的矩阵表示、线性变换和消歧内核》,机器学习,74,2,133-158(2009)·Zbl 1200.68258号
[30] Pahikkala,T。;Tsivtsivadze,E。;艾罗拉,A。;Boberg,J。;Järvinen,J.,《从偏好图学习排名的有效算法》,机器学习,75,1,129-165(2009)·Zbl 1470.68155号
[31] Pahikkala,T.、Tsivtsivadze,E.、Airola,A.、Boberg,J.、Salakoski,T.,2007年。学习使用成对正则最小二乘法排序。作者:Joachims,T.、Li,H.、Liu,T.-Y.、Zhai,C.(编辑),SIGIR 2007信息检索排名学习研讨会。第27-33页。;Pahikkala,T.、Tsivtsivadze,E.、Airola,A.、Boberg,J.、Salakoski,T.,2007年。学习使用成对正则最小二乘法排序。作者:Joachims,T.、Li,H.、Liu,T.-Y.、Zhai,C.(编辑),SIGIR 2007信息检索排名学习研讨会。第27-33页。
[32] B.J.帕克。;Gunter,S。;Bedo,J.,低信号微阵列研究中的分层偏见,BMC生物信息学,8,326(2007)
[33] Provost,F.J。;福塞特,T。;Kohavi,R.,《反对比较归纳算法的精度估计案例》(Shavlik,J.,《第十五届国际机器学习会议论文集》(1998),摩根考夫曼出版社:摩根考夫曼出版社,美国加利福尼亚州旧金山),445-453
[34] Rifkin,R.,2002年。一切旧的又是新的:重新审视机器学习的历史方法。博士论文。麻省理工学院。;Rifkin,R.,2002年。一切旧的又是新的:重新审视机器学习的历史方法。博士论文。麻省理工学院。
[35] 桑德斯,C。;Gammerman,A。;Vovk,V.,双重变量中的岭回归学习算法,(第十五届国际机器学习会议论文集(1998),摩根考夫曼出版社:摩根考夫曼出版社,美国加利福尼亚州旧金山),515-521
[36] Schiavo,R.A。;Hand,D.J.,《错误率研究十年》,《国际统计评论》,68,3,295-310(2000)·Zbl 1107.62339号
[37] 苏肯斯,J.A.K。;Vandewalle,J.,最小二乘支持向量机分类器,《神经处理快报》,9,3,293-300(1999)
[38] Swets,J.A.,《测量诊断系统的准确性》,《科学》,240,4857,1285-1293(1988)·兹比尔1226.92048
[39] Teo,C.H。;Vishwanathan,S.V。;Smola,A。;Le,Q.V.,正则化风险最小化的捆绑方法,机器学习研究杂志,11,311-365(2010)·Zbl 1242.68253号
[40] 南卡罗来纳州范德罗伊。;Hüllermier,E.,AUC变体的批判性分析,机器学习,72,3,247-262(2008)·Zbl 1464.68320号
[41] Vapnik,V.,《基于经验数据的受抚养人估计》(1979年),瑙卡:瑙卡莫斯科,(俄语);英文翻译:Springer,纽约,1982
[42] Vapnik,V.N.,《统计学习理论的本质》(1995年),Springer-Verrag纽约公司:Springer-Verlag纽约公司,美国纽约州纽约市·Zbl 0833.62008号
[43] Waegeman,W。;De Baets,B。;Boullart,L.,序数回归学习中的ROC分析,《模式识别字母》,29,1,1-9(2008)
[44] Wilcoxon,F.,《按排名方法进行的个体比较》,《生物统计学》,第180-83页(1945年)
[45] Zhang,T.,关于凸风险正则线性系统的对偶形式,机器学习,46,91-129(2002)·Zbl 0998.68100号
[46] 张,P。;Peng,J.,SVM与正则化最小二乘分类,(Kittler,J.;Petrou,M.;Nixon,M.,《第17届模式识别国际会议论文集》(2004),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区),176-179
[47] 张,P。;彭杰。;Riedel,N.,Parzen窗口的有限样本误差界,(AAAI'05:第20届全国人工智能会议论文集(2005),AAAI出版社),925-930
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。