×

通过两两特征组合最大化ROC曲线下的面积。 (英文) Zbl 1132.68647号

摘要:现有的大多数分类系统侧重于最小化分类错误率。这并不总是一个合适的度量标准,特别是在处理具有倾斜类和成本分布的两类问题时。在这种情况下,衡量决策规则质量的一个有效标准是受试者工作特征曲线(AUC)下的面积,这对于衡量许多实际应用中所需的分类器的排名质量也是有用的。本文提出了一种基于AUC最大化的非参数线性分类器。该方法基于对每个单个特征的Wilcoxon-Mann-Whitney统计分析,以及特征的迭代成对耦合,以优化组合特征的排名。通过两两特征评估,该方法与以AUC为准则的其他分类器有本质区别。在合成数据集和实际数据集上进行的实验以及与以前方法的比较证实了该方法的有效性。

MSC公司:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Provost,F。;Fawcett,T.,《不精确环境下的稳健分类》,马赫。学习。,42, 3, 203-231 (2001) ·Zbl 0969.68126号
[2] Fawcett,T.,ROC分析简介,模式识别快报。,27, 861-874 (2006)
[3] P.A.Flach,《roc空间的几何:通过roc等轴测理解机器学习度量》,第20届机器学习国际会议论文集,2003年。;P.A.Flach,《roc空间的几何:通过roc等距线理解机器学习度量》,《第20届机器学习国际会议论文集》,2003年。
[4] Tortorella,F.,基于岩石的二分法拒绝规则,模式识别快报。,26, 167-180 (2005)
[5] Bradley,A.P.,使用大鹏机器学习算法评估中的曲线,模式识别,301145-1159(1997)
[6] Hanley,J.A。;McNeil,B.J.,接收器工作特性(roc)曲线下面积的含义和使用,放射学,143,29-36(1982)
[7] C.Cortes,M.Mohri,Auc优化与错误率最小化,神经信息处理系统进展(NIPS 2003)。;C.Cortes,M.Mohri,《Auc优化与错误率最小化》,《神经信息处理系统进展》(NIPS 2003)。
[8] 黄,J。;Ling,C.X.,《使用auc和准确性评估学习算法》,IEEE Trans。知识数据工程,17,299-310(2005)
[9] 弗伦德,Y。;Iyer,R。;沙佩尔,R.E。;Singer,Y.,一种用于组合偏好的高效提升算法,J.Mach。学习。第4933-969号决议(2003年)·Zbl 1098.68652号
[10] C.Rudin,C.Cortes,M.Mohri,R.Schapire,《基于Margin的排名在中间提升》,第18届计算学习理论年会论文集,2005年。;C.Rudin,C.Cortes,M.Mohri,R.Schapire,基于Margin的排名在中间相遇,《第18届计算学习理论年会论文集》,2005年·Zbl 1137.68561号
[11] C.Ferri,P.Flach,J.Hernandez-Orallo,使用roc曲线下的面积学习决策树,第19届机器学习国际会议论文集,2002年。;C.Ferri,P.Flach,J.Hernandez-Orallo,使用roc曲线下的面积学习决策树,第19届机器学习国际会议论文集,2002年。
[12] A.Herschtal,B.Raskutti,使用梯度下降优化roc曲线下的区域,《第21届国际机器学习会议论文集》,2004年。;A.Herschtal,B.Raskutti,使用梯度下降优化roc曲线下的区域,第21届机器学习国际会议论文集,2004年。
[13] A.Rakotomamonjy,使用svms优化roc曲线下的区域,roc分析和人工智能第一次研讨会论文集,2004年。;A.Rakotomamonjy,使用svms优化roc曲线下的区域,roc分析和人工智能第一次研讨会论文集,2004年。
[14] U.Brefeld,T.Scheffer,Auc最大化支持向量学习,第22届机器学习国际会议论文集——机器学习中ROC分析车间,2005。;U.Brefeld,T.Scheffer,Auc最大化支持向量学习,第22届机器学习国际会议论文集——机器学习中ROC分析车间,2005年。
[15] K.Ataman,N.Street,Y.Zhang,Learning to rank by maximization auc with linear programming,IEEE International Joint Conference on Neural Networks,2006年,第123-129页。;K.Ataman,N.Street,Y.Zhang,通过线性规划最大化auc学习排名,IEEE神经网络国际联合会议论文集,2006年,第123-129页。
[16] D.J.M.Tax,R.P.W.Duin,Y.Arzhaeva,通过优化roc曲线下面积组合线性模型,第18届IEEE模式识别国际会议论文集,2006年,第119-122页。;D.J.M.Tax,R.P.W.Duin,Y.Arzhaeva,通过优化roc曲线下的面积进行线性模型组合,第18届IEEE国际模式识别会议论文集,2006年,第119-122页。
[17] 马拉科,C。;莫里纳拉,M。;Tortorella,F.,利用auc实现二分法的最佳线性组合,模式识别快报。,27, 8, 900-907 (2006)
[18] Hand,D.J。;Till,R.J.,岩石曲线下面积对多类分类问题的简单推广,马赫。学习。,45, 171-186 (2001) ·Zbl 1007.68180号
[19] Mann,H.B。;Whitney,D.R.,《Ann.Math》,测试两个随机变量中的一个是否随机大于另一个。统计人员。,18, 50-60 (1947) ·Zbl 0041.26103号
[20] L.Yan,R.Dodier,M.C.Mozer,R.Wolniewicz,《通过Wilcoxon-Mann-Whitney统计优化分类器性能》,《第20届机器学习国际会议论文集》,2003年,第848-855页。;L.Yan,R.Dodier,M.C.Mozer,R.Wolniewicz,《通过Wilcoxon-Mann-Whitney统计优化分类器性能》,《第20届机器学习国际会议论文集》,2003年,第848-855页。
[21] L.I.Kuncheva、C.J.Whitaker、C.A.Shipp、R.P.W.Duin,独立性对组合分类器有好处吗?,第15届IEEE模式识别国际会议论文集,2000年,第168-171页。;L.I.Kuncheva、C.J.Whitaker、C.A.Shipp、R.P.W.Duin,独立性对组合分类器有好处吗?,第15届IEEE模式识别国际会议论文集,2000年,第168-171页。
[22] 莱曼,E.L。;D'Aberra,H.J.M.,《非参数学》。《基于排名的统计方法》(1975),麦格劳-希尔国际图书公司·Zbl 0354.62038号
[23] Vapnik,V.N.,《统计学习理论》(1998),威利出版社:威利纽约·Zbl 0934.62009号
[24] R.P.W.Duin,Prtools 3.0版,用于模式识别的matlab工具箱,(2000\langle;)http://www.prtools.org\(\rangle;\);R.P.W.Duin,Prtools 3.0版,用于模式识别的matlab工具箱,(2000\langle;)http://www.prtools.org\(\rangle;\)
[25] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论概括及其在助推中的应用》,J.Compute。系统科学。,55, 1, 119 (1997) ·Zbl 0880.68103号
[26] C.Blake,E.Keogh,C.J.Merz,机器学习数据库的Uci知识库,(1998\langle;)www.ics.Uci.edu/\(\sim;\rangle;);C.Blake,E.Keogh,C.J.Merz,机器学习数据库的Uci知识库,(1998\langle;)www.ics.Uci.edu/\(\sim;\rangle;)
[27] Fisher,R.A.,《统计方法和科学推断》(1959年),哈夫纳出版公司。
[28] Friedman,M.,《使用秩来避免方差分析中隐含的正态性假设》,J.Amer。统计师。协会,32,675-701(1937)
[29] Demšar,J.,多数据集上分类器的统计比较,J.Mach。学习。研究,7,1-30(2006)·Zbl 1222.68184号
[30] Holm,S.,一个简单的顺序拒绝多重测试程序,Scand。J.统计。,6, 65-70 (1979) ·Zbl 0402.62058号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。