×

关于重新优化多类分类器。 (英语) Zbl 1470.68087号

摘要:学习问题的实例分布或相关成本函数发生重大变化时,需要重新优化先前学习的分类器,以便在新的条件下工作。我们研究了基于ROC超曲面和描述每种预测误差代价的矩阵的多类分类器的重新优化问题。对于二元分类器,很容易根据其ROC曲线和真正与假正误差的相对代价找到最佳工作点。然而,相应的多类问题(基于ROC超曲面和代价矩阵寻找最优操作点)更具挑战性,直到现在,还不知道是否存在找到最优解的有效算法。我们通过首先证明这个问题的决策版本是完全的来回答这个问题。作为一个互补的正结果,我们给出了一个算法,当类数为常数时,该算法在多项式时间内找到最优解。我们还针对这个问题提出了几种启发式算法,包括线性、非线性和二次规划公式、遗传算法和定制算法。实证结果表明,在均匀和非均匀成本模型下,简单贪婪方法的性能优于更复杂的方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
65年第68季度 算法和问题复杂性分析
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abramson,M.A.(2005年)。遗传算法和直接搜索工具箱。http://www.mathworks.com/ .
[2] Blake,C.和Merz,C.(2005年)。机器学习数据库的UCI存储库。网址:http://www.ics.uci.edu/\(\sim\)mlearn/MLRepository.html。
[3] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥:剑桥大学出版社·Zbl 1058.90049号
[4] Demšar,J.(2006)。多个数据集上分类器的统计比较。机器学习研究杂志,7,1–30·Zbl 1222.68184号
[5] Deng,K.、Bourke,C.、Scott,S.D.和Vinodchandran,N.V.(2006年)。通过ROC曲面优化多类分类器的新算法。在机器学习中ROC分析的ICML研讨会论文集(第17-24页)。
[6] Ferri,C.、Hernández-Orallo,J.和Salido,M.(2003)。ROC曲面下的多类问题体积。在欧洲人工智能会议上(第108–120页)·Zbl 1257.68125号
[7] Fieldsend,J.和Everson,R.(2005)。多类ROC表面的配方和比较。《ICML机器学习ROC分析研讨会论文集》(第41-48页)。
[8] Grant,M.、Boyd,S.和Ye,Y.(2006年)。严格的凸规划。在L.Liberti和N.Maculan(编辑)中,非凸优化及其应用。全球优化:从理论到实施(第155-210页)。柏林:斯普林格。可在http://www.stanford.edu网站/\(\sim\)boyd/cvx/。
[9] Hand,D.和Till,R.(2001)。多类别分类问题ROC曲线下面积的简单概括。机器学习,45,171–186·Zbl 1007.68180号 ·doi:10.1023/A:1010920819831
[10] Hochberg,Y.和Tamhane,A.C.(1987年)。多重比较程序。纽约:Wiley·Zbl 0731.62125号
[11] Kohli,R.、Krishnamurti,R.和Mirchandani,P.(1994)。最小可满足性问题。SIAM离散数学杂志,7275–283·Zbl 0806.68060号 ·doi:10.1137/S0895480191220836
[12] Lachiche,N.和Flach,P.(1999)。1BC:一阶贝叶斯分类器。第九届归纳逻辑编程国际研讨会论文集(第92-103页)。
[13] Lachiche,N.和Flach,P.(2003年)。使用ROC曲线提高两类和多类概率分类器的准确性和成本。《第20届机器学习国际会议论文集》(第416–423页)。
[14] 松井,T.(1996)\线性乘法规划的(mathsf{NP})-困难性及相关问题。《全局优化杂志》,9,113–119·Zbl 0868.90111号 ·文件编号:10.1007/BF00121658
[15] 莫斯科,美联社(2005年)。MOSEK优化工具3.2版。网址:http://www.mosek.com/ .
[16] Mossman,D.(1999)。三路ROC。医疗决策,19(1),78–89·doi:10.1177/0272989X9901900110
[17] O'Brien,D.B.和Gray,R.M.(2005年)。通过探索成本矩阵在划分估计类概率空间中的作用来提高分类性能。《ICML机器学习ROC分析研讨会论文集》(第79-86页)。
[18] Provost,F.J.和Fawcett,T.(1997年)。分类器性能的分析和可视化:不精确类和成本分布下的比较。第三届知识发现和数据挖掘国际会议论文集(KDD-97)(第43-48页)。
[19] Provost,F.J.和Fawcett,T.(1998年)。针对不精确环境的稳健分类系统。第15届全国人工智能会议(AAAI)论文集(第706-713页)·Zbl 0969.68126号
[20] Provost,F.J.和Fawcett,T.(2001)。针对不精确环境的稳健分类。机器学习,42,203–231·Zbl 0969.68126号 ·doi:10.1023/A:100760115854
[21] Rockafellar,R.(1970年)。凸分析(第二版)。普林斯顿:普林斯顿大学出版社·Zbl 0193.18401号
[22] Schölkopf,B.和Smola,A.J.(2001)。用内核学习。剑桥:麻省理工学院出版社·Zbl 1019.68094号
[23] Srinivasan,A.(1999)。关于n维ROC空间中最佳分类器位置的注释(技术报告PRG-TR-2-99)。牛津大学计算实验室,牛津。
[24] Stoer,I.J.和Witzgall,C.(1996年)。有限维中的凸性和优化。柏林:斯普林格·Zbl 0203.52203号
[25] Witten,I.H.等人(2005年)。威卡机器学习工具箱。网址:http://www.cs.waikato.ac.nz/ml/weka/ .
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。