×

噪声标签下的鲁棒最优分类树。 (英文) Zbl 07538947号

摘要:在本文中,我们提出了一种新的方法来构造最优分类树,该方法考虑到训练样本中可能会出现噪声标签。这种新方法的动机是基于边缘分类器和离群点检测技术相结合的超创造性效果。我们的方法基于两个主要因素:(1)应用SVM范式,设计分类树的分割规则以最大化类间的分离距离;(2)在构建树的过程中,为了检测标签噪声,允许改变训练样本的一些标签。这两个功能都被考虑并集成在一起,以设计最终的最优的分类树。我们提出了该问题的混合整数非线性规划公式,适用于使用任何可用的离线求解器进行求解。该模型在UCI机器学习库中的一组标准数据集上进行了分析和测试,表明了我们方法的有效性。我们的计算结果表明,在大多数情况下,新方法在准确性和AUC方面都优于OCT和OCT-H提供的基准测试结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
90立方厘米 混合整数编程
68T05型 人工智能中的学习和自适应系统
32S22美元 与超平面排列的关系

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,N。;巴拉苏布拉曼尼亚语,VN;Jawahar,C.,使用dagsvm和三重态损失通过深度网络改进多类分类,Pattern Recogn Lett,112,184-190(2018)·doi:10.1016/j.patrec.2018.06.034
[2] 贝纳蒂,S。;J.波多尔。;Rodríguez Chía,AM,图连接的聚类数据,Eur J Oper Res,261,1,43-53(2017)·Zbl 1403.90630号 ·doi:10.1016/j.ejor.2017.02.009
[3] 贝纳蒂,S。;Ponce,D。;J.波多尔。;Rodríguez-Chía,AM,《聚类图连接数据的分支和价格程序》,《欧洲运营研究杂志》(2021)·兹比尔1490.90290 ·doi:10.1016/j.ejor.2021.05.043
[4] Bennett,K.P.和Blue,J.决策树的支持向量机方法。1998年,IEEE神经网络国际联合会议论文集。IEEE计算智能世界大会(分类号98CH36227)(1998年),第3卷,IEEE,第2396-2401页
[5] Bertsimas,D。;Dunn,J.,最优分类树,马赫学习,106,71039-1082(2017)·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[6] Bertsimas,D。;Dunn,J。;帕沃斯基,C。;卓,YD,稳健分类。信息杂志,优化,1,1,2-34(2019)
[7] Bertsimas,D.和Dunn,J.W.,现代优化视角下的机器学习。Dynamic Ideas LLC,2019年
[8] Blanco V,Japón A,Ponce D,Puerto J(2020)关于拟合点集的多源超平面定位问题。计算机和;amp;运筹学105124·Zbl 1510.90169号
[9] Blanco,V.、Japón,A.和Puerto,J.一种带标签噪声的二进制监督分类的数学规划方法。arXiv预印本arXiv:2004.10170(2020)
[10] 布兰科,V。;Japón,A。;Puerto,J.,基于svm的多类分类超平面的最佳安排,高级数据分析分类,14,1,175-199(2020)·Zbl 1474.62213号 ·doi:10.1007/s11634-019-00367-6
[11] 布兰科,V。;J.波多尔。;Salmerón,R.,《将超平面定位到拟合点集:一般框架》,《计算机操作研究》,95172-193(2018)·Zbl 1458.90467号 ·doi:10.1016/j.cor.2018.03.009
[12] Blanquero R、Carrizosa E、Jiménez-Cordero A、Martín-Barragán B(2020a)多变量函数数据的支持向量回归时间点和时间间隔的选择。计算运算结果123:105050·Zbl 1458.62322号
[13] Blankero R、Carrizosa E、Ramírez-Cobo P、Sillero-Denamiel MR(2020b)成本敏感型约束套索。高级数据分析分类1-38·Zbl 07363868号
[14] 布雷曼,L。;弗里德曼,J。;斯通,CJ;Olshen,RA,分类和回归树(1984),美国:CRC出版社,美国·Zbl 0541.62042号
[15] Carrizosa,E。;Molero-Río,C。;Morales,DR,分类和回归树中的数学优化,TOP,29,1,5-33(2021)·兹比尔1467.90021 ·doi:10.1007/s11750-021-00594-1
[16] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,3273-297(1995)·兹比尔08316.8098
[17] 盖,T。;Hart,P.,最近邻模式分类,IEEE Trans-Inf理论,13,1,21-27(1967)·Zbl 0154.44505号 ·doi:10.1109/TIT.1967.1053964
[18] Drucker H、Burges CJ、Kaufman L、Smola AJ、Vapnik V(1997)支持向量回归机。神经信息处理系统进展155-161
[19] Dua,D.和Graff,C.UCI机器学习库,2017年
[20] 弗莱奈,B。;Verleysen,M.,《标签噪声存在下的分类:一项调查》,IEEE Trans Neural Netw Learn Syst,25,5,845-869(2013)·doi:10.1109/TNNLS.2013.2292894
[21] Friedman,J.、Hastie,T.和Tibshirani,R.《统计学习的要素》,第1卷。施普林格统计系列,2001年,纽约·Zbl 0973.62007号
[22] 高迪奥索,M。;Gorgone,E。;拉贝,M。;Rodríguez-Chía,AM,支持向量机特征选择的拉格朗日松弛法,《计算机操作研究》,87,137-145(2017)·Zbl 1391.90430号 ·doi:10.1016/j.cor.2017.06.001
[23] Günlük,O。;Kalagnanam,J。;李,M。;Menickelly,M。;Scheinberg,K.,通过整数规划实现分类数据的最优决策树,J Glob Optim,81,233-260(2021)·Zbl 1475.90039号 ·doi:10.1007/s10898-021-01009-y
[24] Guzella,TS;Caminhas,WM,垃圾邮件过滤的机器学习方法综述,专家系统应用,3610206-10222(2009)·doi:10.1016/j.eswa.2009.02.037
[25] Lewis,D.D.Naive(bayes),第四十页:信息检索中的独立性假设。在欧洲机器学习会议(1998年)上,Springer,第4-15页
[26] Quinlan,J.,《机器学习与id3》(1996),洛斯阿尔托斯:摩根考夫曼,洛斯奥尔托斯
[27] 昆兰,R.C4。5.机器学习程序(1993)
[28] 唐,X。;Xu,A.,基于k近邻核密度估计的多类分类,Electron Lett,52,8,600-602(2016)·doi:10.1049/el.2015.4437
[29] Weerasinghe,S。;埃尔法尼,SM;Alpcan,T。;Leckie,C.,《支持向量机对训练数据完整性攻击的弹性》,模式识别,96,106985(2019)·doi:10.1016/j.patcog.2019.106985
[30] Yu,B。;Xu,ZB,使用四种机器学习算法进行基于内容的动态垃圾邮件分类的比较研究,基于知识的系统,21355-362(2008)·doi:10.1016/j.knosys.2008.01.01
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。