×

不完全监督下的非对称误差控制:一种标签噪声调整的Neyman-Pearson伞形算法。 (英语) Zbl 07751811号

摘要:数据中的标签噪声一直是监督学习应用中的一个重要问题,因为它影响许多广泛使用的分类方法的有效性。最近,医学诊断和网络安全等重要的现实世界应用重新引起了人们对Neyman-Pearson(NP)分类范式的兴趣,该范式将更严重的错误类型(例如,I类错误)限制在一个优先级别下,同时将其他错误(例如,II类错误)最小化。然而,关于标记噪声下NP范式的研究却很少。令人惊讶的是,即使普通NP分类器在训练阶段忽略标签噪声,它们仍然能够以较高的概率控制I类错误。然而,他们付出的代价是I类错误过于保守,因此权力大幅下降(即1–II类错误)。假设领域专家提供了腐败严重程度的下限,我们提出了第一个理论支持的算法,该算法将最先进的分类方法应用于NP范式下的训练标签噪声。由此产生的分类器不仅将I类错误的概率控制在期望的水平下,而且还提高了功率。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 布兰查德,G。;弗拉斯卡,M。;Handy,G。;波齐,S。;Scott,C.,“非对称标签噪声的分类:一致性和最大去噪”,《电子统计杂志》,102780-2824(2016)·Zbl 1347.62106号 ·doi:10.1214/16-EJS1193
[2] Braddil,P。;Konolige,K.,机器学习、元推理和逻辑学(1990),马萨诸塞州波士顿:马萨诸塞州波士顿斯普林格
[3] 布罗德利,C.E。;Friedl,M.A.,“识别错误标记的训练数据,人工智能研究杂志,11,131-167(1999)·Zbl 0924.68158号 ·数字对象标识代码:10.1613/jair.606
[4] 布罗德利,C。;Friedl,M.,“识别错误标记的训练数据,人工智能研究杂志,11,131-167(1999)·Zbl 0924.68158号 ·电话:10.1613/jair.606
[5] 罐头,T.I。;范,Y。;Samworth,R.J.,“训练标签不完善的分类,生物特征,107,311-330(2020)·Zbl 1441.62165号 ·doi:10.1093/biomet/asaa011
[6] 坎农,A。;豪斯,J。;Hush,D。;Scovel,C.,“用内曼·皮尔逊和Min-Max标准学习”,02-2951(2002)
[7] 曹,J。;Kwong,S。;Wang,R.,“基于噪声检测的误标记数据AdaBoost算法,模式识别,454451-4465(2012)·Zbl 1248.68431号 ·doi:10.1016/j.patcog.2012.05.002
[8] Ghosh,A。;Manwani,N。;Sastry,P.,“使风险最小化容忍标签噪声,神经计算,160,93-107(2015)·doi:10.1016/j.neucom.2014.09.081
[9] 盖恩,I。;Matic,N。;Vapnik,V。;法耶兹,U.M。;Piatetsky-Shapiro,G。;Smyth,P。;Uthurusamy,R.,《知识发现和数据挖掘的进展,发现信息模式和数据清理》,181-203(1996),加利福尼亚州门罗公园:美国人工智能协会,加利福尼亚州门罗公园
[10] Hickey,R.J.,“噪声建模和评估示例学习,人工智能,82,157-179(1996)·Zbl 1506.68095号 ·doi:10.1016/0004-3702(94)00094-8
[11] 霍普金斯,M。;Reeber,E。;福尔曼,G。;Suermondt,J.,“Spambase数据集,Hewlett-Packard实验室,1(1999)
[12] Khardon,R。;Wachman,G.,“感知器算法的噪声容限变量”,《机器学习研究杂志》,8,227-248(2007)·Zbl 1222.68232号
[13] Krizhevsky,A.,《从微小图像中学习多层特征》(2009)
[14] Lachenbruch,P.A.,“初始样本分类错误时的判别分析,技术计量学,8657-662(1966)·doi:10.2307/1266637
[15] Lachenbruch,P.A.,“关于二次判别函数的初始误分类效应的注记,Technometrics,21229-132(1979)·Zbl 0399.62061号
[16] 刘,T。;Tao,D.,“通过重要性重加权对噪声标签进行分类,IEEE模式分析和机器智能汇刊,38,447-461(2016)·doi:10.1109/TPAMI.2015.2456899
[17] MacDonald,O.,《预防诊断错误的医生观点》(2011)
[18] Manwani,N。;Sastry,P.,“风险最小化下的噪声容限,IEEE控制论汇刊,43,1146-1151(2013)·doi:10.1109/TSMCB.2012.2223460
[19] Natarajan,N。;迪伦,I.S。;Ravikumar,P.K。;Tewari,A.,《使用噪音标签学习》,11196-1204(2013)
[20] 冈本,S。;Yugami,N.,“噪声域k-最近邻分类器的平均案例分析”,IJCAI,1238-245(1997)
[21] Orr,K.,“数据质量和系统理论,ACM通信,41,66-71(1998)·doi:10.1145/269012.269023
[22] Patrini,G。;Rozza,A。;Krishna Menon,A。;诺克·R。;Qu,L.,《使深层神经网络对标签噪声鲁棒:一种损失修正方法》,1944-1952(2017)
[23] Redman,T.,“数据质量差对典型企业的影响,ACM通信,279-82(1998)·doi:10.1145/269012.269025
[24] Rigollet,P。;Tong,X.,“Neyman-Pearson分类、凸性和随机约束,机器学习研究杂志,12,2831-2855(2011)·Zbl 1280.62080号
[25] 斯科特,C。;Nowak,R.,“Neyman-Pearson统计学习方法,IEEE信息理论汇刊,513806-3819(2005)·Zbl 1318.62054号 ·doi:10.1109/TIT.2005.856955
[26] 苏赫巴托,S。;Fergus,R.,用深度神经网络从噪声标签中学习,arXiv:1406.2080,2,4(2014)
[27] Tong,X.,“Neyman-Pearson分类的插件方法,机器学习研究杂志,14,3011-3040(2013)·Zbl 1318.62219号
[28] 唐,X。;Feng,Y。;Li,J.J.,“Neyman-Pearson分类算法和NP接收机操作特性,科学进展,4,eaao1659(2018)·doi:10.1126/sciadv.aao1659
[29] 唐,X。;夏,L。;Wang,J。;Feng,Y.,“内曼-皮尔逊分类:参数和样本量要求”,《机器学习研究杂志》,21,1-18(2020)·Zbl 1497.62159号
[30] 夏,X。;刘,T。;Wang,N。;Han,B。;龚,C。;牛,G。;Sugiyama,M.,“确定点在标签噪声学习中真的不可或缺吗?”,《神经信息处理系统的进展》,32,6838-6849(2019)
[31] 赵,A。;Feng,Y。;Wang,L。;Tong,X.,“高维设置下的Neyman-Pearson分类”,《机器学习研究杂志》,17,1-39(2016)·Zbl 1436.62297号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。