×

非对称标签噪声分类:一致性和最大去噪。 (英语) Zbl 1347.62106号

电子。J.统计。 10,第2期,2780-2824(2016); 更正同上,第12号,1779-1781(2018)。
摘要:在许多实际的分类问题中,训练示例的标签是随机损坏的。以前关于标签噪声分类的大多数理论工作都假设这两个类是可分离的,标签噪声独立于真正的类标签,或者每个类的噪声比例是已知的。在这项工作中,我们给出了真实类条件分布可识别的必要条件和充分条件。这些条件比之前分析的条件弱,并且允许类不可分离,噪声水平不对称且未知。这些条件基本上表明大多数观察到的标签都是正确的,并且真正的类条件分布是“相互不可约的”,我们引入的概念限制了两个分布的相似性。对于任何标签噪声问题,都存在一对唯一的满足所提条件的真类条件分布,我们认为这对分布在某种意义上对应于观测分布的最大去噪。
我们的结果得益于与“混合比例估计”的联系,“混合比例估计”是估计一种分布在另一种分布中的最大比例的问题。我们建立了一个新的混合比例估计的收敛速度结果,并将其应用于基于代理损失最小化的判别规则的一致性。对基准数据和核粒子分类问题的实验结果证明了我们方法的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] J.M.亚当斯和G.怀特。用于带电粒子分离的多功能脉冲形状鉴别器及其在快中子飞行时间谱中的应用。,物理研究中的核仪器和方法,1978年。
[2] D.Aldous和P.Diaconis。强一致时间和有限随机游动。,高级申请。数学,8(1):69-97, 1987. ·Zbl 0631.60065号 ·doi:10.1016/0196-8858(87)90006-6
[3] S.Ambers、M.Flaska和S.Pozzi。一种在中子能量低于500kev时性能增强的混合脉冲形状识别技术。,物理研究中的核仪器和方法A,638:116-1212011。
[4] D.Angluin和P.Laird。从吵闹的例子中学习。,机器学习,2:343-3701988。
[5] J.Aslam和S.Decatur。关于容错学习的样本复杂度。,信息处理。莱特,57:189-195, 1996. ·doi:10.1016/0020-0190(96)00006-3
[6] P.Bartlett、M.Jordan和J.McAuliffe。凸性、分类和风险边界。,美国统计协会期刊,101(473):138-1562006·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[7] G.Blanchard、G.Lee和C.Scott。半监督新颖性检测。,机器学习研究杂志,11:2973-30092010·兹比尔1242.68205
[8] A.布鲁姆和T.米切尔。将标记和未标记数据与联合训练相结合。1998年第11届计算学习理论年会论文集,第92-100页·doi:10.1145/279943.279962
[9] C.Bouveyron和S.Girard。基于混合模型的稳健监督分类:从标签不确定的数据中学习。,模式识别杂志,42:2649-26582009·Zbl 1175.68313号 ·doi:10.1016/j.patcog.2009.03.027
[10] C.布罗德利和M.弗里德尔。识别标记错误的培训数据。,《人工智能研究杂志》,131-1671999·Zbl 0924.68158号
[11] N.H.Bshouty、S.A.Goldman、H.D.Mathias、S.Suri和H.Tamaki。一般几何概念的容错无分布学习。,美国医学杂志,45(5):863-8901998·Zbl 1065.68598号 ·doi:10.1145/290179.290184
[12] A.Buja、W.Stuetzle和Y.Shen。二元类概率估计和分类的损失函数:结构和应用,手稿,可在www-stat.wharton.upenn.edu/buja上查阅,2005年。
[13] N.Cesa Bianchi、P.Fischer、E.Shamir和H.U.Simon。噪声学习的随机假设和最小分歧假设。在,程序。第三届欧洲计算学习理论会议,第119-133页,1997年·doi:10.1007/3-540-62685-9_11
[14] V.Denchev、N.Ding、S.V.N.Vishwanathan和H.Neven。绝热量子优化的稳健分类。J.Langford和J.Pineau,编辑,Proc。第29届国际机器学习大会,第863-870页,2012年。
[15] L.Devroye、L.Györfi和G.Lugosi。,模式识别的概率理论。施普林格,1996年·Zbl 0853.68150号
[16] N.Ding和S.V.N.Vishwanathan\(t)-logistic回归。J.Lafferty、C.K.I.Williams、J.Shawe-Taylor、R.S.Zemel和A.Culotta主编,《神经信息处理系统进展》23,第514-522页。2010
[17] B.Frénay和M.Verleysen。标签噪声存在下的分类:调查。,IEEE传输。《神经网络与学习系统》,25:845-8692014。
[18] S.Jabbari。带标签噪声的PAC学习。阿尔伯塔大学硕士论文,2010年12月。
[19] A.Kalai和R.Servedio。存在噪音时增压。,计算机理论研讨会,第196-205页,2003年·Zbl 1192.68526号 ·数字对象标识代码:10.1145/780542.780573
[20] M.卡恩斯。从统计查询中高效的容错学习。,第二十五届美国计算机学会计算理论研讨会论文集,第392-401页,1993年·Zbl 1310.68179号 ·doi:10.1145/167088.167200
[21] O.Koyejo、N.Natarajan、P.Ravikumar和I.Dhillon。具有广义性能指标的一致二进制分类。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger编辑,《神经信息处理系统进展》27,第2744-2752页,2014年。
[22] J.朗福德。分类实用预测理论教程。,机器学习研究杂志,6:273-3062005·Zbl 1222.68243号
[23] N.Lawrence和B.Schölkopf。在标签噪声存在下估计核Fisher判别式。,机器学习国际会议论文集,2001年。
[24] E.莱曼。,测试统计假设。威利,纽约,1986年·Zbl 0608.62020
[25] T.Liu和D.Tao。通过重要性重加权对噪声标签进行分类。,IEEE模式分析和机器智能汇刊,38(3):447-4612016。
[26] P.Long和R.Servido。随机分类噪声击败了所有凸势助推器。,机器学习,78:287-3042010·Zbl 1470.68139号 ·doi:10.1007/s10994-009-5165-z
[27] N.Manwani和P.S.Sastry。风险最小化下的噪声容忍度。,IEEE传输。控制论,43(3):1146-11512011。
[28] H.Masnadi Shirazi和N.Vasconcelos。关于分类损失函数的设计:理论、对异常值的鲁棒性和野蛮提升。Y.Bengio D.Koller、D.Schuurmans和L.Bottou主编,《神经信息处理系统进展》21,第1049-1056页。2009
[29] L.Mason、J.Baxter、P.Bartlett和M.Frean。作为梯度下降的推进算法。在《神经信息处理系统进展》中,第12页,第512-518页。麻省理工学院出版社,2000年。
[30] A.Menon、B.Van Rooyen、C.S.Ong和R.Williamson。通过类概率估计从损坏的二进制标签中学习。在F.Bach和D.Blei,编辑,Proc。第32届国际计算机学习会议(ICML),法国里尔,2015年。
[31] M.Mohri、A.Rostamizadeh和A.Talwalkar。,机器学习基础。麻省理工学院出版社,2012年·Zbl 1318.68003号
[32] N.Natarajan、I.S.Dhillon、P.Ravikumar和A.Tewari。用嘈杂的标签学习。《神经信息处理系统进展》,2013年第26期。
[33] W.Peterson、T.Birdsall和W.Fox。信号可检测性理论。,事务处理。无线电工程师学会。,信息理论专业组,4(4):171-2121954。
[34] U.Rebbapragada和C.Brodley。通过实例加权进行类噪声抑制。,2007年欧洲机器学习会议,第708-715页。
[35] M.D.Reid和R.C.Williamson。复合二进制损失。,机器学习研究杂志,11:2387-24222010·Zbl 1242.62058号
[36] S.Sabato和N.Tishby。任何假设类的多因素学习。,《机器学习研究》,13:2999-30392012年·Zbl 1433.68376号
[37] L.L.Scharf.,统计信号处理。检测、估计、时间序列分析。Addison-Wesley,马萨诸塞州雷丁,1991年·Zbl 1130.62303号
[38] C.斯科特。校准的不对称替代损失。,《统计电子期刊》,6:958-992012·兹比尔1335.62108 ·doi:10.1214/12-EJS699
[39] C.斯科特。关于弱监督学习的说明,2014年。网址:web.eecs.umich.edu/cscott/wsl.pdf。
[40] C.斯科特。混合比例估计的收敛速度,应用于从噪声标签中学习。2015年,《第18届国际人工智能与统计会议论文集》。
[41] C.Scott、G.Blanchard和G.Handy。非对称标签噪声分类:一致性和最大去噪。在,程序。学习理论会议,JMLR W&CP,第30卷,第489-511页。2013年a·Zbl 1347.62106号 ·doi:10.1214/16-EJS1193
[42] C.Scott、G.Blanchard、G.Handy、S.Pozzi和M.Flaska。非对称标签噪声分类:一致性和最大去噪。技术报告,2013年b·Zbl 1347.62106号 ·doi:10.1214/16-EJS1193
[43] I.Steinwart和A.Christmann。,支持向量机。施普林格,2008年·Zbl 1203.68171号 ·数字对象标识代码:10.1007/978-0-387-77242-4
[44] G.Stempfel和L.Ralaivola。从标记松散的数据中学习SVM。在,程序。第19届国际人工神经网络大会:第一部分,第884-893页,2009年。
[45] L.Xu、K.Crammer和D.Schurmans。基于凸离群消融的鲁棒支持向量机训练。,2006年第21届全国人工智能会议论文集。
[46] T.Yang、M.Mahdavi、R.Jin、L.Zhang和Y.Zhou。基于随机规划的噪声标签多核学习。J.Langford和J.Pineau,编辑,《第29届国际机器学习会议论文集》(ICML-12),第233-240页,美国纽约州纽约市,2012年。ACM。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。