×

如何处理噪声标签,以便从不确定性中进行稳健学习。 (英语) Zbl 1521.68127号

摘要:大多数深度神经网络(DNN)在应用时都使用大量的噪声标签进行训练。由于DNN具有适合任何噪声标签的高容量,因此很难用噪声标签对DNN进行强有力的训练。由于过度拟合的记忆效应,这些噪声标签会导致DNN的性能下降。早期最先进的方法使用小损失技巧来有效地解决带有噪声标签的鲁棒训练问题。本文分析了不确定度与干净标签之间的关系。我们提出了一种新的训练方法,不仅使用小损失技巧,而且使用可能是从不确定性中选择的干净标签的标签,称为“不确定感知协同训练(UACT)”。我们强大的学习技术(UACT)避免了因标签噪音过大而使DNN过于拟合。通过更好地利用从网络本身获得的不确定性,我们获得了良好的泛化性能。我们将提出的方法与MNIST、CIFAR-10、CIFAR-100、T-ImageNet和News的噪声版本的当前最先进算法进行了比较,以证明其卓越性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Acuna,D.、Ling,H.、Kar,A.和Fidler,S.(2018年)。使用多边形RNN++对分割数据集进行高效的交互式注释。在美国犹他州盐湖城举行的IEEE计算机视觉和模式识别(CVPR)会议上。
[2] Ait-Sahalia,Y。;范,J。;Xiu,D.,带噪声和异步金融数据的高频协方差估计,美国统计协会杂志,105,492,1504-1517(2010)·Zbl 1388.62303号
[3] Algan,G。;Ulusoy,I.,《标签噪声类型及其对深度学习的影响》(2020),arXiv预印本arXiv:2003.10471
[4] 安格鲁因,D。;Laird,P.,从噪声示例中学习,机器学习,2,4,343-370(1988)
[5] Arpit,D.等人(2017年)。深入了解深层网络中的记忆。在澳大利亚新南威尔士州悉尼举行的机器学习国际会议(ICML)上(第233-242页)。
[6] Balcan,M。;Beygelzimer,A。;Langford,J.,《从噪音中学习》,《不可知积极学习》,第75、1、78-89页(2009年)·Zbl 1162.68516号
[7] 坎迪斯,E.J。;Wakin,M.B。;Boyd,S.P.,通过重新加权\(L_1\)最小化增强稀疏性,傅里叶分析与应用杂志,15,11929-1958(2014)
[8] 沙佩尔,O。;Schölkopf,B。;Zien,A.,半监督学习,IEEE神经网络汇刊,20,3(2014),542-542
[9] Dube,P.、Bhattacharjee,B.、Huo,S.、Watson,P.,Belgodere,B.和Kender,J.R.(2019年)。为转移学习自动标记数据。IEEE/CVF计算机视觉和模式识别(CVPR)研讨会论文集,美国加利福尼亚州长滩。
[10] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,机器学习研究杂志,12,2121-2159(2011)·Zbl 1280.68164号
[11] Fan,Y.,Tian,F.,Qin,T.,Li,X.-Y.,&Liu,T.-Y.(2018)。学习教学。在加拿大不列颠哥伦比亚省温哥华举行的学习代表国际会议上。
[12] Gal,Y.和Ghahramani,Z.(2016)。辍学作为贝叶斯近似:表示深度学习中的模型不确定性。在美国纽约州纽约市举行的机器学习国际会议(ICML)上(第1050-1059页)。
[13] Gao,T.和Jojic,V.(2017)。样本在深度神经网络训练中的重要性。在法国土伦举行的学习代表国际会议上。
[14] Ghosh,A.、Kumar,H.和Sastry,P.S.(2015)。深度神经网络在标签噪声下的鲁棒损失函数。第三十届美国人工智能学会人工智能会议,美国加利福尼亚州旧金山(1919-1925页)。
[15] Goldberger,J.和Ben-Reuven,E.(2017年)。使用噪声适应层训练深层神经网络。在法国土伦举行的学习代表国际会议上。
[16] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社·Zbl 1373.68009号
[17] 顾,N。;范,M。;Meng,D.,基于自定步长学习的噪声标签鲁棒半监督分类,IEEE Signal Processing Letters,23,12,1806-1810(2010)
[18] Han,B.,Yao,Q.,Yu,X.,Niu,G.,Xu,M.,&Hu,W.等人(2018年)。协同教学:使用极为嘈杂的标签对深度神经网络进行稳健训练。《神经信息处理系统进展》(NeurIPS),加拿大魁北克省蒙特利尔,Month?。(第8527-8537页)。
[19] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。深剩余网络中的身份映射。在荷兰阿姆斯特丹举行的欧洲计算机视觉会议(ECCV)上(第630-645页)。
[20] 胡,M。;Yang,Y。;沈,F。;张,L。;沈洪涛。;Li,X.,通过探索多方面和结构知识进行稳健的网络图像注释,IEEE图像处理汇刊,26,10,4871-4884(2017)
[21] Huang,X.等(2019)。城市十字路口有不确定性的驾驶员轨迹预测?在IEEE机器人和自动化国际会议(ICRA)上,加拿大魁北克省蒙特利尔(第5574-5584页)。
[22] Jiang,L.,Zhou,Z.,Leung,T.,Li,L,&Fei-Fei,L.(2018)。Mentornet:学习基于数据驱动的课程,针对损坏标签上的深层神经网络。机器学习国际会议(ICML),瑞典斯德哥尔摩(第2309-2318页)。
[23] Kendall,A.和Gal,Y.(2017年)。在计算机视觉的贝叶斯深度学习中,我们需要哪些不确定性?《神经信息处理系统进展》(NeurIPS),美国加利福尼亚州长滩(第5574-5584页)。
[24] Li,Y.、Yang,J.、Song,Y.,Cao,L.、Luo,J.和Li,J.(2017)。通过蒸馏从嘈杂的标签中学习。在意大利威尼斯举行的IEEE计算机视觉国际会议(ICCV)上(第1910-1918页)。
[25] Liu,W.,Jiang,Y.-G.,Luo,J.,&Chang,S.-F.(2011)。抗噪图形排名用于改进web图像搜索。美国科罗拉多州科罗拉多斯普林斯IEEE计算机视觉和模式识别会议(第849-856页)。
[26] 刘,T。;Tao,D.,通过重要性重加权对噪声标签进行分类,IEEE模式分析和机器智能汇刊,38,3,447-461(2016)
[27] 卢,Z。;傅,Z。;Xiang,T。;Han,P。;Wang,L。;Gao,X.,从弱噪声标签中学习语义分割,IEEE模式分析和机器智能汇刊,39,3,486-500(2003)
[28] Ma,X.等(2018)。维度驱动学习,带有噪音标签。在瑞典斯德哥尔摩举行的国际机器学习会议(ICML)上(第3355-3364页)。
[29] Malach,E.和Shalev-Shwartz,S.(2017年)。将何时更新与如何更新脱钩。《神经信息处理系统进展》(NeurIPS),美国加利福尼亚州长滩(第960-970页)。
[30] Masnadi-shirazi,H.和Vasconcelos,N.(2009年)。关于分类损失函数的设计:理论、对异常值的鲁棒性和SavageBoost。《神经信息处理系统进展》(NeurIPS),加拿大不列颠哥伦比亚省温哥华市(第1049-1056页)。
[31] Miyato,T.、Dai,A.M.和Goodfellow,I.(2016)。半监督文本分类的对抗训练方法。在波多黎各圣胡安举行的学习代表国际会议上。
[32] Natarajan,N.、Dhillon,I.S.、Ravikumar,P.和Tewari,A.(2013)。用嘈杂的标签学习。《神经信息处理系统进展》(NeurIPS),美国内华达州塔霍湖(Lake Tahoe,NV,USA)(第1196-1204页)·Zbl 1467.68151号
[33] Oh,D.K.,Ji,D.H.,Jang,C.H.,Hyun,Y.S.,Bae,H.S.,&Hwang,S.J.(2020年)。使用24.3个GFLOP以36.5 FPS的速度分割2K-video:准确且轻量级的实时语义分割网络。在IEEE机器人和自动化国际会议(ICRA)上,法国巴黎(第3153-3160页)。
[34] Patrini,G.、Rozza,A.、Menon,A.、Nock,R.和Qu,L.(2017)。使深层神经网络对标签噪声鲁棒:一种损失校正方法。在美国夏威夷州火奴鲁鲁举行的IEEE计算机视觉和模式识别(CVPR)会议上(第2233-2241页)。
[35] 雷卡尔,V.C。;于斯。;Zhao,L.H。;Valadez,G.H。;弗洛林,C。;Bogoni,L.,《从人群中学习》,《机器学习研究杂志》,11,26,1297-1322(2010)
[36] Ren,M.、Zeng,W.、Yang,B.和Urtasun,R.(2018)。学习重新调整示例以实现强大的深度学习。机器学习国际会议(ICML),瑞典斯德哥尔摩(第3355-3364页)。
[37] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,《机器学习研究杂志》,1929-1958年,第15期,第1期(2014年)·Zbl 1318.68153号
[38] Tanaka,D.、Ikami,D.、Yamasaki,T.和Aizawa,K.(2018年)。带噪声标签学习的联合优化框架。在美国犹他州盐湖城举行的IEEE计算机视觉和模式识别(CVPR)会议上(第5552-5560页)。
[39] Vahdat,A.(2017)。训练深度判别神经网络时对标签噪声的鲁棒性。《神经信息处理系统进展》(NeurIPS),美国加利福尼亚州长滩(5596-5605页)。
[40] van Rooyen,B.、Menon,A.K.和Williamson,R.C.(2015)。学习对称标签噪音:精神错乱的重要性。《神经信息处理系统进展》(NeurIPS),加拿大魁北克省蒙特利尔(第10-18页)。
[41] Veit,A.、Alldrin,N.、Chechik,G.、Krasin,I.、Gupta,A.和Belongie,S.(2017年)。在最小监督的情况下从嘈杂的大规模数据集中学习。在IEEE计算机视觉和模式识别(CVPR)会议上,美国夏威夷州火奴鲁鲁(6575-6583页)。
[42] Wan,J。;Chan,G.,为人群计数建模噪音注释,(神经信息处理系统(NeurIPS)进展,虚拟会议(2020年))
[43] Wang,L。;Hua,G。;薛,J。;高,Z。;Zheng,N.,从含噪网络图像采集中联合分割和识别分类对象,IEEE图像处理汇刊,23,9,4070-4086(2014)·Zbl 1374.94396号
[44] Wang,P.和Vasconcelos,N.(2018年)。面向现实预测者。在德国慕尼黑举行的欧洲计算机视觉会议上。
[45] Wilson,D.R。;Martinez,T.R.,梯度下降学习批量训练的一般效率,神经网络,16,10,1429-1451(2003)
[46] Xiao,T.、Xia,T.,Yang,Y.、Huang,C.和Wang,X.(2015)。从大量噪声标记数据中学习图像分类。在美国马萨诸塞州波士顿举行的IEEE计算机视觉和模式识别(CVPR)会议上(第2691-2699页)。
[47] Yan,Y。;罗莎莱斯,R。;Fung,G。;苏布拉曼尼亚,R。;Dy,J.,《向具有不同专业知识的多个注释器学习》,机器学习,95,3,291-327(2014)·兹比尔1320.68153
[48] 杨,J。;太阳,X。;赖,Y.-K。;郑,L。;Cheng,M.-M.,《网络数据识别:渐进过滤方法》,IEEE图像处理汇刊,27,11,5303-5315(2018)
[49] 姚,J。;Wang,J。;Tsang,I.W。;Zhang,Y。;Sun,J。;Zhang,C.,通过质量嵌入深度学习噪声图像标签,IEEE图像处理汇刊,28,41909-1922(2019)
[50] Yu,X.、Han,B.、Yao,J.、Niu,G.、Tsang,I.W.和Sugiyama,M.(2019年)。分歧如何有助于防止标签腐败?在美国加利福尼亚州长滩举行的机器学习国际会议(ICML)上(第7164-7173页)。
[51] Yu,X.、Liu,T.、Gong,M.、Batmanghich,K.和Tao,D.(2018)。一种使用线性独立性假设进行混合比例估计的有效且可证明的方法。在美国犹他州盐湖城举行的IEEE计算机视觉和模式识别(CVPR)会议上(第4480-4489页)。
[52] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017)。理解深度学习需要重新思考泛化。在法国土伦举行的学习代表国际会议上。
[53] Zhang,&Sabuncu,M.R.(2018)。带噪声标签的深度神经网络训练的广义交叉熵损失。《神经信息处理系统进展》(NeurIPS),加拿大魁北克省蒙特利尔市(第8778-8788页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。