×

切换:理解尾部样本记忆中的类反向采样。 (英语) Zbl 1491.68174号

摘要:长尾视觉识别由于其固有的类不平衡性,对传统机器学习和新兴的深层网络提出了重大挑战。现有的重加权和重采样方法虽然有效,但缺乏基本理论,而长尾的悖论效应仍未解决,即网络失败,头类重分配不足,尾类过量。在本文中,我们从记忆泛化的角度研究了长尾识别,这不仅揭示了以往方法的原因,而且导出了一个新的原理性解决方案。具体来说,我们首先从经验上确定了长尾分布下类的正则性,发现长尾挑战本质上是高正则头类的表示和低正则尾类的泛化之间的权衡为了在不严重破坏头部样本表示的情况下记忆尾部样本,我们提出了一种简单而有效的采样策略,用于普通的微型备份SGD优化过程,切换它从基于实例的采样切换到仅以较小的学习速率进行一次类反向采样。通过理论分析,我们发现该抽样策略的泛化误差上界在条件上低于实例平衡抽样。在我们的实验中,该方法可以比现有方法更有效地达到可行的性能。进一步的实验验证了该方法的优越性切换策略,这意味着长尾学习取舍只能在记忆阶段以较小的学习率和过度暴露尾样本的方式进行。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Baloch,B.K.,Kumar,S.,Haresh,S.、Rehman,A.和Syed,T.(2019年)。聚焦锚丢失:不平衡分类的判别特征的成本敏感学习。《第十一届亚洲机器学习会议论文集》,ACML,PMLR,第101卷,第822-835页。
[2] Bartlett,P.L.、Foster,D.J.和Telgarsky,M.(2017年)。神经网络的规范化边缘边界。《神经信息处理系统进展》,NIPS,第6240-6249页。
[3] 巴特利特,PL;Mendelson,S.,《Rademacher和高斯复杂性:风险边界和结构结果》,《机器学习研究杂志》,3463-482(2002)·Zbl 1084.68549号
[4] Bej,S。;Davtyan,N。;Wolfien,M。;Nassar,M。;Wolkenhauer,O.,Loras:不平衡数据集的过采样方法,机器学习,110,2,279-301(2021)·Zbl 07432803号 ·doi:10.1007/s10994-020-05913-4
[5] Bellinger,C。;Drummond,C。;Japkowicz,N.,基于流形的合成过采样与流形一致性估计,机器学习,107,3,605-637(2018)·Zbl 1457.68227号 ·数字对象标识代码:10.1007/s10994-017-5670-4
[6] 布达,M。;Maki,A。;Mazurowski,MA,卷积神经网络中类不平衡问题的系统研究,神经网络,106,249-259(2018)·doi:10.1016/j.neunet.2018.07.011
[7] Cao,K.、Wei,C.、Gaidon,A.、Aréchiga,N.和Ma,T.(2019年)。学习具有标签分布感知边际损失的不平衡数据集。《神经信息处理系统进展32:神经信息处理体系年度会议》(NeurIPS),第1565-1576页。
[8] Cui,Y.、Jia,M.、Lin,T.、Song,Y.和Belongie,S.J.(2019年)。基于有效样本数的分类损失。在IEEE计算机视觉和模式识别会议上,CVPR,第9268-9277页。
[9] Dong,Q.、Gong,S.和Zhu,X.(2017)。课堂纠偏——深度学习不平衡的艰难挖掘。在IEEE计算机视觉国际会议上,ICCV,第1869-1878页。
[10] Drummond,C.、Holte,R.C.等人(2003年)。C4.5、类别不平衡和成本敏感性:为什么欠采样胜过过采样。在学习不平衡数据集II研讨会上,Citeser,11,1-8。
[11] Feldman,V.(2020)。学习需要记忆吗?关于长尾的短篇故事。在Makarychev,K.、Makarychev,Y.、Tulsiani,M.、Kamath,G.、Chuzhoy,J.(编辑)第52届ACM SIGACT年度计算理论研讨会的进展,STOC,第954-959页·Zbl 07298301号
[12] Feldman,V.和Zhang,C.(2020年)。神经网络记住了什么以及为什么:通过影响估计发现长尾。CoRR abs/2008.03703。
[13] Goyal,P.、Dollár,P.和Girshick,r.B.、Noordhuis,P.,Wesolowski,L.、Kyrola,A.、Tulloch,A.、Jia,Y.和He,K.(2017)。准确、大批量的SGD:在1小时内训练图像网络。CoRR abs/1706.02677公司
[14] Han,H.,Wang,W.,&Mao,B.(2005)。边界距离:不平衡数据集学习中的一种新的过采样方法。智能计算进展,国际智能计算会议,ICIC会议记录,第一部分,计算机科学课堂讲稿,3644878-887。
[15] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议,CVPR,第770-778页。
[16] He,H。;Garcia,EA,从不平衡数据中学习,IEEE知识与数据工程汇刊,21,9,1263-1284(2009)·doi:10.1109/TKDE.2008.239
[17] Huang,C.,Li,Y.,Loy,C.C.,&Tang,X.(2016)。学习不平衡分类的深度表示。2016年IEEE计算机视觉和模式识别会议,CVPR,第5375-5384页。
[18] Jamal,M.A.、Brown,M.、Yang,M.,Wang,L.和Gong,B.(2020年)。从领域适应的角度重新思考基于类的长尾视觉识别方法。2020年IEEE/CVF计算机视觉和模式识别会议,CVPR,第7607-7616页。
[19] 贾普科维奇,N。;Stephen,S.,《阶级失衡问题:系统研究》,《智能数据分析》,2002年第6期,第5期,第429-449页·Zbl 1085.68628号 ·doi:10.3233/IDA-2002-6504
[20] Jiang,Z.、Zhang,C.、Talwar,K.和Mozer,M.C.(2020)。探索深度学习中的记忆-泛化连续体。CoRR abs/2002.03206
[21] Kang,B.,Xie,S.,Rohrbach,M.,Yan,Z.,Gordo,A.,Feng,J.,&Kalandis,Y.(2020年)。用于长尾识别的解耦表示和分类器。在第八届国际学习代表大会上,ICLR。
[22] Kawaguchi,K.和Lu,H.(2020年)。有序SGD:一种新的经验风险最小化随机优化框架。第23届国际人工智能和统计会议,AISTATS,第108卷,第669-679页。
[23] Kawaguchi,K.、Kaelbling,L.P.和Bengio,Y.(2017年)。深度学习中的泛化。CoRR abs/1710.05468。
[24] Lin,T.、Goyal,P.、Girshick,R.B.、He,K.和DolláR,P.(2017)。密集目标检测的焦点丢失。在IEEE国际计算机视觉会议上,ICCV,第2999-3007页。
[25] Liu,B.和Tsoumakas,G.(2018年)。使分类器链对类不平衡具有弹性。《第十届亚洲机器学习会议论文集》,ACML,PMLR,第95卷,第280-295页。
[26] Liu,Z.,Miao,Z.、Z.、Jan,X.、Wang,J.、Gong,B.和Yu,S.X.(2019年)。开放世界中的大规模长尾识别。在IEEE关于计算机视觉和模式识别的会议上,CVPR,第2537-2546页。
[27] Ma,Y.,Sun,J.,Zhou,Q.,Cheng,K.,Chen,X.,&Zhao,Y.(2018)。CHS-NET:用于有丝分裂检测的具有半焦损的级联神经网络。《第十届亚洲机器学习会议论文集》,ACML,PMLR,第95卷,第161-175页。
[28] Mohri,M.、Rostamizadeh,A.和Talwalkar,A.(2012年)。机器学习基础。自适应计算和机器学习。麻省理工学院出版社·Zbl 1318.68003号
[29] Mollaysa,A.、Kalousis,A.、Bruno,E.和Diephuis,M.(2019年)。学习使用功能副信息进行补充。第十一届亚洲机器学习会议论文集,2019年ACML 2019年11月17日至19日,日本名古屋,PMLR,第101卷,第173-187页。
[30] Ouyang,W.、Wang,X.、Zhang,C.和Yang,X..(2016)。细调用于长尾分布目标检测的深度模型的因素。2016年IEEE计算机视觉和模式识别会议,CVPR,第864-873页。
[31] 彭,J.、布,X.、孙,M.、张,Z.、谭,T.和严,J.(2020)。从不平衡的多标签中进行野外大尺度目标检测。2020年IEEE/CVF计算机视觉和模式识别会议,CVPR,第9706-9715页。
[32] Rastogi,A.(2011年)。麦克迪米德不等式。美国:斯普林格。
[33] Russakovsky,O。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;伯恩斯坦,理学硕士;Berg,AC;Li,F.,Imagenet大规模视觉识别挑战,国际计算机视觉杂志,115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[34] Tao,Y.、Takagi,K.和Nakata,K.(2018年)。RDEC:针对不平衡数据集,将正则化集成到深度嵌入聚类中。《第十届亚洲机器学习会议论文集》,ACML,PMLR,第95卷,第49-64页。
[35] Toneva,M.、Sordoni,A.、des Combes,R.T.、Trischler,A.、Bengio,Y.和Gordon,G.J.(2019年)。深度神经网络学习中样例遗忘的实证研究。在第七届国际学习代表大会上,ICLR。
[36] Wu,T.,Huang,Q.,Liu,Z.,Wang,Y.和Lin,D.(2020)。长尾数据集中多标签分类的分布平衡损失。CoRR abs/2007.09654
[37] Xiang,L.和Ding,G.(2020)。向多位专家学习:长尾分类的自定步长知识提取。CoRR abs/2001.01536
[38] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017)。理解深度学习需要重新思考泛化。在第五届国际学习代表大会上,ICLR。
[39] Zhang,C.,Ma,X.,Liu,Y.,Wang,L.,Su,Y.和Liu,Y.(2021)。样本学习和泛化的统一规则性度量。CoRR abs/2108.03913。
[40] 周,B.,崔,Q.,魏,X.,&陈,Z.(2020)。BBN:具有累积学习的双边分支网络,用于长尾视觉识别。在IEEE计算机视觉和模式识别会议上,CVPR,第9716-9725页。
[41] 周,B。;拉佩德里扎(Lapedriza),同上。;科斯拉,A。;奥利瓦,A。;Torralba,A.,《位置:用于场景识别的1000万图像数据库》,IEEE模式分析和机器智能汇刊,40,6,1452-1464(2018)·doi:10.1109/TPAMI.2017.2723009
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。