×

全卷积开集分割。 (英语) Zbl 07702718号

总结:在传统的语义分割中,了解所有现有的类对于使用大多数现有方法获得有效的结果至关重要。然而,当在测试阶段发现新类时,在封闭类集中训练的这些方法会失败,无法识别是否已输入了未看到的类。这意味着它们不适用于开放集场景,而开放集场景在现实世界的计算机视觉和遥感应用中非常常见。在本文中,我们讨论了闭集分割的局限性,并提出了两种有效解决开放集语义分割的完全卷积方法:OpenFCN和OpenPCS。OpenFCN基于众所周知的OpenMax算法,在分段设置中配置了此方法的新应用程序。OpenPCS是一种全新的方法,它基于DNN激活的特征空间,作为在低维空间中计算PCA和多元高斯似然的特征。除了OpenPCS之外,为了减少该方法对RAM内存的要求,我们还提出了对该方法(OpenIPCS)的一个小小的改进,该方法使用PCA的迭代版本,能够在小批量中进行训练。实验在著名的ISPRS Vaihingen/Potsdam和2018 IEEE GRSS数据融合挑战数据集上进行。与更简单、更省时的SoftMax阈值相比,OpenFCN几乎没有任何改进,但速度较慢了几个数量级。OpenPCS通过克服OpenFCN和SoftMax阈值,在几乎所有实验中都取得了令人满意的结果。OpenPCS也是极快SoftMax阈值和极慢OpenFCN运行时性能之间的合理折衷,能够接近实时运行。实验还表明,OpenPCS是有效的、健壮的,适合于开放集分割,能够在不降低已知类像素精度的情况下提高未知类像素的识别率。我们还测试了隐藏多个已知类以模拟多模式未知的场景,这导致OpenPCS/OpenIPCS与SoftMax阈值和OpenFCN之间的差距更大,这意味着高斯建模对更开放的设置更为稳健。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Attias,H.(2000)。图形模型的变分baysian框架。《神经信息处理系统进展》(第209-215页)。
[2] Audebert,N.、Le Saux,B.和Lefèvre,S.(2016)。使用多模式和多尺度深层网络对地球观测数据进行语义分割。在亚洲计算机视觉会议上(第180-196页)。斯普林格。
[3] Azimi,S.M.、Henry,C.、Sommer,L.、Schumann,A.和Vig,E.(2019年)。天景对空中场景的细粒度语义理解。在ICCV中(第7393-7403页)。
[4] Bendale,A.和Boult,T.E.(2016)。走向开放式深层网络。IEEE计算机视觉和模式识别会议记录(第1563-1572页)。
[5] Bishop,CM,模式识别和机器学习(2006),柏林:Springer,柏林·Zbl 1107.68072号
[6] 卡多佐,DO;贾马,J。;França,FM,用于开集识别的加权神经网络,机器学习,106,9-10,1547-1567(2017)·Zbl 1460.62158号 ·doi:10.1007/s10994-017-5646-4
[7] Cordts,M.、Omran,M.,Ramos,S.、Rehfeld,T.、Enzweiler,M.和Benenson,R.、Franke,U.、Roth,S.和Schiele,B.(2016)。用于语义城市场景理解的城市景观数据集。《IEEE计算机视觉和模式识别会议记录》(第3213-3223页)。
[8] da Silva,C.C.V.、Nogueira,K.、Oliveira,H.N.和dos Santos,J.A.(2020年)。航空图像的开放集语义分割。arXiv:200110063。
[9] Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li.,K.,&Fei-Fei,L.(2009)。Imagenet:大规模分层图像数据库。2009年IEEE计算机视觉和模式识别会议(第248-255页)。伊耶。
[10] Everingham,M。;南非埃斯拉米;Van Gool,L。;威廉姆斯,CK;Winn,J。;Zisserman,A.,《pascal视觉对象类挑战:回顾》,《国际计算机视觉杂志》,111,1,98-136(2015)·doi:10.1007/s11263-014-0733-5
[11] Farabet,C。;库普里,C。;纳杰曼,L。;LeCun,Y.,学习场景标记的层次特征,IEEE模式分析和机器智能汇刊,35,81915-1929(2012)·doi:10.1109/TPAMI.2012.231
[12] Ge,Z.、Demyanov,S.、Chen,Z.和Garnavi,R.(2017)。多类开集分类的生成openmax。在英国机器视觉会议上。
[13] Geng,C.、Huang,S.J.和Chen,S.(2020年)。开放集识别的最新进展:一项调查。IEEE模式分析和机器智能汇刊(早期访问)。
[14] Goodfellow,I.J.、Shlens,J.和Szegedy,C.(2014)。解释和利用对抗性示例。arXiv:1412.6572。
[15] Guiotte,F.、Pham,M.、Dambreville,R.、Corpetti,T.和Lefèvre,S.(2020)。łd点云的语义分割:数字高程模型之外的光栅化。IEEE地球科学与遥感快报,第1-4页。
[16] He,K.,Gkioxari,G.,Dollár,P.,&Girshick,r.(2017年)。遮罩r-cnn。《IEEE计算机视觉国际会议论文集》(第2961-2969页)。
[17] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》(第770-778页)。
[18] Hendrycks,D.、Mazeika,M.和Dietterich,T.(2019年)。具有异常暴露的深度异常检测。在国际学习代表大会上,sarXiv:1812.04606。
[19] Huang,G.,Liu,Z.,Van Der Maaten,L.,&Weinberger,K.Q.(2017)。紧密连接的卷积网络。《IEEE计算机视觉和模式识别会议论文集》(第4700-4708页)。
[20] Kemker,R.、Salvaggio,C.和Kanan,C.(2018年)。基于深度学习的多光谱遥感图像语义分割算法。ISPRS摄影测量和遥感杂志,145,60-77。深度学习RS数据。
[21] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv:1412.6980。
[22] Krizhevsky,A.、Hinton,G.等人(2009年)。从微小图像中学习多层特征。技术报告。网址:https://www.cs.toronto.edu/kriz/learning-features-2009-TR.pdf。
[23] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》(第1097-1105页)。
[24] 乐村,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[25] 李,F。;Wechsler,H.,使用转导的开放集人脸识别,IEEE模式分析和机器智能汇刊,27,11,1686-1697(2005)·doi:10.1109/TPAMI.2005.224
[26] Liang,S.,Li,Y.,&Srikant,R.(2017)。增强神经网络中分布外图像检测的可靠性。arXiv:1706.02690。
[27] Lin,T.Y.、Maire,M.、Belongie,S.、Hays,J.、Perona,P.、Ramanan,D.、Dollár,P.和Zitnick,C.L.(2014)。Microsoft coco:上下文中的通用对象。在欧洲计算机视觉会议上(第740-755页)。斯普林格。
[28] Long,J.、Shelhamer,E.和Darrell,T.(2015)。用于语义分割的全卷积网络。《IEEE计算机视觉和模式识别会议论文集》(第3431-3440页)。
[29] Maggiori,E。;塔拉巴尔卡,Y。;夏皮亚特,G。;Alliez,P.,用卷积神经网络标记高分辨率航空图像,IEEE地球科学与遥感汇刊,55,12,7092-7103(2017)·doi:10.1109/TGRS.2017.2740362
[30] Marmanis,D。;辛德勒,K。;韦格纳,JD;加利亚尼,S。;达特库,M。;Stilla,U.,《带边缘的分类:用边界检测改进语义图像分割》,ISPRS摄影测量与遥感杂志,135,158-172(2018)·doi:10.1016/j.isprsjprs.2017.11.009
[31] Nogueira,K.、Dalla Mura,M.、Chanussot,J.、Schwartz,W.R.和dos Santos,J.A.(2016)。学习语义分割高分辨率遥感图像。2016年第23届模式识别国际会议(ICPR)(第3566-3571页)。电气与电子工程师协会。
[32] Nogueira,K。;Dalla Mura,M。;查努索特,J。;WR施瓦茨;dos Santos,JA,基于卷积网络的遥感图像动态多上下文分割,IEEE地球科学与遥感汇刊,57,10,7503-7520(2019)·doi:10.1109/TGRS.2019.2913861
[33] Oza,P.和Patel,V.M.(2019年)。C2ae:用于开放集识别的类条件自动编码器。《IEEE计算机视觉和模式识别会议记录》(第2307-2316页)。
[34] Pinheiro,P.H.和Collobert,R.(2014)。用于场景标记的递归卷积神经网络。在第31届国际机器学习会议(ICML)上,CONF。
[35] Ren,S.、He,K.、Girshick,R.和Sun,J.(2015)。更快的r-cnn:使用区域建议网络实现实时对象检测。《神经信息处理系统进展》(第91-99页)。
[36] Richter,S.R.、Vineet,V.、Roth,S.和Koltun,V.(2016)。数据游戏:从电脑游戏中挖掘真相。在欧洲计算机视觉会议上(第102-118页)。斯普林格。
[37] Ros,G.、Sellart,L.、Materzynska,J.、Vazquez,D.和Lopez,A.M.(2016)。synthia数据集:用于城市场景语义分割的大量合成图像集合。《IEEE计算机视觉和模式识别会议记录》(第3234-3243页)。
[38] 谢尔,WJ;Jain,有限合伙人;Boult,TE,开放集识别的概率模型,IEEE模式分析和机器智能汇刊,36,11,2317-2324(2014)·doi:10.1109/TPAMI.2014.2321392
[39] 谢尔,WJ;de Rezende Rocha,A。;萨科塔,A。;Boult,TE,Toward open set recognition,IEEE Transactions on Pattern Analysis and Machine Intelligence,走向开放集识别,IEEE模式分析和机器智能汇刊,35,7,1757-1772(2012)·doi:10.1109/TPAMI.2012.256
[40] Schölkopf,B。;普拉特,JC;肖-泰勒,J。;斯莫拉,AJ;Williamson,RC,估计高维分布的支持,神经计算,13,7,1443-1471(2001)·兹比尔1009.62029 ·doi:10.1162/089976601750264965
[41] Sherrah,J.(2016)。用于高分辨率航空图像密集语义标记的完全卷积网络。arXiv:1606.02585。
[42] Shwartz-Ziv,R.和Tishby,N.(2017年)。通过信息打开深层神经网络的黑盒。arXiv:1703.00810。
[43] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv:1409.1556。
[44] Srivastava,R.K.、Greff,K.和Schmidhuber,J.(2015)。公路网。arXiv:1505.00387。
[45] Sun,X.、Yang,Z.、Zhang,C.、Peng,G.和Ling,K.V.(2020年)。用于开集识别的条件高斯分布学习。arXiv:2003.08823。
[46] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.、Erhan,D.、Vanhoucke,V.和Rabinovich,A.(2015)。用卷积深入。在IEEE计算机视觉和模式识别会议论文集(第1-9页)。
[47] 小费,ME;Bishop,CM,概率主成分分析仪的混合,神经计算,11,2,443-482(1999)·doi:10.1162/0899766999300016728
[48] Wang,H。;Wang,Y。;张,Q。;项,S。;Pan,C.,用于高分辨率图像语义分割的门限卷积神经网络,遥感,9,5,446(2017)·doi:10.3390/rs9050446
[49] Waqas Zamir,S.、Arora,A.、Gupta,A.、Khan,S.,Sun,G.、Shahbaz Khan,F.、Zhu,F.,Shao,L.、Xia,G.S.和Bai,X.(2019年)。isaid:航空图像中用于实例分割的大规模数据集。IEEE计算机视觉和模式识别研讨会会议记录(第28-37页)。
[50] Xia,G.S.、Bai,X.、Ding,J.、Zhu,Z.、Belongie,S.、Luo,J.、Datcu,M.、Pelillo,M.和Zhang,L.(2018)。Dota:用于航空图像中目标检测的大规模数据集。在IEEE计算机视觉和模式识别会议(CVPR)上。
[51] Xie,S.、Girshick,R.、DolláR,P.、Tu,Z.和He,K.(2017)。深度神经网络的聚合残差变换。《IEEE计算机视觉和模式识别会议论文集》(第1492-1500页)。
[52] Yoshihashi,R.、Shao,W.、Kawakami,R..、You,S.、Iida,M.和Naemura,T.(2019年)。分类-用于开放集识别的重构学习。IEEE计算机视觉和模式识别会议记录(第4016-4025页)。
[53] Yu,F.、Seff,A.、Zhang,Y.、Song,S.、Funkhouser,T.和Xiao,J.(2015)。Lsun:利用深度学习构建大规模图像数据集,让人类参与其中。arXiv:1506.03365。
[54] Zagoruyko,S.和Komodakis,N.(2016年)。广泛的残余网络。arXiv:1605.07146。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。