×

多模态语义分割的自监督模型自适应。 (英语) Zbl 1471.68286号

小结:学会可靠地感知和理解场景是机器人在现实世界中操作的不可或缺的因素。由于存在多种对象类型以及由不同的照明和天气条件引起的外观变化,因此该问题具有内在的挑战性。利用互补模式可以学习语义更丰富的表示,这些表示对这种扰动具有弹性。尽管近年来取得了巨大的进展,但大多数多模态卷积神经网络方法直接将单个模态流的特征映射串联起来,使得模型无法只关注相关的互补信息进行融合。为了解决这一局限性,我们提出了一个多模态语义分割框架,该框架动态适应模态特定特征的融合,同时以自我监督的方式对对象类别、空间位置和场景上下文敏感。具体而言,我们提出了一种由两个特定于模型的编码器流组成的体系结构,使用我们提出的自监督模型自适应融合机制,将中间编码器表示融合到单个解码器中,该机制将互补特征进行了最佳组合。由于中间表示不跨模式对齐,因此我们引入了一个注意方案以获得更好的相关性。此外,我们提出了一种计算效率高的单峰分割体系结构,称为AdapNet++,它包括一个带有多尺度残差单元的新编码器和一个有效的atrous空间金字塔池,该空间金字塔池具有更大的有效感受野和更少的参数,辅以强大的解码器和多分辨率监控方案,可恢复高分辨率细节。对城市景观、Synthia、SUN RGB-D、,ScanNet和Freiburg Forest的基准测试表明,我们的单模态和多模态架构都实现了最先进的性能,同时在参数和推理时间方面也很高效,并且在不利的感知条件下表现出了相当的鲁棒性。

MSC公司:

68T45型 机器视觉和场景理解
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abadi,M.、Agarwal,A.、Barham,P.、Brevdo,E.、Chen,Z.、Citro,C.等人(2015)。TensorFlow:异构系统上的大规模机器学习。软件可从tensorflow.org获得。
[2] Anwar,S。;Hwang,K。;Sung,W.,深度卷积神经网络的结构化修剪,美国计算机学会计算系统新兴技术期刊(JETC),13,3,32(2017)
[3] 奥德伯特,N。;勒索,B。;Lefèvre,S.,Beyond rgb:具有多模式深网络的超高分辨率城市遥感,ISPRS摄影测量与遥感杂志,140,20-32(2018)·doi:10.1016/j.isprsjprs.2017.11.011
[4] Badrinarayanan,V.、Kendall,A.和Cipolla,R.(2015)。Segnet:用于图像分割的深度卷积编码器-解码器架构。arXiv预打印arXiv:1511.00561。
[5] Boniardi,F.、Valada,A.、Mohan,R.、Caselitz,T.和Burgard,W.(2019年)。使用房间布局边缘提取网络在平面图中定位机器人。arXiv预打印arXiv:1903.01804。
[6] Brostow,G.J.、Shotton,J.、Fauqueur,J.和Cipolla,R.(2008)。使用运动点云的结构进行分割和识别。D.Forsyth、P.Torr和A.Zisserman(编辑),《欧洲计算机视觉会议论文集》。
[7] Buló,S.R.、Porzi,L.和Kontschieder,P.(2018年)。用于dnn记忆优化训练的就地激活批处理规范。计算机视觉和模式识别会议论文集。
[8] Chattopadhyay,A.、Sarkar,A.、Howlader,P.和Balasubramanian,V.N.(2017年)。Grad-cam++:深度卷积网络的基于广义梯度的可视化解释。arXiv预打印arXiv:1710.11063。
[9] Chen,L.、Papandreou,G.、Kokkinos,I.、Murphy,K.和Yuille,A.L.(2016)。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crf进行语义图像分割。arxiv预打印arxiv:1606.00915。
[10] Chen,L.C.、Collins,M.、Zhu,Y.、Papandreou,G.、Zoph,B.、Schroff,F.、Adam,H.和Shlens,J.(2018a)。搜索高效的多尺度结构以进行密集图像预测。《神经信息处理系统进展》(第8713-8724页)。
[11] Chen,L.C.、Papandreou,G.、Schroff,F.和Adam,H.(2017)。重新思考用于语义图像分割的阿特鲁斯卷积。arXiv预打印arXiv:1706.05587。
[12] Chen,L.C.、Zhu,Y.、Papandreou,G.、Schroff,F.和Adam,H.(2018b)。用于语义图像分割的带可分离卷积的编码器-解码器。arXiv预打印arXiv:1802.02611。
[13] Cholet,F.(2016)。Xception:利用深度可分离卷积进行深度学习。arXiv预打印arXiv:1610.02357。
[14] 西希,RM;潘塔齐斯,D。;Oliva,A.,基于相似性的meg和fmri融合揭示了视觉对象识别过程中人类大脑皮层的时空动力学,《大脑皮层》,26,8,3563-579(2016)·doi:10.1093/cercor/bhw135
[15] Cordts,M.、Omran,M.,Ramos,S.、Rehfeld,T.、Enzweiler,M.和Benenson,R.等人(2016)。用于语义城市场景理解的城市景观数据集。在计算机视觉和模式识别会议论文集上。
[16] Couprie,C.、Farabet,C.、Najman,L.和LeCun,Y.(2013年)。使用深度信息的室内语义分割。arXiv预印本arXiv:1301.3572。
[17] Dai,A.、Chang,A.X.、Savva,M.、Halber,M.,Funkhouser,T.和Nießner,M.(2017)。Scannet:丰富的室内场景三维重建。计算机视觉和模式识别会议论文集。
[18] Dai,A.和Nießner,M.(2018)。3dmv:用于三维语义场景分割的联合三维多视图预测。arXiv预打印arXiv:1803.10409。
[19] Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li.,K.,&Fei-Fei,L.(2009)。Imagenet:大规模分层图像数据库。计算机视觉和模式识别会议论文集。
[20] Eitel,A.、Springenberg,J.T.、Spinello,L.、Riedmiller,M.A.和Burgard,W.(2015)。用于鲁棒rgb-d对象识别的多模式深度学习。IEEE/RSJ智能机器人和系统国际会议论文集。
[21] Everingham,M。;南非埃斯拉米;Van Gool,L。;威廉姆斯,CK;Winn,J。;Zisserman,A.,《pascal视觉对象类挑战:回顾》,《国际计算机视觉杂志》,111,1,98-136(2015)·doi:10.1007/s11263-014-0733-5
[22] Farabet,C.、Couprie,C.、Najman,L.和LeCun,Y.(2012年)。使用多尺度特征学习、纯度树和最佳覆盖进行场景解析。机器学习国际会议论文集。
[23] 费菲,L。;科赫,C。;艾耶,A。;佩罗纳,P.,当我们浏览一个场景时,我们会看到什么?,《视觉杂志》,4,8,863-863(2004)·数字对象标识代码:10.1167/4.8863
[24] Fulkerson,B.、Vedaldi,A.和Soatto,S.(2009年)。使用超像素邻域进行类分割和对象定位。计算机视觉国际会议论文集。
[25] Ghiasi,G.和Fowlkes,C.C.(2016)。用于语义分割的拉普拉斯金字塔重建和细化。在欧洲计算机视觉会议上(第519-534页)。
[26] Grangier,D.、Bottou,L.和Collobert,R.(2009年)。用于场景解析的深度卷积网络。在ICML深度学习研讨会上。
[27] Gupta,S.、Girshick,R.、Arbeláez,P.和Malik,J.(2014)。从rgb-d图像中学习丰富的特征以进行目标检测和分割。欧洲计算机视觉会议论文集。
[28] Hazirbas,C.、Ma,L.、Domokos,C.和Cremers,D.(2016年)。Fusenet:通过基于融合的cnn架构将深度纳入语义分割。《亚洲计算机视觉会议论文集》。
[29] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015a)。用于图像识别的深度残差学习。计算机视觉和模式识别会议论文集。
[30] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015b)。深入研究整流器:在图像网络分类方面超越人类水平的性能。计算机视觉国际会议论文集。
[31] He,K。;张,X。;任,S。;Sun,J.,用于视觉识别的深度卷积网络中的空间金字塔池,IEEE模式分析和机器智能汇刊,37,91904-1916(2015)·doi:10.1109/TPAMI.2015.2389824
[32] He,K.,Zhang,X.,Ren,S.,Sun,J.(2016)。深度残差网络中的身份映射。《欧洲计算机视觉会议记录》(第630-645页)。
[33] Hermans,A.、Floros,G.和Leibe,B.(2014年)。从rgb-d图像中对室内场景进行密集的三维语义映射。IEEE机器人与自动化国际会议论文集。
[34] Hu,J.,Shen,L.,&Sun,G.(2017)。挤压和励磁网络。arXiv预印arXiv:1709.01507。
[35] Hu,J.,Shen,L.,&Sun,G.(2018年)。挤压和励磁网络。《计算机视觉和模式识别会议记录》(第7132-7141页)。
[36] Huete,A。;正义,C。;Van Leeuwen,W.,Modis植被指数(mod13),算法理论基础文件,3213(1999)
[37] Janoch,A.、Karayev,S.、Jia,Y.、Barron,J.T.、Fritz,M.、Saenko,K.等人(2013)。类别级三维对象数据集:使用kinect。IEEE计算机视觉消费者深度相机国际会议论文集(第141-165页)。
[38] Kim,D.K.、Maturana,D.、Uenoyama,M.和Scherer,S.(2017年)。具有深度多模式网络的季节性非变异语义分割。现场和服务机器人。
[39] 科尔里,P。;Torr,PH,《增强标签一致性的鲁棒高阶势》,《国际计算机视觉杂志》,82,3,302-324(2009)·doi:10.1007/s11263-008-0202-0
[40] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》(第1097-1105页)。
[41] Ku,J.、Harakeh,A.和Waslander,S.L.(2018年)。为保护经典图像处理:在cpu上快速完成深度。arXiv预打印arXiv:1802.00036。
[42] LeCun,Y.、Denker,J.S.和Solla,S.A.(1990年)。最佳脑损伤。《神经信息处理系统进展》(第598-605页)。
[43] Lee,C.Y.,Xie,S.,Gallagher,P.,Zhang,Z.,&Tu,Z.(2015)。深度监管网络。《人工智能与统计》(第562-570页)。
[44] Li,H.、Kadav,A.、Durdanovic,I.、Samet,H.和Graf,H.P.(2016)。修剪过滤器以实现高效转换。arXiv预打印arXiv:1608.08710
[45] Li,Z.、Gan,Y.、Liang,X.、Yu,Y.、Cheng,H.和Lin,L.(2016)。Lstm-cf:将上下文建模和融合与lstms统一用于rgb-d场景标记。欧洲计算机视觉会议论文集。
[46] Liang Chieh,C.、Papandreou,G.、Kokkinos,I.、Murphy,K.和Yuille,A.(2015)。使用深度卷积网络和完全连接的crf进行语义图像分割。在学习代表国际会议上。
[47] Lin,G.、Milan,A.、Shen,C.和Reid,I.D.(2017年)。细化网络:用于高分辨率语义分割的多路径细化网络。在计算机视觉和模式识别会议论文集上。
[48] Lin,M.、Chen,Q.和Yan,S.(2013)。网络中的网络。arXiv预打印arXiv:1312.4400。
[49] Liu,W.、Rabinovich,A.和Berg,A.C.(2015)。帕森特:看得更宽,看得更清楚。arXiv预打印arXiv:1506.04579。
[50] Liu,Z.、Li,J.、Shen,Z.,Huang,G.、Yan,S.和Zhang,C.(2017)。通过网络精简学习有效的卷积网络。计算机视觉国际会议论文集。
[51] Long,J.、Shelhamer,E.和Darrell,T.(2015)。语义分割的完全卷积网络。计算机视觉和模式识别会议论文集。
[52] Molchanov,P.、Tyree,S.、Karras,T.、Aila,T.和Kautz,J.(2017)。修剪卷积神经网络以实现资源高效的推理。学习代表国际会议记录。
[53] Munoz,D.、Bagnell,J.A.和Hebert,M.(2012年)。多模式场景分析的协同参考。欧洲计算机视觉会议论文集。
[54] Noh,H.、Araujo,A.、Sim,J.、Weyand,T.和Han,B.(2017年)。具有关注的深层局部特征的大规模图像检索。IEEE计算机视觉国际会议论文集(第3456-3465页)。
[55] Noh,H.、Hong,S.和Han,B.(2015)。用于语义分割的学习反卷积网络。《计算机视觉国际会议论文集》(第1520-1528页)。
[56] Oliveira,G.、Valada,A.、Bollen,C.、Burgard,W.和Brox,T.(2016)。深入学习在图像中发现人体部位。IEEE机器人与自动化国际会议论文集。
[57] Paszke,A.、Chaurasia,A.、Kim,S.和Culurciello,E.(2016)。Enet:用于实时语义分割的深度神经网络架构。arXiv预打印arXiv:1606.02147。
[58] Pinheiro,P.O.和Collobert,R.(2014)。用于场景标记的递归卷积神经网络。机器学习国际会议论文集。
[59] Plath,N.、Toussaint,M.和Nakajima,S.(2009年)。使用条件随机场和全局分类的多类图像分割。机器学习国际会议论文集。
[60] Qi,X.、Liao,R.、Jia,J.、Fidler,S.和Urtasun,R..(2017)。用于rgbd语义分割的三维图形神经网络。IEEE计算机视觉和模式识别会议记录(第5199-5208页)。
[61] Radwan,N.、Valada,A.和Burgard,W.(2018a)。用于自动过街的多模式交互软件运动预测。arXiv预印本arXiv:1808.06887。
[62] Radwan,N。;瓦拉达,A。;Burgard,W.,Vlocnet++:用于语义视觉定位和里程计的深度多任务学习,IEEE机器人与自动化快报(RA-L),3,4407-4414(2018)·doi:10.1109/LRA.2018.2869640
[63] Ren,X.、Bo,L.和Fox,D.(2012年)。Rgb-(d)场景标记:功能和算法。计算机视觉和模式识别会议论文集。
[64] 罗梅拉,E。;阿瓦雷斯,JM;贝尔加萨,LM;Arroyo,R.,Erfnet:用于实时语义分割的高效残差分解convnet,IEEE智能交通系统汇刊,19,1,263-272(2018)·doi:10.1109/TITS.2017.2750080
[65] Ronneberger,O.、Fischer,P.和Brox,T.(2015)。U-net:生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上(第234-241页)。
[66] Ros,G.、Sellart,L.、Materzynska,J.、Vazquez,D.和Lopez,A.M.(2016)。SYNTHIA数据集:用于城市场景语义分割的大量合成图像集合。计算机视觉和模式识别会议论文集。
[67] Running,S.W.、Nemani,R.、Glassy,J.M.和Thornton,P.E.(1999)。Modis日光合作用(psn)和年净初级生产力(npp)产品(mod17)算法理论基础文件。蒙大拿大学SCF At-Launch算法ATBD文档。
[68] Sandler,M.、Howard,A.、Zhu,M.,Zhmoginov,A.和Chen,L.C.(2018年)。Mobilenetv2:反转残差和线性瓶颈。《计算机视觉和模式识别会议记录》(第4510-4520页)。
[69] 施耐德,L。;Jasch,M。;Fröhlich,B。;韦伯,T。;Franke,美国。;Pollefeys,M。;Sharma,P。;Bianchi,FM,多模态神经网络:用于语义分割和对象检测的Rgb-d,图像分析,98-109(2017),Cham:Springer,Cham
[70] Shotton,J.、Johnson,M.和Cipolla,R.(2008)。用于图像分类和分割的语义文本森林。计算机视觉和模式识别会议论文集。
[71] Silberman,N.、Hoiem,D.、Kohli,P.和Fergus,R.(2012年)。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议论文集。
[72] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556。
[73] Song,S.、Lichtenberg,S.P.和Xiao,J.(2015)。Sun rgb-d:一个rgb-d场景理解基准套件。在计算机视觉和模式识别会议论文集(第5卷,第6页)。
[74] Sturgess,P.、Alahari,K.、Ladicky,L.和Torr,P.H.S.(2009)。结合运动特征的外观和结构,以了解道路场景。英国机器视觉会议论文集。
[75] 瓦拉达·A、达尔·A和伯加德·W(2016a)。复杂的深层专家组合,用于稳健的语义分割。在IEEE/RSJ国际智能机器人和系统会议(IROS)研讨会上,全地形移动机器人的状态估计和地形感知。
[76] Valada,A.、Oliveira,G.、Brox,T.和Burgard,W.(2016b)。使用多模式融合对森林环境进行深度多光谱语义场景理解。实验机器人国际研讨会论文集。
[77] Valada,A.、Oliveira,G.、Brox,T.和Burgard,W.(2016c)。使用深度融合实现稳健的语义分割。在机器人:科学与系统(RSS 2016)研讨会上,怀疑者是对的吗?机器人深度学习的局限性和潜力。
[78] 瓦拉达·A、维登斯·J、达尔·A和伯加德·W(2017)。Adapnet:不利环境条件下的自适应语义分割。IEEE机器人与自动化国际会议论文集。
[79] Wen,W.,Wu,C.,Wang,Y.,Chen,Y.和Li,H.(2016)。深度神经网络中的结构化稀疏性学习。《神经信息处理系统进展》(第2074-2082页)。
[80] Xiang,Y.和Fox,D.(2017)。Da-rnn:与数据相关的递归神经网络的语义映射。arXiv预打印arXiv:1703.03098。
[81] Xiao,J.、Owens,A.和Torralba,A.(2013)。Sun3d:使用sfm和对象标签重建的大空间数据库。计算机视觉国际会议论文集。
[82] Xie,S.、Girshick,R.、DolláR,P.、Tu,Z.和He,K.(2017)。深度神经网络的聚合残差变换。《计算机视觉和模式识别会议记录》(第5987-5995页)。
[83] Yang,M.,Yu,K.,Zhang,C.,Li,Z.,&Yang,K.(2018)。Denseaspp用于街道场景中的语义分割。《计算机视觉和模式识别会议记录》(第3684-3692页)。
[84] Yu,F.和Koltun,V.(2016)。通过扩展卷积进行多尺度上下文聚合。在学习代表国际会议上。
[85] Zhang,C.,Wang,L.,&Yang,R.(2010)。使用密集深度图对城市场景进行语义分割。K.Danilidis、P.Maragos和N.Paragios(编辑),《欧洲计算机视觉会议论文集》。
[86] Zhao,H.、Shi,J.、Qi,X.、Wang,X.和Jia,J.(2017)。金字塔场景解析网络。计算机视觉和模式识别会议论文集。
[87] Zhou,B.、Khosla,A.、Lapedriza,A.、Oliva,A.和Torralba,A.(2014)。目标探测器出现在深场景cnns中。arXiv预打印arXiv:1412.6856。
[88] 庄毅、杨凤、陶磊、马灿、张哲、李毅等(2018)。密集关系网络:学习语义图像分割的一致和上下文表示。2018年第25届IEEE图像处理国际会议(ICIP)(第3698-3702页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。