×

通过带语义纹理网格的标签传播实现半监督语义映射。 (英语) Zbl 1471.68285号

概述:场景理解是机器人在非结构化环境中的一项重要功能。虽然大多数SLAM方法都提供场景的几何表示,但语义图对于与环境进行更复杂的交互是必要的。当前的方法将语义图视为几何体的一部分,这限制了可伸缩性和准确性。我们建议将语义图表示为几何网格和以独立分辨率耦合的语义纹理。其关键思想是,在许多环境中,可以大大简化几何体,而不会丢失保真度,而语义信息可以独立于网格以更高的分辨率存储。我们从深度传感器构建一个网格来表示场景几何体,并将场景中各个RGB视图的分割信息融合到语义纹理中。使语义在全局网格中持久化使我们能够加强单个视图预测的时间和空间一致性。为此,我们提出了一种有效的方法,通过使用存储在地图中的信息迭代地重新训练语义切分,并使用重新训练的切分重新定义语义,从而在各个切分之间建立共识。我们通过从NYUv2和跨越大型建筑的场景中重建场景的语义地图,证明了我们方法的准确性和可扩展性。

MSC公司:

68T45型 机器视觉和场景理解
68单位05 计算机图形;计算几何(数字和算法方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Acuna,D.、Ling,H.、Kar,A.和Fidler,S.(2018)。使用Polygon-RNN++对分割数据集进行高效的交互式注释。《IEEE计算机视觉和模式识别会议论文集》(第859-868页)。
[2] Bao,S.Y.和Savarese,S.(2011)。动作的语义结构。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[3] Bao,S.Y.、Chandraker,M.、Lin,Y.和Savarese,S.(2013)。具有语义先验的密集对象重建。《IEEE计算机视觉和模式识别会议论文集》(第1264-1271页)。
[4] Blaha,M.、Vogel,C.、Richard,A.、Wegner,J.D.、Pock,T.和Schindler,K.(2016)。大规模语义三维重建:一种用于多类体积标记的自适应多分辨率模型。在《IEEE计算机视觉和模式识别会议论文集》(第3176-3184页)中。
[5] Castrejon,L.、Kundu,K.、Urtasun,R.和Fidler,S.(2017年)。使用Polygon-RNN注释对象实例。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[6] 陈,LC;帕潘德里欧,G。;科基诺斯,I。;墨菲,K。;Yuille,AL,DeepLab:使用深度卷积网络、反褶积和全连接CRF进行语义图像分割,IEEE模式分析和机器智能汇刊,40,4,834-848(2018)·doi:10.1109/TPAMI.2017.2699184
[7] Cherabier,I.、Häne,C.、Oswald,M.R.和Pollefeys,M.(2016)。使用体素块的多标签语义三维重建。《3D视觉国际会议论文集》(第601-610页)。
[8] Cherabier,I.、Schönberger,J.L.、Oswald,M.R.、Pollefeys,M.和Geiger,A.(2018年)。学习语义三维重建的先验知识。《欧洲计算机视觉会议论文集》。
[9] Civera,J.、Gálvez-López,D.、Riazuelo,L.、Tardós,J.D.和Montiel,J.(2011)。使用单目相机朝向语义SLAM。《IEEE/RSJ智能机器人和系统国际会议论文集》(第1277-1284页)。
[10] Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li.,K.,&Fei-Fei,L.(2009)。ImageNet:大型分层图像数据库。《IEEE计算机视觉和模式识别会议论文集》(第248-255页)。
[11] Douglas,DH;Peucker,TK,《减少表示数字化直线或其漫画所需点数的算法》,制图:国际地理信息和地理可视化杂志,10,2,112-122(1973)·doi:10.3138/FM57-6770-U75U-7727
[12] Droeschel,D.和Behnke,S.(2018年)。高效的连续时间SLAM用于基于3D激光雷达的在线地图绘制。IEEE机器人与自动化国际会议(ICRA)论文集。
[13] Eigen,D.和Fergus,R.(2015)。使用通用的多尺度卷积结构预测深度、曲面法线和语义标签。IEEE计算机视觉国际会议(ICCV)论文集(第2650-2658页)。
[14] Engel,J.、Schöps,T.和Cremers,D.(2014)。LSD-SLAM:大尺度直接单目SLAM。欧洲计算机视觉会议记录(ECCV)(第834-849页)。
[15] Garland,M.和Heckbert,P.S.(1998年)。使用二次误差度量简化具有颜色和纹理的曲面。IEEE VIS会议记录(第263-269页)。
[16] Goldman,D.和Chen,J.(2005)。渐晕和曝光校准和补偿。IEEE计算机视觉国际会议(ICCV)论文集。
[17] Häne,C.、Zach,C.、Cohen,A.、Angst,R.和Pollefeys,M.(2013)。联合三维场景重建和类分割。《IEEE计算机视觉和模式识别会议论文集》(第97-104页)。
[18] Häne,C.、Savinov,N.和Pollefeys,M.(2014)。类特定的三维对象形状优先使用曲面法线。《IEEE计算机视觉和模式识别会议论文集》(第652-659页)。
[19] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》(第770-778页)。
[20] He,K.,Gkioxari,G.,Dollár,P.,&Girshick,r.(2017年)。屏蔽R-CNN。IEEE计算机视觉国际会议(ICCV)论文集(第2980-2988页)。
[21] Hermans,A.、Floros,G.和Leibe,B.(2014年)。RGB-D图像室内场景的密集3D语义映射。《IEEE机器人与自动化国际会议论文集》(第2631-2638页)。
[22] 霍尔茨,D。;Behnke,S.,《非均匀密度三维激光扫描与微型飞行器测绘的登记》,机器人与自治系统,74318-330(2015)·doi:10.1016/j.robot.2015.07.021
[23] 荷农,A。;Wurm,KM;本内维茨,M。;斯塔奇尼斯,C。;Burgard,W.,OctoMap:基于八叉树的高效概率3D映射框架,《自治机器人》,34,3,189-206(2013)·doi:10.1007/s10514-012-9321-0
[24] Jain,S.D.和Grauman,K.(2016年)。主动图像分割传播。《IEEE计算机视觉和模式识别会议论文集》(第2864-2873页)。
[25] Kazhdan,M。;Hoppe,H.,《屏蔽泊松曲面重建》,ACM图形交易(ToG),第32、3、29页(2013年)·Zbl 1322.68228号 ·doi:10.1145/2487228.2487237
[26] 科斯塔维利斯,I。;Gasteratos,A.,《移动机器人任务的语义映射:调查》,机器人与自治系统,66,86-103(2015)·doi:10.1016/j.robot.2014.12.006
[27] Kundu,A.、Li,Y.、Dellaert,F.、Li、F.和Rehg,J.M.(2014)。单目视频的联合语义分割和三维重建。欧洲计算机视觉会议记录(ECCV)(第703-718页)。
[28] Landrieu,L.和Simonovsky,M.(2017年)。基于超点图的大尺度点云语义分割。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[29] Li,X.,&Belraussi,R.(2016)。单目SLAM的半义3D语义映射。arXiv预打印arXiv:1611.04144
[30] Lianos,K.N.、Schönberger,J.L.、Pollefeys,M.和Sattler,T.(2018年)。视觉语义里程计。《欧洲计算机视觉会议论文集》(第234-250页)。
[31] Lin,G.、Milan,A.、Shen,C.和Reid,I.(2017年)。RefineNet:用于高分辨率语义分割的多路径细化网络。《IEEE计算机视觉和模式识别会议论文集》(第5168-5177页)。
[32] Ma,L.,Stückler,J.,Kerl,C.,&Cremers,D.(2017年)。使用RGB-D相机进行一致语义映射的多视图深度学习。《IEEE/RSJ智能机器人和系统国际会议论文集》(第598-605页)。
[33] Mackowiak,R.、Lenz,P.、Ghori,O.、Diego,F.、Lange,O.和Rother,C.(2018年)。CEREALS—最有效的基于区域的语义分割主动学习。arXiv预打印arXiv:1810.09726。
[34] Maninchedda,F.、Häne,C.、Jacquet,B.、Delaunoy,A.和Pollefeys,M.(2016)。头部的语义三维重建。《欧洲计算机视觉会议论文集》(第667-683页)。
[35] McCormac,J.、Handa,A.、Davison,A.和Leutenegger,S.(2017)。语义融合:使用卷积神经网络进行密集的3D语义映射。IEEE机器人与自动化国际会议(ICRA)论文集(第4628-4635页)。
[36] Nakajima,Y.、Tateno,K.、Tombari,F.和Saito,H.(2018年)。通过基于几何的增量分割快速准确地进行语义映射。arXiv预打印arXiv:1803.02784。
[37] Neuhold,G.、Ollmann,T.、Bulo,S.R.和Kontschieder,P.(2017年)。用于街道场景语义理解的Mapillary Vistas数据集。IEEE计算机视觉国际会议(ICCV)论文集(第5000-5009页)。
[38] Qi,C.R.,Su,H.,Mo,K.,&Guibas,L.J.(2017a)。PointNet:针对3D分类和分割的点集进行深入学习。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[39] Qi,C.R.,Yi,L.,Su,H.,&Guibas,L.J.(2017b)。PointNet++:对度量空间中的点集进行深度分层特征学习。《神经信息处理系统进展》(第5099-5108页)。
[40] Quigley,M.、Conley,K.、Gerkey,B.、Faust,J.、Foote,T.、Leibs,J.,Wheeler,R.和Ng,A.Y.(2009年)。ROS:一个开源的机器人操作系统。在ICRA开源软件研讨会上。
[41] Riegler,G.、Ulusoy,A.O.和Geiger,A.(2017年)。OctNet:学习高分辨率的深度3D表示。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[42] Ros,G.、Sellart,L.、Materzynska,J.、Vazquez,D.和Lopez,A.M.(2016)。SYNTHIA数据集:用于城市场景语义分割的大量合成图像集合。《IEEE计算机视觉和模式识别会议论文集》(第3234-3243页)。
[43] Savinov,N.、Häne,C.、Ladicky,L.和Pollefeys,M.(2016)。使用可见性一致性约束的连续正则化和射线势的语义三维重建。《IEEE计算机视觉和模式识别会议论文集》(第5460-5469页)。
[44] Schönberger,J.L.、Pollefeys,M.、Geiger,A.和Sattler,T.(2018年)。语义视觉定位。CVPR公司。
[45] Sheikh,R.、Garbade,M.和Gall,J.(2016)。基于标签传播的实时语义分割。《欧洲计算机视觉会议论文集》(第3-14页)。
[46] Silberman,N.、Hoiem,D.、Kohli,P.和Fergus,R.(2012年)。室内分割和支持RGBD图像的推断。《欧洲计算机视觉会议论文集》(第746-760页)。
[47] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv预打印arXiv:1409.1556
[48] Stueckler,J.、Waldvogel,B.、Schulz,H.和Behnke,S.(2014)。RGB-D视频中对象类语义的密集实时映射。实时图像处理杂志(JRTIP),10,599-609
[49] Su,H.,Jampani,V.,Deqing,S.S.,Maji,E.,Yang,M.H.,Kautz,J.等人(2018)。SPLATNet:用于点云处理的稀疏晶格网络。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[50] Sun,L。;严,Z。;扎加尼迪斯,A。;赵,C。;Duckett,T.,Recurrent-OctoMap:使用3D-lidar数据学习基于状态的地图细化,IEEE Robotics and Automation Letters,3,4,3749-3756(2018)·doi:10.1109/LRA.2018.2856268
[51] Tatarchenko,M.、Park,J.、Koltun,V.和Zhou,Q.Y.(2018年)。用于三维密集预测的切线卷积。《IEEE计算机视觉和模式识别会议论文集》(第3887-3896页)。
[52] Tateno,K.、Tombari,F.、Laina,I.和Navab,N.(2017年)。CNN-SLAM:具有学习深度预测的实时密集单目SLAM。arXiv预打印arXiv:1704.03489。
[53] 杜尔纳,G。;加利福尼亚州Wüthrich,从多边形面计算顶点法线,图形工具杂志,3,1,43-46(1998)·Zbl 0927.68103号 ·doi:10.1080/10867651.1998.10487487
[54] Tulsiani,S.、Zhou,T.、Efros,A.A.和Malik,J.(2017)。通过可微分射线一致性对单视图重建进行多视图监督。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[55] Valentin,J.P.、Sengupta,S.、Warrell,J.、Shahrokini,A.和Torr,P.H.(2013)。室内和室外场景的基于网格的语义建模。《IEEE计算机视觉和模式识别会议论文集》(第2067-2074页)。
[56] Vezhnevets,A.、Buhmann,J.M.和Ferrari,V.(2012)。针对预期变化的语义分割的主动学习。《IEEE计算机视觉和模式识别会议论文集》(第3162-3169页)。
[57] Vineet,V.、Miksik,O.、Lidegaard,M.、Nießner,M.,Golodetz,S.、Prisacariu,V.A.、Kähler,O.,Murray,D.W.、Izadi,S.和Pérez,P.等人(2015)。用于大规模语义场景重建的增量密集语义立体融合。IEEE机器人与自动化国际会议(ICRA)论文集(第75-82页)。
[58] Whelan,T.、Leutenegger,S.、Salas Moreno,R.、Glocker,B.和Davison,A.(2015)。ElasticFusion:没有姿势图的密集SLAM。《机器人学学报:科学与系统》。
[59] Xie,S.、Girshick,R.、DolláR,P.、Tu,Z.和He,K.(2017)。深度神经网络的聚合残差变换。《IEEE计算机视觉和模式识别会议论文集》(第5987-5995页)。
[60] Yang,L.,Zhang,Y.,Chen,J.,Zheng,S.,&Chen,D.Z.(2017)。建议性注释:用于生物医学图像分割的深度主动学习框架。在医学图像计算和计算机辅助干预国际会议上(第399-407页)。
[61] 扎加尼迪斯,A。;Sun,L。;Duckett,T。;Cielniak,G.,《将深层语义分割集成到3D点云注册中》,IEEE Robotics and Automation Letters,3,4,2942-2949(2018)·doi:10.1109/LRA.2018.2848308
[62] Zollhöfer,M.、Stotko,P.、Görlitz,A.、Theobalt,C.、Nießner,M.、Klein,R.和Kolb,A.(2018)。使用RGB-D相机进行3D重建的最新技术。在计算机图形论坛(第625-652页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。