×

通过实例嵌入学习三维语义场景图。 (英语) Zbl 1491.68250号

摘要:3D场景不仅仅是它所包含的几何体和对象的类。对象级感知之外的一个重要方面是场景上下文,描述为互连节点的密集语义网络。场景图已经成为编码图像语义丰富性的一种常见表示,其中图中的节点是由边连接的对象实体,即所谓的关系。这些图表在图像字幕、可视问答和图像生成或编辑方面有助于实现最先进的性能。虽然目前为止场景图预测方法主要关注图像,但我们提出了一种新的3D数据神经网络结构,其目的是学习从给定的3D场景回归语义图。通过这项工作,我们通过探索对象实体之间的关系,超越了对象级的感知。我们的方法在场景分割的同时学习实例嵌入,并能够预测对象节点和边缘的语义。我们利用3DSSG公司,一个基于3R扫描以不断变化的3D场景的场景图为特色。最后,我们展示了图作为检索任务的中间表示的有效性。

MSC公司:

第68页第45页 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abadi,M.、Agarwal,A.、Barham,P.、Brevdo,E.、Chen,Z.、Citro,C.、Corrado,G.S.、Davis,A.、Dean,J.、Devin,M.、Ghemawat,S.、Goodfellow,I.、Harp,A.、Irving,G.、Isard,M.、Jia,Y.、Jozefowicz,R.、Kaiser,L.、Kudlur,M.、Levenberg,J.、Mané,D.、Monga,R.、Moore,S.、Murray,D.、Olah,C.、Schuster,M.、Shlens,J.、Steiner,B.、Sutskever,I.、Talwar,K.、Tucker,P.、Vanhoucke,V.、Vasudevan,V.,Viégas,F.、Vinyals,O.、Warden,P.,Wattenberg,M.、Wicke,M..、Yu,Y.、Zheng,X.:TensorFlow:异构系统上的大规模机器学习(2015)。https://www.tensorflow.org/。软件可从tensorflow.org获得
[2] Abdul-Rashid,H.,Yuan,J.,Li,B.,Lu,Y.,Bai,S.,Bai。基于2D图像的3D场景检索。收录:欧洲制图三维物体检索研讨会。
[3] Abdul-Rashid,H.,Yuan,J.,Li,B.,Lu,Y.,Schreck,T.,Bui,N.M.,Do,T.L.,Holenderski,M.,Jarnikov,D.,Le,K.T.,Menkovski,V.,Nguyen,K.T,Ngueen,T.A.,Nguien,V.T.,Ninh,T.V.,Rey,P.,Tran,M.T.,Wang,T.(2019年)。基于扩展2D场景图像的3D场景检索。在:S.Biasotti,G.Lavoué,R.Veltkamp(编辑)欧洲三维物体检索研讨会上。
[4] Anoosheh,A.、Sattler,T.、Timofte,R.、Pollefeys,M.、Gool,L.V.(2019年)。用于基于检索的本地化的日夜图像翻译。参加:机器人与自动化国际会议。电气与电子工程师协会。
[5] Arandjelović,R.、Gronat,P.、Torii,A.、Pajdla,T.、Sivic,J.(2016)。NetVLAD:用于弱监督位置识别的CNN架构。参加:计算机视觉和模式识别会议。电气与电子工程师协会。
[6] Armeni,I.,He,Z.Y.,Gwak,J.,Zamir,A.R.,Fischer,M.,Malik,J..,Savarese,S.(2019年)。3D场景图:统一语义、3D空间和相机的结构。参加:计算机视觉国际会议。
[7] Arthur,D.,Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。摘自:SODA’07:第十八届ACM-SIAM离散算法年度研讨会论文集。工业和应用数学学会,第1027-1035页·Zbl 1302.68273号
[8] Ashual,O.,Wolf,L.(2019年)。在交互式场景生成中指定对象属性和关系。计算机视觉国际会议。
[9] Avetisyan,A.、Dahnert,M.、Dai,A.、Savva,M.,Chang,A.X.、Nießner,M.(2019年)。Scan2CAD:学习RGB-D扫描中的CAD模型对齐。参加:计算机视觉和模式识别会议。
[10] Avetisyan,A.、Khanova,T.、Choy,C.、Dash,D.、Dai,A.、Nießner,M.(2020)。场景CAD:预测RGB-D扫描中的对象对齐和布局。参加:欧洲计算机视觉会议。
[11] Choy,C.、Gwak,J.、Savarese,S.(2019年)。4D时空转换网络:Minkowski卷积神经网络。摘自:计算机视觉和模式识别会议,第3075-3084页。
[12] 切克。,Abdulkadir,A.、Lienkamp,S.、Brox,T.、Ronneberger,O.(2016)。3D U-Net:从稀疏注释学习密集的体积分割。参加:医学图像计算和计算机辅助干预国际会议
[13] Cordts,M.、Omran,M.、Ramos,S.、Rehfeld,T.、Enzweiler,M.、Benenson,R.、Franke,U.、Roth,S.、Schiele,B.(2016)。用于语义城市场景理解的城市景观数据集。参加:计算机视觉和模式识别会议。
[14] Dahnert,M.,Dai,A.,Guibas,L.,Nießner,M.(2019)3D扫描和CAD对象的联合嵌入。参加:计算机视觉国际会议。
[15] Dai,A.、Chang,A.X.、Savva,M.、Halber,M.和Funkhouser,T.、Nießner,M.(2017)。ScanNet:丰富的室内场景3D重建。参加:计算机视觉和模式识别会议。
[16] Dai,A.、Nießner,M.(2018)。3DMV:用于三维语义场景分割的联合三维多视图预测。参加:欧洲计算机视觉会议
[17] Deng,L.、Chen,Z.、Chen,B.、Duan,Y.和Zhou,J.(2016)。基于增量图像集查询的本地化。神经计算
[18] Dhamo,H.、Farshad,A.、Laina,I.、Navab,N.、Hager,G.D.、Tombari,F.、Rupprecht,C.(2020)。使用场景图进行语义图像处理。参加:计算机视觉和模式识别会议。
[19] Engelmann,F.、Bokeloh,M.、Fathi,A.、Leibe,B.、Nießner,M.(2020年)。3D-MPA:用于3D语义实例分割的多提案聚合。参加:计算机视觉和模式识别会议。
[20] Engelmann,F.、Kontogianni,T.、Hermans,A.、Leibe,B.(2017年)。探索点云三维语义分割的空间上下文。参加:计算机视觉国际会议
[21] Fellbaum,C.,WordNet:电子词汇数据库(1998),剑桥:麻省理工学院出版社,剑桥·Zbl 0913.68054号
[22] Fisher,M.、Sarva,M.和Hanrahan,P.(2011年)。使用图核刻画场景中的结构关系。图形事务。
[23] Gálvez-López,D.,Tardós,J.D.(2011)。使用二进制字包进行实时循环检测。摘自:智能机器人和系统国际会议,第51-58页。电气与电子工程师协会。
[24] Gay,P.,Stuart,J.,Del Bue,A.(2018)。运动视觉图形(VGfM):通过物体几何推理理解场景。摘自:亚洲计算机视觉会议,第330-346页。斯普林格。
[25] Gibson,JJ,《视觉感知的生态方法》(1979),波士顿:霍顿-米夫林出版社,波士顿
[26] Glocker,B.、Shotton,J.、Criminisi,A.和Izadi,S.(2015)。实时RGB-D相机通过关键帧编码的随机蕨类重新缩放。可视化与计算机图形学汇刊,21(5)
[27] Graham,B.,Engelcke,M.,van der Maaten,L.(2018年)。基于子流形稀疏卷积网络的三维语义分割。计算机视觉和模式识别会议。
[28] Han,L.,Zheng,T.,Xu,L.和Fang,L.(2020)。OccusSeg:占用感知3D实例分割。参加:计算机视觉和模式识别会议。
[29] He,K.,Gkioxari,G.,Dollár,P.,Girshick,r.(2017年)。屏蔽R-CNN。参加:计算机视觉国际会议。
[30] Herzig,R.、Raboh,M.、Chechik,G.、Berant,J.、Globerson,A.(2018年)。使用置换-变结构预测将图像映射到场景图。参加:神经信息处理系统国际会议。
[31] Hou,J.、Dai,A.、Nießner,M.(2019年)。3D-SIS:RGB-D扫描的3D语义实例分割。参加:计算机视觉和模式识别会议。
[32] Huang,J.,Zhang,H.,Yi,L.,Funkhouser,T.,Nießner,M.,Guibas,L.J.(2019年)。TextureNet:一致的局部参数化,用于从网格上的高分辨率信号中学习。参加:计算机视觉和模式识别会议。
[33] 黄S.、齐S.、肖Y.、朱Y.、吴Y.N.、朱S.C.(2018)。合作整体场景理解:统一3D对象、布局和相机姿势估计。参加:神经信息处理系统国际会议。
[34] Izadinia,H.、Shan,Q.、Seitz,S.M.(2017)。IM2CAD。参加:计算机视觉和模式识别会议。
[35] Jiang,C.、Qi,S.、Zhu,Y.、Huang,S.,Lin,J.、Yu,L.、Terzopoulos,D.、Zhus,S.(2018)。可配置的3D场景合成和2D图像渲染,使用随机语法实现每像素地面实况。国际计算机视觉杂志(IJCV)。
[36] Jiang,L.,Zhao,H.,Shi,S.,Liu,S.、Fu,C.W.、Jia,J.(2020)PointGroup:用于3D实例分割的双设定点分组。参加:计算机视觉和模式识别会议。
[37] Johnson,J.、Gupta,A.、Fei-Fei,L.(2018)。从场景图生成图像。在:计算机视觉和模式识别会议。
[38] Johnson,J.、Krishna,R.、Stark,M.、Li,L.、Shamma,D.A.、Bernstein,M.S.、Fei-Fei,L.(2015)。使用场景图进行图像检索。参加:计算机视觉和模式识别会议。
[39] Kirillov,A.、He,K.、Girshick,R.、Rother,C.、Dollar,P.(2019年)。全景分割。参加:计算机视觉和模式识别会议。
[40] Krishna,R.,Zhu,Y.,Groth,O.,Johnson,J.,Hata,K.,Kravitz,J.、Chen,S.、Kalanditis,Y.、Li,L.J.、Shamma,D.A.、Bernstein,M.、Fei-Fei,L.(2017)。视觉基因组:使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志(IJCV)。
[41] Kulkarni,N.、Misra,I.、Tulsiani,S.、Gupta,A.(2019)。3D-RelNet:用于3D预测的联合对象和关系网络。计算机视觉国际会议。
[42] Kundu,A.,Yin,X.,Fathi,A.,Ross,D.,Brewington,B.,Funkhouser,T.,Pantofaru,C.(2020年)。用于三维语义分割的虚拟多视图融合。参加:欧洲计算机视觉会议。
[43] Lahoud,J.、Ghanem,B.、Pollefeys,M.、Oswald,M.R.(2019年)。通过多任务度量学习进行三维实例分割。参加:计算机视觉国际会议。
[44] Li,M.,Gadi Patil,A.,Xu,K.,Chaudhuri,S.,Khan,O.,Shamir,A.,Tu,C.,Chen,B.,Cohen-Or,D.,Zhang,H.(2018a)。谷物:室内场景的生成递归自动编码器。图形事务。
[45] Li,Y.,Bu,R.,Sun,M.,Wu,W.,Di,X.,Chen,B.(2018b)。PointCNN:X变换点上的卷积。主题:神经信息处理系统进展。
[46] Li,Y.,Ouyang,W.,Wang,X.,Tang,X..(2017)。视觉短语引导卷积神经网络。In:计算机视觉和模式识别会议。
[47] Li,Y.,Ouyang,W.,Zhou,B.,Shi,J.,Zhang,C.,Wang,X.(2018c)。可分解网:一种高效的基于子图的场景图生成框架。参加:欧洲计算机视觉会议。
[48] Lin,T.Y.,Maire,M.,Belongie,S.,Boudev,L.,Girshick,R.,Hays,J.,Perona,P.,Ramanan,D.,Zitnick,C.L.,DolláR,P.(2014)。Microsoft COCO:上下文中的通用对象。参加:欧洲计算机视觉会议。
[49] Liu,T.、Chaudhuri,S.、Kim,V.、Huang,Q.、Mitra,N.、Funkhouser,T.(2014)。使用概率语法创建一致的场景图。图形事务·Zbl 1395.68270号
[50] Liu,Y.,Yi,L.,Zhang,S.,Fan,Q.,Funkhouser,T.A.,Dong,H.(2020)。P4对比:使用点-像素对对进行对比学习,以了解RGB-D场景。CoRRabs/2012.13089。
[51] 刘,Y。;张,D。;卢,G。;Ma,WY,《基于内容的高层次语义图像检索研究》,模式识别,40,1,262-282(2007)·Zbl 1103.68503号 ·doi:10.1016/j.patcog.2006.04.045
[52] Lu,C.,Krishna,R.,Bernstein,M.,Fei-Fei,L.(2016)。利用语言先验进行视觉关系检测。参加:欧洲计算机视觉会议。
[53] Lu,G.,Yan,Y.,Kolagunda,A.,Kambhamettu,C.(2016)。一种基于视频查询的快速三维室内放大方法。摘自:多媒体建模,第218-230页。
[54] Ma,R.,Patil,A.G.,Fisher,M.,Li,M..,Pirk,S.,Hua,B.S.,Yeung,S.K.,Tong,X.,Guibas,L.,Zhang,H.(2018年)。基于场景数据库的三维场景的语言驱动合成。收录:SIGGRAPH Asia,技术论文。
[55] 范德马滕,L。;Hinton,G.,使用t-SNE可视化数据,机器学习研究杂志,92579-2605(2008)·Zbl 1225.68219号
[56] Mittal,G.、Agrawal,S.、Agarwal,A.、Mehta,S.、Marwah,T.(2019)。使用场景图生成交互式图像。高结构数据研讨会的ICLR深度生成模型。
[57] Mo,K.,Guerrero,P.,Yi,L.,Su,H.,Wonka,P.、Mitra,N.、Guibas,L.(2019年)。StructureNet:三维形状生成的层次图形网络。图形事务。
[58] Najibi,M.,Lai,G.,Kundu,A.,Lu,Z.,Rathod,V.,Funkhouser,T.,Pantofaru,C.,Ross,D.,Davis,L.S.,Fathi,A.(2020年)。DOPS:学习检测3D物体并预测其3D形状。参加:计算机视觉和模式识别会议。
[59] 成田G.、森野T.、石川T.、卡吉Y.(2019)。PanopticFusion:物与物层面的在线体积语义映射。载于:国际智能机器人与系统大会,第4205-4212页。电气与电子工程师协会。
[60] Nathan Silberman Derek Hoiem,P.K.,Fergus,R.(2012)。室内分割和支持RGBD图像的推断。参加:欧洲计算机视觉会议。
[61] Newell,A.,Deng,J.(2017年)。通过关联嵌入将像素转换为图形。参加:神经信息处理系统国际会议。
[62] 聂毅、韩旭、郭S.、郑毅、张杰、张杰(2020)。Total3DUnderstanding:从单个图像中对室内场景进行关节布局、对象姿势和网格重建。参加:计算机视觉和模式识别会议。
[63] Peyre,J.、Laptev,I.、Schmid,C.、Sivic,J.(2017)。视觉关系的学习缺乏监督。参加:计算机视觉国际会议。
[64] Qi,C.R.,Litany,O.,He,K.,Guibas,L.J.(2019年)。用于点云中三维对象检测的深孔投票。参加:计算机视觉国际会议。
[65] Qi,C.R.,Su,H.,Mo,K.,Guibas,L.(2017)。PointNet:针对3D分类和分割的点集进行深入学习。参加:计算机视觉和模式识别会议。
[66] Qi,C.R.,Yi,L.,Su,H.,Guibas,L.:PointNet++:度量空间中点集的深度分层特征学习。在:国际神经信息处理系统会议。
[67] Qi,M.,Li,W.,Yang,Z.,Wang,Y.,Luo,J.(2019)。将图像映射到场景图的密切关系网络。参加:计算机视觉和模式识别会议。
[68] Ren,S.、He,K.、Girshick,R.、Sun,J.(2015)。更快的R-CNN:通过区域建议网络实现实时目标检测。参加:神经信息处理系统国际会议。
[69] 谷歌研究(2021)。tf3d。https://github.com/google-research/google-research。
[70] Rethage,D.、Wald,J.、Sturm,J.、Navab,N.、Tombari,F.(2018)。大规模点云的全卷积点网络。参加:欧洲计算机视觉会议。
[71] Ronneberger,O.,P.Fischer,Brox,T.(2015)。U-Net:生物医学图像分割的卷积网络。收录于:医学图像计算和计算机辅助干预国际会议,LNCS,第9351卷,第234-241页。斯普林格。
[72] Rosinol,A.、Abate,M.、Chang,Y.、Carlone,L.(2020年)。Kimera:一个用于实时度量语义定位和映射的开源库。摘自:机器人与自动化国际会议,第1689-1696页。
[73] Rosinol,A.、Gupta,A.、Abate,M.、Shi,J.、Carlone,L.(2020年)。3D动态场景图:对地点、物体和人的可操作空间感知。主题:机器人:科学与系统。
[74] Shi,Y.、Chang,A.X.、Wu,Z.、Savva,M.、Xu,K.(2019)。用于3D场景布局预测的层次去噪递归自动编码器。参加:计算机视觉和模式识别会议。
[75] Sohn,K.(2016)。通过多类N对丢失目标改进了深度度量学习。收录于:D.Lee、M.Sugiyama、U.Luxburg、I.Guyon、R.Garnett(编辑)《神经信息处理系统国际会议》,第29卷,第1857-1865页。Curran Associates公司。
[76] Song,S.、Lichtenberg,S.和Xiao,J.(2015)SUN RGB-D:RGB-D场景理解基准套件。参加:计算机视觉和模式识别会议。
[77] Su,H.,Maji,S.,Kalogerakis,E.,Learnd-Miller,E.G.(2015)。三维形状识别的多视点卷积神经网络。参加:计算机视觉国际会议。
[78] Sun,X.,Wu,J.,Zhang,X.、Zhang、C.、Xue,T.、Tenenbaum,J.B.、Freeman,W.T.(2018)。Pix3D:用于单图像3D形状建模的数据集和方法。参加:计算机视觉和模式识别会议。
[79] Te,G.,Hu,W.,Zheng,A.,Guo,Z(2018)。RGCNN:用于点云分割的正则图形CNN。参加:国际多媒体会议。
[80] Teney,D.,Liu,L.,Van Den Hengel,A.(2017)。视觉问答的图形结构表示。收录于:计算机视觉和模式识别会议。
[81] Thomas,H.、Qi,C.R.、Deschaud,J.E.、Marcotegui,B.、Goulette,F.、Guibas,L.J.(2019年)。KPConv:点云的灵活可变形卷积。参加:计算机视觉国际会议。
[82] 托米,B。;DA Shamma;Friedland,G。;Elizalde,B。;Ni,K。;波兰,D。;Borth博士。;Li,LJ,YFCC100M:多媒体研究中的新数据,ACM的通信,59,2,64-73(2016)·doi:10.1145/2812802
[83] Torii,A.、Arandjelović,R.、Sivic,J.、Okutomi,M.、Pajdla,T.(2015)。24/7通过视图合成进行位置识别。参加:计算机视觉和模式识别会议。电气与电子工程师协会。
[84] Wald,J.、Avetisyan,A.、Navab,N.、Tombari,F.、Nießner,M.(2019年)。RIO:在不断变化的室内环境中重新缩放3D对象实例。参加:计算机视觉国际会议。
[85] Wald,J.、Dhamo,H.、Navab,N.、Tombari,F.(2020a)。从三维室内重建中学习三维语义场景图。在:计算机视觉和模式识别会议。
[86] Wald,J.、Sattler,T.、Golodetz,S.、Cavallari,T.和Tombari,F.(2020b)。超越受控环境:在不断变化的室内场景中重新缩放3D相机。参加:欧洲计算机视觉会议。
[87] Wang,M.,Lai,Y.K.,Liang,Y.,Martin,R.R.,Hu,S.M.(2014)。BiggerPicture:使用图形匹配进行数据驱动的图像外推。图形事务。
[88] Xia,F.,R.Zamir,A.,He,Z.Y.,Sax,A.,Malik,J.,Savarese,S.(2018年)。Gibson Env:对实体代理人的现实世界感知。参加:计算机视觉和模式识别会议。
[89] Xu,D.,Zhu,Y.,Choy,C.,Fei-Fei,L.(2017)。通过迭代消息传递生成场景图。参加:计算机视觉和模式识别会议。
[90] Yang,J.,Lu,J.、Lee,S.、Batra,D.、Parikh,D.(2018年)。图R-CNN用于生成场景图。参加:欧洲计算机视觉会议。
[91] Yang,X.,Tang,K.,Zhang,H.,Cai,J.(2019)。自动编码用于图像字幕的场景图。参加:计算机视觉和模式识别会议。
[92] Yi,L.,Zhao,W.,Wang,H.,Sung,M.,Guibas,L.J.:GSPN:点云中3D实例分割的生成形状建议网络。在:计算机视觉和模式识别会议(2019)
[93] Zareian,A.、Karaman,S.、Chang,S.F.(2020年)。桥接知识图以生成场景图。参加:欧洲计算机视觉会议。
[94] Zellers,R.、Yatskar,M.、Thomson,S.、Choi,Y.(2018年)。神经基序:具有全局上下文的场景图解析。参加:计算机视觉和模式识别会议。
[95] Zhang,J.,Shih,K.J.,Elgammal,A.,Tao,A.,Catanzaro,B.(2019年)。场景图解析的图形对比度损失。参加:计算机视觉和模式识别会议。
[96] Zhao,Y.、Birdal,T.、Deng,H.、Tombari,F.(2019)。3D Point胶囊网络。参加:计算机视觉和模式识别会议。
[97] Zhao,Y.,chun Zhu,S.(2011)。使用随机场景语法进行图像解析。参加:神经信息处理系统国际会议。
[98] Zhou,Y.,Tuzel,O.(2017)。VoxelNet:基于点云的3D对象检测的端到端学习。计算机视觉和模式识别会议。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。