×

Pix2Shape:使用基于视图的表示从图像中无监督地学习3D场景。 (英语) Zbl 1483.68445号

摘要:我们从单个输入图像推断并生成三维(3D)场景信息,无需监督。这个问题还没有得到充分的研究,大多数之前的工作都依赖于监督,例如3D地面实景、场景的多个图像、图像轮廓或关键点。我们建议像素2形状,一种用四个组件解决这个问题的方法:(i)从图像中推断出潜在3D表示的编码器,(ii)从潜在代码生成基于场景的显式2.5D表面重建的解码器,(iii)从表面表示合成2D图像的可差分渲染器,以及(iv)经过训练的评论家网络,用于区分由解码器渲染器生成的图像和来自训练分布的图像。Pix2Shape可以生成复杂的3D场景,并以与视图相关的屏幕分辨率进行缩放,这与捕获世界空间分辨率(即体素或网格)的表示不同。我们表明,Pix2Shape在其编码的潜在空间中学习一致的场景表示,然后可以将解码器应用于该潜在表示,以便从新的角度合成场景。我们通过ShapeNet数据集上的实验以及我们开发的一个新基准(称为3D-IQTT)来评估Pix2Shape,以根据模型启用3D空间推理的能力来评估模型。定性和定量评估证明了Pix2Shape解决场景重建、生成和理解任务的能力。

MSC公司:

68T45型 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arjovsky,M.、Chintala,S.和Bottou,L.(2017)。Wasserstein生成性对抗网络。在国际机器学习会议(ICML)上。
[2] Belghazi,M.I.、Baratin,A.、Rajeshwar,S.、Ozair,S.,Bengio,Y.、Hjelm,D.和Courville,A.(2018)。互信息神经估计。在国际机器学习会议(ICML)上。
[3] Caesar,H.、Bankiti,V.、Lang,A.H.、Vora,S.、Liong,V.E.、Xu,Q.、Krishnan,A.、Pan,Y.、Baldan,G.和Beijbom,O.(2019)。Nuscenes:用于自动驾驶的多模式数据集。arXiv:1903.11027年。
[4] Chang,A.X.、Funkhouser,T.、Guibas,L.、Hanrahan,P.、Huang,Q.、Li,Z.、Savarese,S.、Savva,M.、Song,S.,Su,H.、Xiao,J.、Yi,L.和Yu,F.(2015)。Shapenet:一个信息丰富的3D模型库。
[5] Chaudhuri,S.、Kalogerakis,E.、Guibas,L.和Koltun,V.(2011年)。基于装配的三维建模的概率推理。在ACM SIGGRAPH中。
[6] Chen,W.、Gao,J.、Ling,H.、Smith,E.J.、Lehtinen,J.,Jacobson,A.和Fidler,S.(2019年)。学习使用基于插值的可微分渲染器预测三维对象。CoRR abs/1908.01210
[7] Choy,C.、Xu,D.、Gwak,J.、Chen,K.和Savarese,S.(2016)。3D-r2n2:用于单视图和多视图三维对象重建的统一方法。
[8] Donahue,J.和Krähenb,U.P.和Darrell,T.(2016)。对手特征学习。arXiv:1605.09782。
[9] Dumoulin,V.、Belghazi,I.、Poole,B.、Lamb,A.、Arjovsky,M.、Mastropietro,O.和Courville,A.(2016)。反向学习推理。arXiv:1606.00704。
[10] Gadelha,M.、Maji,S.和Wang,R.(2016)。从多个对象的二维视图中提取三维形状。CoRR abs/1612.05872。
[11] Girdhar,R.、Fouhey,D.、Rodriguez,M.和Gupta,A.(2016)。学习对象的可预测和生成向量表示。在欧洲计算机视觉会议(ECCV)上。
[12] Goodfellow,I.、Pouget-Abadie,J.、Mirza,M.、Xu,B.、Warde-Farley,D.、Ozair,S.、Courville,A.和Bengio,Y.(2014年),《生成对抗网》。神经信息处理系统进展。
[13] Gulrajani,I.、Ahmed,F.、Arjovsky,M、Dumoulin,V.和Courville,A.C.(2017年)。改进了瓦瑟斯坦人的训练。神经信息处理系统进展。
[14] Hadsell,R.、Chopra,S.和LeCun,Y.(2006年)。通过学习不变映射降低维数。为空。
[15] Hausdorff,F.,Grundzüge der Mengenlehre(1949),纽约:切尔西酒吧。纽约州纽约市·Zbl 0041.02002号
[16] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。计算机视觉和模式识别(CVPR)。
[17] Henderson,P.和Ferrari,V.(2018年)。学习仅在二维监督下生成和重建三维网格。CoRR绝对值/1807.09259。
[18] Huang,J.、Zhou,Y.、Funkhouser,T.A.和Guibas,L.J.(2019年)。框架网:从单个RGB图像学习3D曲面的局部标准框架。CoRR abs/1903.12305。
[19] Insafutdinov,E.和Dosovitskiy,A.(2018年)。使用可微分点云进行形状和姿势的无监督学习。CoRR abs/1810.09381。
[20] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。在国际机器学习会议(ICML)上。
[21] Jiang,C.M.、Wang,D.、Huang,J.、Marcus,P.和Nießner,M.(2019年)。基于欧氏谱变换的非均匀几何信号卷积神经网络。CoRR abs/1901.02070。
[22] Kajiya,J.T.(1986年)。渲染方程式。在计算机图形和交互技术年度会议(SIGGRAPH)上。
[23] Kalogerakis,E。;乔杜里,S。;科勒,D。;Koltun,V.,《基于组件的形状合成概率模型》,《ACM图形事务》,31,4,55-1-55-11(2012)·doi:10.1145/2185520.2185551
[24] Kanazawa,A.、Tulsiani,S.、Efros,A.A.和Malik,J.(2018年),从图像采集中学习特定类别的网格重建。在欧洲计算机视觉会议上。
[25] Kar,A.、Tulsiani,S.、Carreira,J.和Malik,J.(2014)。从单个图像重建类别特定的对象。CoRR abs/1411.6069。
[26] Kato,H.和Harada,T.(2018年)。学习单视图3D重建的视图优先级。CoRR abs/1811.10719。
[27] Kato,H.、Ushiku,Y.和Harada,T.(2017年)。神经3D网格渲染器。CoRR abs/1711.07566。
[28] Kobbelt,L。;Botsch,M.,《计算机图形中基于点的技术的调查》,《计算机与图形》,28,6,801-814(2004)·doi:10.1016/j.cag.2004.08.009
[29] Koch,G.、Zemel,R.和Salakhuttinov,R.(2015)。用于一次性图像识别的暹罗神经网络。在ICML深度学习研讨会上。
[30] Kulkarni,T.D.、Whitney,W.、Kohli,P.和Tenenbaum,J.B.(2015)。深度卷积逆图形网络。神经信息处理系统(NIPS)进展。
[31] Li,C.、Liu,H.、Chen,C.、Pu,Y.、Chen,L.、Henao,R.和Carin,L.(2017),Alice:理解联合分布匹配的对抗性学习。神经信息处理系统进展。
[32] Li,Z.,Dekel,T.,Cole,F.,Tucker,R.,Snavely,N.,Liu,C.,&Freeman,W.T.(2019年)。通过观察冻僵的人来了解感动人的深度。CoRR abs/1904.11111。
[33] Liu,S.,Chen,W.,Li,T.,&Li,H.(2019),软光栅化器:用于无监督单视图网格重建的可微分渲染。CoRR abs/1901.05567。
[34] Loper,M.M.和Black,M.J.(2014)。Opendr:一个近似的可微分渲染器。在欧洲计算机视觉会议上。
[35] Mikolov,T.、Deoras,A.、Kombrink,S.、Burget,L.和Cernockỳ, J.(2011),高级语言建模技术的实证评估和组合。在INTERSPEECH中。
[36] Mirza,M.和Osindero,S.(2014)。条件生成对抗网。
[37] Nguyen-Phuoc,T.、Li,C.、Theis,L.、Richardt,C.和Yang,Y.L.(2019年)。Hologan:从自然图像中无监督地学习三维表示。
[38] Niu,C.、Li,J.和Xu,K.(2018年)。Im2struct:从单个RGB图像恢复三维形状结构。计算机视觉和模式识别(CVPR)。
[39] Novotn,D.、Larlus,D.和Vedaldi,A.(2017)。通过环顾四周学习3D对象类别。CoRR abs/1705.03951。
[40] 诺沃顿·D、拉维·N、格雷厄姆·B、内弗罗娃·N和维达尔迪·A(2019)。C3dpo:非刚性结构运动的标准3D姿势网络。arXiv:1909.02533。
[41] Perez,E.、Strub,F.、De Vries,H.、Dumoulin,V.和Courville,A.(2017)。电影:带有一般调节层的视觉推理。arXiv:1709.07871。
[42] Pfister,H.、Zwicker,M.、van Baar,J.和Gross,M.(2000),《曲面:作为渲染基本体的曲面元素》。在计算机图形和交互技术年度会议上。
[43] Radford,A.、Metz,L.和Chintala,S.(2015)。深度卷积生成对抗网络的无监督表示学习。在学习代表国际会议上。
[44] Rezende,D.J.、Eslami,S.M.A.、Mohamed,S.、Battaglia,P.、Jaderberg,M.和Heess,N.(2016)。从图像中无监督学习3D结构。神经信息处理系统进展。
[45] Saxena,A.、Sun,M.和Ng,A.Y.(2009年)。Make3d:从单个静态图像学习3D场景结构。在IEEE关于模式分析(PAMI)的交易中(第31卷,第5期)。
[46] Shepard,注册护士;梅茨勒,J.,《三维物体的心理旋转》,《科学》,171,3972,701-703(1971)·doi:10.1126/science.171.3972.701
[47] Soltani,A.A.、Huang,H.、Wu,J.、Kulkarni,T.D.和Tenenbaum,J.B.(2017)。通过使用深度生成网络建模多视图深度图和轮廓来合成3D形状。计算机视觉和模式识别(CVPR)
[48] Taha,A.A.和Hanbury,A.(2015)。一种计算精确hausdorff距离的有效算法。在IEEE关于模式分析和机器智能(PAMI)的事务中。
[49] Tulsiani,S.、Su,H.、Guibas,L.J.、Efros,A.A.和Malik,J.(2016),《通过组合体积基本体学习形状抽象》。CoRR abs/1612.00404。
[50] Tulsiani,S.、Zhou,T.、Efros,A.A.和Malik,J.(2017)。通过可微光线一致性实现单视图重建的多视图监控。CoRR abs/1704.06254。
[51] Wiles,O.和Zisserman,A.(2017年)。Silnet:通过学习轮廓进行单视图和多视图重建。CoRR abs/1711.07888。
[52] Woodcock,R.、Mather,N.和McGrew,K.(2001年)。Woodcock johnson iii-认知技能测试。河畔酒吧。
[53] Wu,J.、Xue,T.、Lim,J.和Tian,Y.、Tenenbaum,J.,Torralba,A.和Freeman,W.(2016a),《单幅图像三维解释器网络》。
[54] Wu,J.,Zhang,C.,Xue,T.,Freeman,W.T.,Tenenbaum,J.B.(2016b)。通过三维生成-矢量建模学习物体形状的概率潜在空间。神经信息处理系统进展。
[55] Wu,J.,Wang,Y.,Xue,T.,Sun,X.,Freeman,W.T.,&Tenenbaum,J.B.(2017)。Marrnet:通过2.5D草图重建3D形状。CoRR abs/1711.03129。
[56] Wu,Z.、Song,S.、Khosla,A.、Yu,F.、Zhang,L.、Tang,X.和Xiao,J.(2015)。3D形状:立体形状的深度表示。计算机视觉和模式识别(CVPR)。
[57] Yan,X.,Yang,J.,Yumer,E.,Guo,Y.,&Lee,H.(2016),透视变换器网络:学习无3D监督的单视图3D对象重建。神经信息处理系统进展。
[58] 张,X,张,Z,张,C,Tenenbaum,J.,Freeman,B.,&Wu,J.(2018)。学习从看不见的类中重建形状。神经信息处理系统进展。
[59] Zhu,J.Y、Zhang,Z.、Zhang,C.、Wu,J.、Torralba,A.、Tenenbaum,J.B.和Freeman,W.T.(2018)。视觉对象网络:使用分离的3D表示生成图像。神经信息处理系统进展(NeurIPS)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。