Learning-Based Stereoscopic View Synthesis with Cascaded Deep Neural Networks

Wei Liu; Liyan Ma; Mingyue Cui

doi:10.20965/jaciii.2022.p0393

单jc.php

«上一页

下一个»

JACIII第26卷第3期，第393-406页

doi:10.20965/jaciii.2022.p0393

(2022)

纸张：

过去60天的浏览量： 402

基于学习的级联深度神经网络立体视图合成

刘伟（音译）^*,†、马丽燕^**和崔明月^*

^*南阳师范大学机电工程学院
中国河南省南阳市卧龙区卧龙路1638号，邮编：473061

^**上海大学计算机工程与科学学院
中国上海市宝山区上大路99号，邮编：200444

^†通讯作者

收到：

2021年10月25日

认可的：

2022年3月8日

出版：

2022年5月20日

关键词：

DIBR、深层神经网络、孔洞填充、视图合成

摘要

基于深度图像的渲染（DIBR）是2D到3D转换过程中的一项重要技术，它使用纹理图像和相关的深度图来渲染虚拟视图。然而，目前的DIBR系统中仍存在某些问题，例如隔离问题。本研究提出了一种新的基于学习的框架，对传统DIBR合成管道进行建模，以解决这些问题。该模型采用从粗到细的方法，在一个统一的深度学习框架中依次实现虚拟视图预测和非遮挡区域细化，该框架包括两个级联的联合滤波块卷积神经网络（CNN）和一个基于残差学习的生成性对抗网络（GAN）。采用边缘引导的全局循环优化策略，在新视图上逐步重建场景结构，并提出一种新的方向折现重建损失，以更好地进行训练。这样，我们的框架在虚拟视图质量方面表现良好，更适合2D到3D转换应用程序。实验结果表明，该方法能产生令人满意的视觉效果。

引用本文为：

W.Liu、L.Ma和M.Cui，“基于级联深度神经网络的学习立体视图合成”高级计算杂志。智力。智力。通知。第26卷第3期，第393-406页，2022年。

数据文件：

工具书类

[1] X.Chen，H.Liang，H.Xu，S.Ren，H.Cai，Y.Wang，“基于不对称双向DIBR的三维视频和自由视点视频虚拟视点合成”，《应用科学》，第10卷第5期，15622020年。
[2] L.-H.Wang，J.Zhang，S.-J.Yao，D.-X.Li，M.Zhangs，“基于GPU的3DTV系统实现”，2011年第六届国际图像与图形大会，第847-851页，2011年。
[3] H.Liang，X.Chen，H.Xu，S.Ren，H.Cai，Y.Wang，“视图合成的局部前景移除-遮挡填充方法”，IEEE Access，第8卷，pp.201286-2012992020。
[4] S.Zhu、H.Xu和L.Yan，“一种改进的基于深度图像的交互式3D视频虚拟视图合成方法”，IEEE Access，第7卷，第115171-1151802019页。
[5] L.-H.Wang、X.-J.Huang、M.Xi、D.-X.Li和M.Zhang，“用于3DTV深度生成和孔洞填充的非对称边缘自适应滤波器”，IEEE Trans。《广播》，第56卷，第3期，第425-431页，2010年。
[6] C.-W.Liu、S.-E.Li、J.-L.Syu、H.-T.Li、W.-H.Cheng、C.-H.Hsia和J.-S.Chiang，“用于3D视图的内容自适应过滤的DIBR”，2014年IEEE国际消费电子会议，台湾，第245-2462014页。
[7] W.Liu，L.Ma，B.Qiu，M.Cui，and J.Ding，“一种基于辅助结构域变换平滑的高效深度图预处理方法，用于3D视图生成”，《公共科学图书馆》，第12卷，第4期，e0175910，2017年。
[8] C.-C.Kao，“基于深度图像渲染的立体图像生成”，《多媒体工具与应用》，第76卷，第11期，第12981-12999页，2017年。
[9] D.Han，H.Chen，C.Tu，Y.Xu，“使用前景对象提取进行视差控制和图像修复的视图合成”，《视觉通信与图像表示杂志》，第56卷，第287-295页，2018年。
[10] A.Q.d.Oliveira、M.Walter和C.R.Jung，“用于视图合成的人工类型识别DIBR方法”，IEEE信号处理快报，第25卷，第11期，第1705-1709页，2018年。
[11] A.Atapour-Abarghouei和T.P.Breckon，“场景深度图像完成背景下合理孔洞填充策略的比较审查”，《计算机与图形》，第72卷，第39-58页，2018年。
[12] W.Liu、D.Zhang、M.Cui和J.Ding，“一种基于深度图的增强渲染方法，带有方向深度过滤器和图像修复”，《视觉计算机》，第32卷，第5期，第579-589页，2016年。
[13] H.C.Burger、C.J.Schuler和S.Harmeling，“图像去噪：普通神经网络能与BM3D竞争吗？”，2012年IEEE计算机视觉和模式识别会议，第2392-2399页，2012年。
[14] C.Dong、C.C.Loy、K.He和X.Tang，“学习用于图像超分辨率的深度卷积网络”，《欧洲计算机视觉会议》，第184-199页，2014年。
[15] J.Sun、W.Cao、Z.Xu和J.Ponce，“学习卷积神经网络以去除非均匀运动模糊”，Proc。IEEE计算机视觉和模式识别会议，第769-777页，2015年。
[16] I.Laina、C.Rupprecht、V.Belaginnis、F.Tombari和N.Navab，“利用完全卷积剩余网络进行深度预测”，2016年第四届3D视觉国际会议，第239-248页，2016年。
[17] D.Eigen、C.Puhrsch和R.Fergus，“使用多尺度深度网络从单个图像预测深度图”，《神经信息处理系统进展》，第2366-2374页，2014年。
[18] C.Godard、O.Mac Aodha和G.J.Brostow，“具有左右一致性的无监督单目深度估计”，Proc。IEEE计算机视觉和模式识别会议，第270-279页，2017年。
[19] D.Xu、E.Ricci、W.Ouyang、X.Wang和N.Sebe，“多尺度连续crf作为单目深度估计的顺序深网络”，Proc。IEEE计算机视觉和模式识别会议，第5354-5362页，2017年。
[20] J.Xie、R.Girshick和A.Farhadi，“Deep3d:使用深度卷积神经网络的全自动二维到三维视频转换”，《欧洲计算机视觉会议》，第842-857页，2016年。
[21]J.Flynn、I.Neulander、J.Philbin和N.Snavely，“深度立体：学习从世界图像预测新视图”，Proc。IEEE计算机视觉和模式识别会议，第5515-5524页，2016年。
[22]J.Lee、H.Jung、Y.Kim和K.Sohn，“使用多尺度深度神经网络的自动二维到三维转换”，2017 IEEE图像处理国际会议（ICIP），第730-7341017页。
[23]M.Jaderberg，K.Simonyan，A.Zisserman等人，“空间变压器网络”，《神经信息处理系统进展》，第2017-2025页，2015年。
[24]L.Wei，W.Yihong，H.Zhanyi，“电影2D到3D转换技术综述”，《计算机辅助设计与计算机图形学杂志》，第24卷，第1期，第14-28页，2012年。
[25]H.-t.Lim、H.G.Kim和Y.M.Ro，“使用深度卷积神经网络进行视图合成的基于学习的孔洞填充方法”，《电子成像》，2016年第14期，第1-5页，2016年。
[26]C.Li、X.Sang、D.Chen和D.Zhang，“基于上下文学习的深度图像渲染（DIBR）的创新填孔方法”，光电成像与多媒体技术V，第10817卷，第1081706页，国际光学与光子学学会，2018年。
[27]N.K.Kalantari、T.-C.Wang和R.Ramamoorthi，“基于学习的光场相机视图合成”，ACM Trans。关于图形（TOG），第35卷，第6期，第1-10页，2016年。
[28]Y.Li、J.-B.Huang、N.Ahuja和M.-H.Yang，“深度联合图像过滤”，欧洲计算机视觉会议，第154-169页，2016年。
[29]S.Iizuka、E.Simo-Serra和H.Ishikawa，“全球和本地一致的图像完成”，ACM Trans。关于图形（ToG），第36卷，第4期，第1-14页，2017年。
[30]K.Nazeri、E.Ng、T.Joseph、F.Z.Qureshi和M.Ebrahimi，“边缘连接：使用对抗性边缘学习进行生成图像修复”，arXiv预印本arXiv:1901.00212019。
[31]L.-C.Chen，J.T.Barron，G.Papandreou，K.Murphy和A.L.Yuille，“使用cnns和判别训练的域变换进行任务特定边缘检测的语义图像分割，”Proc。IEEE计算机视觉和模式识别会议，第4545-4554页，2016年。
[32]L.Zhang和W.J.Tam，“基于深度图像的3D电视立体图像生成”，IEEE Trans。《广播》，第51卷，第2期，第191-199页，2005年。
[33]C.Barnes、E.Shechtman、A.Finkelstein和D.B.Goldman，“PatchMatch:结构图像编辑的随机对应算法”，ACM Trans。图表。，第28卷，第3期，第24期，2009年。
[34]J.Yu，Z.Lin，J.Yang，X.Shen，X.Lu和T.S.Huang，“门控卷积的自由形式图像修复”，Proc。IEEE/CVF计算机视觉国际会议，第4471-44802019页。
[35]Y.Chen、L.Shi、Q.Feng、J.Yang、H.Shu、L.Luo、J.-L.Coatrieux和W.Chen，“低剂量CT图像处理的人工抑制字典学习”，IEEE Trans。医学成像，第33卷，第12期，第2271-2292页，2014年。

本文发表于Creative Commons Attribution-NoDerivatives 4.0国际许可证。

[1] [1] X.Chen，H.Liang，H.Xu，S.Ren，H.Cai，Y.Wang，“基于不对称双向DIBR的三维视频和自由视点视频虚拟视点合成”，《应用科学》，第10卷第5期，15622020年。

[2] [2] L.-H.Wang，J.Zhang，S.-J.Yao，D.-X.Li，M.Zhangs，“基于GPU的3DTV系统实现”，2011年第六届国际图像与图形大会，第847-851页，2011年。

[3] [3] H.Liang，X.Chen，H.Xu，S.Ren，H.Cai，Y.Wang，“视图合成的局部前景移除-遮挡填充方法”，IEEE Access，第8卷，pp.201286-2012992020。

[4] [4] S.Zhu、H.Xu和L.Yan，“一种改进的基于深度图像的交互式3D视频虚拟视图合成方法”，IEEE Access，第7卷，第115171-1151802019页。

[5] [5] L.-H.Wang、X.-J.Huang、M.Xi、D.-X.Li和M.Zhang，“用于3DTV深度生成和孔洞填充的非对称边缘自适应滤波器”，IEEE Trans。《广播》，第56卷，第3期，第425-431页，2010年。

[6] [6] C.-W.Liu、S.-E.Li、J.-L.Syu、H.-T.Li、W.-H.Cheng、C.-H.Hsia和J.-S.Chiang，“用于3D视图的内容自适应过滤的DIBR”，2014年IEEE国际消费电子会议，台湾，第245-2462014页。

[7] [7] W.Liu，L.Ma，B.Qiu，M.Cui，and J.Ding，“一种基于辅助结构域变换平滑的高效深度图预处理方法，用于3D视图生成”，《公共科学图书馆》，第12卷，第4期，e0175910，2017年。

[8] [8] C.-C.Kao，“基于深度图像渲染的立体图像生成”，《多媒体工具与应用》，第76卷，第11期，第12981-12999页，2017年。

[9] [9] D.Han，H.Chen，C.Tu，Y.Xu，“使用前景对象提取进行视差控制和图像修复的视图合成”，《视觉通信与图像表示杂志》，第56卷，第287-295页，2018年。

[10] [10] A.Q.d.Oliveira、M.Walter和C.R.Jung，“用于视图合成的人工类型识别DIBR方法”，IEEE信号处理快报，第25卷，第11期，第1705-1709页，2018年。

[11] [11] A.Atapour-Abarghouei和T.P.Breckon，“场景深度图像完成背景下合理孔洞填充策略的比较审查”，《计算机与图形》，第72卷，第39-58页，2018年。

[12] [12] W.Liu、D.Zhang、M.Cui和J.Ding，“一种基于深度图的增强渲染方法，带有方向深度过滤器和图像修复”，《视觉计算机》，第32卷，第5期，第579-589页，2016年。

[13] [13] H.C.Burger、C.J.Schuler和S.Harmeling，“图像去噪：普通神经网络能与BM3D竞争吗？”，2012年IEEE计算机视觉和模式识别会议，第2392-2399页，2012年。

[14] [14] C.Dong、C.C.Loy、K.He和X.Tang，“学习用于图像超分辨率的深度卷积网络”，《欧洲计算机视觉会议》，第184-199页，2014年。

[15] [15] J.Sun、W.Cao、Z.Xu和J.Ponce，“学习卷积神经网络以去除非均匀运动模糊”，Proc。IEEE计算机视觉和模式识别会议，第769-777页，2015年。

[16] [16] I.Laina、C.Rupprecht、V.Belaginnis、F.Tombari和N.Navab，“利用完全卷积剩余网络进行深度预测”，2016年第四届3D视觉国际会议，第239-248页，2016年。

[17] [17] D.Eigen、C.Puhrsch和R.Fergus，“使用多尺度深度网络从单个图像预测深度图”，《神经信息处理系统进展》，第2366-2374页，2014年。

[18] [18] C.Godard、O.Mac Aodha和G.J.Brostow，“具有左右一致性的无监督单目深度估计”，Proc。IEEE计算机视觉和模式识别会议，第270-279页，2017年。

[19] [19] D.Xu、E.Ricci、W.Ouyang、X.Wang和N.Sebe，“多尺度连续crf作为单目深度估计的顺序深网络”，Proc。IEEE计算机视觉和模式识别会议，第5354-5362页，2017年。

[20] [20] J.Xie、R.Girshick和A.Farhadi，“Deep3d:使用深度卷积神经网络的全自动二维到三维视频转换”，《欧洲计算机视觉会议》，第842-857页，2016年。

[21] [21]J.Flynn、I.Neulander、J.Philbin和N.Snavely，“深度立体：学习从世界图像预测新视图”，Proc。IEEE计算机视觉和模式识别会议，第5515-5524页，2016年。

[22] [22]J.Lee、H.Jung、Y.Kim和K.Sohn，“使用多尺度深度神经网络的自动二维到三维转换”，2017 IEEE图像处理国际会议（ICIP），第730-7341017页。

[23] [23]M.Jaderberg，K.Simonyan，A.Zisserman等人，“空间变压器网络”，《神经信息处理系统进展》，第2017-2025页，2015年。

[24] [24]L.Wei，W.Yihong，H.Zhanyi，“电影2D到3D转换技术综述”，《计算机辅助设计与计算机图形学杂志》，第24卷，第1期，第14-28页，2012年。

[25] [25]H.-t.Lim、H.G.Kim和Y.M.Ro，“使用深度卷积神经网络进行视图合成的基于学习的孔洞填充方法”，《电子成像》，2016年第14期，第1-5页，2016年。

[26] [26]C.Li、X.Sang、D.Chen和D.Zhang，“基于上下文学习的深度图像渲染（DIBR）的创新填孔方法”，光电成像与多媒体技术V，第10817卷，第1081706页，国际光学与光子学学会，2018年。

[27] [27]N.K.Kalantari、T.-C.Wang和R.Ramamoorthi，“基于学习的光场相机视图合成”，ACM Trans。关于图形（TOG），第35卷，第6期，第1-10页，2016年。

[28] [28]Y.Li、J.-B.Huang、N.Ahuja和M.-H.Yang，“深度联合图像过滤”，欧洲计算机视觉会议，第154-169页，2016年。

[29] [29]S.Iizuka、E.Simo-Serra和H.Ishikawa，“全球和本地一致的图像完成”，ACM Trans。关于图形（ToG），第36卷，第4期，第1-14页，2017年。

[30] [30]K.Nazeri、E.Ng、T.Joseph、F.Z.Qureshi和M.Ebrahimi，“边缘连接：使用对抗性边缘学习进行生成图像修复”，arXiv预印本arXiv:1901.00212019。

[31] [31]L.-C.Chen，J.T.Barron，G.Papandreou，K.Murphy和A.L.Yuille，“使用cnns和判别训练的域变换进行任务特定边缘检测的语义图像分割，”Proc。IEEE计算机视觉和模式识别会议，第4545-4554页，2016年。

[32] [32]L.Zhang和W.J.Tam，“基于深度图像的3D电视立体图像生成”，IEEE Trans。《广播》，第51卷，第2期，第191-199页，2005年。

[33] [33]C.Barnes、E.Shechtman、A.Finkelstein和D.B.Goldman，“PatchMatch:结构图像编辑的随机对应算法”，ACM Trans。图表。，第28卷，第3期，第24期，2009年。

[34] [34]J.Yu，Z.Lin，J.Yang，X.Shen，X.Lu和T.S.Huang，“门控卷积的自由形式图像修复”，Proc。IEEE/CVF计算机视觉国际会议，第4471-44802019页。

[35] [35]Y.Chen、L.Shi、Q.Feng、J.Yang、H.Shu、L.Luo、J.-L.Coatrieux和W.Chen，“低剂量CT图像处理的人工抑制字典学习”，IEEE Trans。医学成像，第33卷，第12期，第2271-2292页，2014年。

基于学习的级联深度神经网络立体视图合成

刘伟（音译）*,†、马丽燕**和崔明月*

刘伟（音译）^*,†、马丽燕^**和崔明月^*