ViP DeepLab:通过深度感知视频全景分割学习视觉感知

在本文中,我们提出了一个统一的模型ViP DeepLab,它试图解决视觉中长期存在且具有挑战性的反投影问题,即从透视图像序列中恢复点云,同时为每个点提供实例级语义解释。解决这个问题需要视觉模型预测每个3D点的空间位置、语义类和时间一致的实例标签。.. ViP DeepLab通过联合执行单目深度估计和视频全景分割来实现这一目标。我们将这项联合任务命名为深度感知视频全景分割,并提出了一个新的评估指标和两个衍生的数据集,将提供给公众。在各个子任务上,ViP DeepLab也取得了最先进的结果,在城市景观视频处理系统(Cityscapes VPS)上的视频处理质量(VPQ)优于以往的方法5.1%,在KITTI单目深度估计基准测试中排名第一,在KITTI MOTS Peadband上排名第一。数据集和评估代码已公开。 阅读更多

PDF格式 摘要 CVPR 2021 PDF版 CVPR 2021摘要

论文结果


 提交本文结果获得最先进的Gits和徽章社区将结果与其他论文进行比较。

方法