ViP-DeepLab:通过深度软件视频全景分割学习视觉感知

在本文中,我们提出了ViP-DeepLab,这是一个统一的模型,试图解决视觉中长期存在的具有挑战性的反向投影问题,我们将其建模为从透视图像序列中恢复点云,同时为每个点提供实例级语义解释。解决这个问题需要视觉模型预测每个3D点的空间位置、语义类和时间一致的实例标签。ViP-DeepLab通过联合执行单目深度估计和视频全景分割来实现它。我们将此联合任务命名为深度软件视频全景分割,并提出了一个新的评估指标以及两个派生数据集,将向公众开放。在单个子任务上,ViP-DeepLab也取得了最先进的结果,在Cityscapes-VPS上以5.1%的VPQ超过了以前的方法,在KITTI单目深度估计基准上排名第一,在KITTI MOTS行人上排名第一。数据集和评估代码已公开。

PDF格式 摘要 CVPR 2021 PDF文件 CVPR 2021摘要

论文的结果


排名第一视频全景分割城市景观-VPS(使用额外的培训数据)

     获取GitHub徽章
任务 数据集 模型 公制名称 公制值 全球排名 使用额外的
培训数据
结果 基准
深度软件视频全景分割 城市景观-DVPS ViP-Deeplab公司 DVPQ(DVPQ) 55.1 # 3
视频全景分割 城市景观-VPS VIP-深实验室 VPQ(虚拟产品质量) 63.1 # 1
VPQ(事物) 49.5 # 2
VPQ(资料) 73 # 1
深度软件视频全景分割 SemKITTI-DVPS公司 ViP-Deeplab公司 DVPQ(DVPQ) 45.6 # 2

方法