ViP深度实验室

ViP DeepLab:通过深度感知视频全景分割学习视觉感知。在本文中,我们提出了一个统一的模型ViP DeepLab,它试图解决视觉中长期存在且具有挑战性的反投影问题,即从透视图像序列中恢复点云,同时为每个点提供实例级语义解释。解决这个问题需要视觉模型预测每个3D点的空间位置、语义类和时间一致的实例标签。ViP DeepLab通过联合执行单目深度估计和视频全景分割来实现这一目标。我们将这项联合任务命名为深度感知视频全景分割,并提出了一个新的评估指标和两个衍生的数据集,将提供给公众。在各个子任务上,ViP DeepLab也取得了最先进的结果,在城市景观视频处理系统(Cityscapes VPS)上的视频处理质量(VPQ)优于以往的方法5.1%,在KITTI单目深度估计基准测试中排名第一,在KITTI MOTS Peadband上排名第一。数据集和评估代码已公开

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换