上传图像以自定义存储库的社交媒体预览。图像应至少为640×320px(1280×640px为最佳显示)。
在您的github自述.md文件到展示模型的性能。
自述.md
徽章是实时的,将是动态的更新了此的最新排名纸张。
[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswitchcode.com/badge/vip-使用/video-panoptic-segration-on-cityscapes-vps进行深度学习-视觉感知](https://paperswithcode.com/sota/video-panoptic-segition-on-cityscapes-vps?p=vip-深度学习-视觉感知)
[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/bade/vip-使用/depth-aware-video-panoptic-section-on-1)进行深度学习视觉感知](https://paperswithcode.com/sota/depth-aware-video-panoptic-segration-on-1?p=vip-深度学习-视觉感知)
[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/bade/vip-使用/depth-aware-video-panoptics-segmation-on)进行深度学习视觉感知](https://paperswithcode.com/sota/depth-aware-video-panoptic-segration-on?p=vip-深度学习-视觉感知)
CVPR 2021年 · 思源桥, 朱玉坤, 哈特维格·亚当, 艾伦·尤伊尔, 陈良杰 · 编辑社交预览
在本文中,我们提出了ViP-DeepLab,这是一个统一的模型,试图解决视觉中长期存在的具有挑战性的反向投影问题,我们将其建模为从透视图像序列中恢复点云,同时为每个点提供实例级语义解释。解决这个问题需要视觉模型预测每个3D点的空间位置、语义类和时间一致的实例标签。ViP-DeepLab通过联合执行单目深度估计和视频全景分割来实现它。我们将此联合任务命名为深度软件视频全景分割,并提出了一个新的评估指标以及两个派生数据集,将向公众开放。在单个子任务上,ViP-DeepLab也取得了最先进的结果,在Cityscapes-VPS上以5.1%的VPQ超过了以前的方法,在KITTI单目深度估计基准上排名第一,在KITTI MOTS行人上排名第一。数据集和评估代码已公开。
论文介绍:
在论文中使用:
排名第一视频全景分割城市景观-VPS(使用额外的培训数据)