CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers

Xu, Runsheng; Tu, Zhengzhong; Xiang, Hao; Shao, Wei; Zhou, Bolei; Ma, Jiaqi

计算机科学>计算机视觉和模式识别

arXiv:2207.02202（cs）

【2022年7月5日提交(第1版)，上次修订日期：2022年9月25日（此版本，v2）]

职务：CoBEVT：基于稀疏变换的协同鸟瞰语义分割

作者：徐润生，郑忠图，郝翔，魏绍，周伯雷，马嘉琪

查看PDF

摘要：鸟瞰图（BEV）语义分割在自动驾驶空间感知中起着至关重要的作用。尽管最近的文献在BEV地图理解方面取得了重大进展，但它们都是基于单代理摄像机的系统。这些解决方案有时难以在复杂的交通场景中处理遮挡或检测远处的物体。车辆对车辆（V2V）通信技术使自动车辆能够共享传感信息，与单代理系统相比，大大提高了感知性能和范围。在本文中，我们提出了CoBEVT，这是第一个可以协同生成BEV地图预测的通用多代理多摄像机感知框架。为了从底层Transformer架构中的多视图和多代理数据中有效地融合摄像机特征，我们设计了一个融合轴向注意模块（FAX），该模块捕获视图和代理之间稀疏的局部和全局空间交互。在V2V感知数据集OPV2V上的大量实验表明，CoBEVT在合作BEV语义分割方面取得了最先进的性能。此外，CoBEVT还可以推广到其他任务，包括1）使用单代理多摄像机进行BEV分割，以及2）使用多代理LiDAR系统进行3D对象检测，以实时推理速度实现了最先进的性能。该代码可在此https URL.

评论：	CoRL 2022；代码：此https URL
学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv公司：2207.02202[cs.CV]
	（或 arXiv:2207.02202v2[cs.CV]对于此版本）
	https://doi.org/10.44850/arXiv.2207.02202

提交历史记录

发件人：屠正中[查看电子邮件]
[第1版]2022年7月5日星期二17:59:28 UTC（26893 KB）
[版本2]2022年9月25日星期日07:19:32 UTC（27515 KB）

计算机科学>计算机视觉和模式识别

职务：CoBEVT：基于稀疏变换的协同鸟瞰语义分割

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

职务：CoBEVT：基于稀疏变换的协同鸟瞰语义分割

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目