研究论文

开放式访问

OccluBEV：用于多视图3D对象检测的遮挡感知时空建模

作者:

陈瑜线路接口单元,

海波风扇作者信息和声明

MM'23：第31届ACM国际多媒体会议论文集

2023年10月

页4074-4083

https://doi.org/10.1145/3581783.3613798

出版:2023年10月27日出版历史

PDF格式电子阅读器

摘要

基于鸟瞰视图（BEV）的三维视觉感知，为多视图表示建立了统一的空间，由于其对下游任务的可扩展性，在自动驾驶领域受到了广泛关注。然而，基于变换的BEV方法中的视图变换不确定3D遮挡关系，从而导致模型退化。为了构造高质量的BEV空间，分析了视图变换过程中的相互遮挡问题，提出了一种新的基于变换的方法OccluBEV。OccluBEV通过在图像和BEV空间中提取点云信息来缓解遮挡问题。具体来说，在图像空间中，我们对每个像素进行深度估计，并利用它指导图像特征映射。此外，由于直接从单目图像预测深度是不适定的，忽略了立体信息，如多视图和时间线索，本文引入了三维BEV空间中的体素可见性分割任务。该任务明确预测3D BEV网格中的每个体素是否被占用。此外，为了缓解单一任务下BEV特征学习中的过拟合问题，我们设计了一个多头部学习框架，该框架在统一的BEV空间中联合建模多个强相关任务。该方法的有效性在nuScenes数据集上得到了充分验证，在使用ResNet101主干网的nuScene测试排行榜上，获得了57.5/47.9的竞争性NDS/mAP分数，这优于最先进的基于摄像头的解决方案。

工具书类

[1]

加里克·巴西和刘晓明。2019.M3d-rpn：用于目标检测的单眼三维区域建议网络。IEEE/CVF计算机视觉国际会议论文集。9287--9296.

[2]

Holger Caesar、Varun Bankiti、Alex H Lang、Sourabh Vora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。2020年。nuscenes：自动驾驶的多模式数据集。IEEE/CVF计算机视觉和模式识别会议论文集。11621--11631.

[3]

Yigit Baran Can、Alexander Liniger、Danda Pani Paudel和Luc Van Gool。2021.从机载图像了解结构化鸟瞰交通场景。在ICCV中。15661--15670.

[4]

尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳维、尼古拉斯·乌苏尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁科。2020年，使用变压器进行端到端物体检测。2020年8月23日至28日，英国格拉斯哥，第16届欧洲会议，计算机愿景-ECCV 2020，会议记录，第一部分16。施普林格，213年至229年。

数字图书馆

[5]

陈晓志、马惠民、纪婉、李波、田霞。2017.用于自动驾驶的多视图三维物体检测网络。在IEEE计算机视觉和模式识别会议记录中。1907--1915.

[6]

陈永健、泰磊、孙凯和李明阳，2020年。单对：使用成对空间关系进行单目三维物体检测。在IEEE/CFF计算机视觉和模式识别会议论文集上。12093--12102.

[7]

戴继峰、齐浩志、熊宇文、李毅、张国栋、胡涵、魏一晨。2017.可变形卷积网络。IEEE计算机视觉国际会议论文集。764--773.

[8]

邓小平和克尔兹托夫·沙内基。2019.MLOD：基于鲁棒特征融合方法的多视图三维目标检测。2019年IEEE智能交通系统会议（ITSC）。IEEE，279--284。

[9]

安东尼·胡、扎克·穆雷斯、尼基尔·莫汉、索菲亚·杜达斯、杰弗里·霍克、维杰伊·巴德里纳亚南、罗伯托·西波拉和亚历克斯·肯德尔。2021.FIERY：从环绕单目摄像机鸟瞰图中预测未来实例。IEEE/CVF计算机视觉国际会议论文集。15273--15282.

[10]

Jordan SK Hu、Tinshu Kuai和Steven L Waslander。2022.用于激光雷达三维目标检测的点密度感知体素。IEEE/CVF计算机视觉和模式识别会议论文集。8469--8478.

[11]

黄俊杰、黄冠、朱征、叶云和杜大龙。2021.Bevdet：高性能的鸟瞰多摄像机三维物体检测。arXiv预印本arXiv:2112.1790（2021）。

[12]

Alex H Lang、Sourabh Vora、Holger Caesar、Lubing Zhou、Jiong Yang和Oscar Beijbom。2019.Pointpollars：用于点云目标检测的快速编码器。IEEE/CVF计算机视觉和模式识别会议论文集。12697--12705.

[13]

2019年，李永文、黄宗文、李圣禄、裴玉祥和钟郁公园。用于实时目标检测的能量和GPU计算高效骨干网络。在CVPR研讨会上。

[14]

李步友、欧阳万丽、陆胜、曾星宇和王晓刚。2019.Gs3d：用于自动驾驶的高效三维物体检测框架。IEEE/CVF计算机视觉和模式识别会议论文集。1019--1028.

[15]

李洪阳、司马崇浩、戴继峰、王文海、陆乐伟、王慧杰、谢恩泽、李志奇、邓汉明、田浩等，2022d。深入了解鸟瞰感知的魔鬼：回顾、评估和食谱。arXiv预印arXiv:2209.05324（2022）。

[16]

李银浩、韩宝、郑戈、杨金荣、孙建坚和李泽明。2022a。Bevstereo：使用动态时间立体增强多视图三维对象检测中的深度估计。arXiv预打印arXiv:2209.10248（2022）。

[17]

李艳伟、陈一伦、齐晓娟、李泽明、孙健和贾佳娅。2022b年。将基于体素的表示与变换器统一用于三维对象检测。arXiv预打印arXiv:2206.00630（2022）。

[18]

李银浩、郑戈、于冠毅、杨金荣、王曾格兰、史玉康、孙建坚、李泽明。2022c。Bevdepth：获取可靠的深度，用于多视图三维对象检测。arXiv预印arXiv:2206.10092（2022）。

[19]

李志超、王峰和王乃燕。2021.激光雷达r-cnn：一种高效通用的三维物体探测器。IEEE/CVF计算机视觉和模式识别会议论文集。7546--7555.

[20]

李志琦、王文海、李洪阳、谢恩泽、司马崇浩、桐庐、于乔、戴继峰。2022 e.Bevformer：通过时空变换器从多摄像机图像学习鸟瞰图表示。2022年10月23日至27日在以色列特拉维夫举行的第17届欧洲会议，计算机愿景-ECCV 2022，会议记录，第九部分。斯普林格出版社，1-18。

[21]

刘英飞、闫俊杰、范佳、李帅林、齐高、王天才、张向玉和孙建军。2022.Petrv2：多摄像机图像三维感知的统一框架。arXiv预打印arXiv:2206.01256（2022）。

[22]

马新竹、欧阳万里、安德烈亚·西蒙利和伊丽莎·里奇。2022.自动驾驶图像中的3D物体检测：一项调查。arXiv预打印arXiv:22022.02980（2022）。

[23]

马新竹、王志辉、李浩杰、张鹏博、欧阳万里和范欣。2019.通过彩色嵌入三维重建精确检测单目三维物体，实现自动驾驶。IEEE/CVF计算机视觉国际会议论文集。6851--6860.

[24]

金庸公园、徐晨峰、杨世嘉、库尔特·凯泽尔、克里斯·基塔尼、丰田正史和魏战。2022.时间会告诉我们：时间多视图三维物体检测的新前景和基线。arXiv预打印arXiv:2210.02443（2022）。

[25]

Jonah Philion和Sanja Fidler。2020年。提升、放大、拍摄：通过隐式取消投影到3d，对来自任意相机设备的图像进行编码。《计算机视觉——ECCV 2020：第16届欧洲会议》，英国格拉斯哥，2020年8月23日至28日，会议记录，第十四部分16。斯普林格，194-210。

数字图书馆

[26]

Charles R Qi、Wei Liu、Chen Xia Wu、Hao Su和Leonidas J Guibas。2018.rgb-d数据三维物体检测的树突点网。在IEEE计算机视觉和模式识别会议记录中。918--927.

[27]

科迪·雷丁（Cody Reading）、阿里·哈拉基（Ali Harakeh）、朱莉娅·蔡（Julia Chae）和史蒂文·沃斯兰德（Steven L Waslander）。2021.单目三维物体检测的分类深度分布网络。IEEE/CVF计算机视觉和模式识别会议论文集。8555--8564.

[28]

托马斯·罗迪克、亚历克斯·肯德尔和罗伯托·西波拉。2018.用于单目三维物体检测的正交特征变换。arXiv预印arXiv:1811.08188（2018）。

[29]

丹尼尔·鲁霍维奇（Danila Rukhovich）、安娜·沃龙佐娃（Anna Vorontsova）和安东·科努辛（Anton Konushin）。2022.Imvoxelnet：用于单目和多视图通用三维物体检测的图像到体素投影。IEEE/CVF计算机视觉应用冬季会议论文集。2397--2406.

[30]

史绍帅，王晓刚，李洪生，2019。Pointrcnn：从点云生成和检测三维对象建议。IEEE/CVF计算机视觉和模式识别会议论文集。770--779.

[31]

施绍帅、王哲、施建平、王晓刚和李洪生，2020年。从点到零件：使用零件软件和零件聚集网络从点云进行三维物体检测。IEEE模式分析和机器智能事务，第43卷，第8期（2020年），第2647-2664页。

[32]

Tai Wang、ZHU Xinge、Jiangmiao Pang和Dahua Lin.2022c。概率和几何深度：透视检测物体。在机器人学习会议上。PMLR，1475-1485年。

[33]

Tai Wang、Xinge Zhu、Jiangmiao Pang和Dahua Lin.2021。Fcos3d：完全卷积单阶段单目三维物体检测。在IEEE/CFF国际计算机视觉会议论文集上。913--922.

[34]

Yan Wang、Wei-Lun Chao、Divyansh Garg、Bharath Hariharan、Mark Campbell和Kilian Q Weinberger。2019.来自视觉深度估计的伪线：填补自动驾驶三维物体检测的空白。IEEE/CVF计算机视觉和模式识别会议论文集。8445--8453.

[35]

王悦（Yue Wang）、维托尔·坎帕尼奥洛·吉齐里尼（Vitor Campagnolo Guizilini）、张天元（Tianyuan Zhang）、王毅伦（Yilun Wang），赵杭（Hang Zhao）和贾斯汀·所罗门。2022a年。Detr3d:通过三维到二维查询从多视图图像中检测三维对象。在机器人学习会议上。PMLR，180--191。

[36]

王增然、陈敏、郑戈、李银浩、李泽明、杨洪宇和黄迪。2022b年。Sts：用于多视图三维检测的环绕视频时间立体声。arXiv预打印arXiv:2208.10145（2022）。

[37]

翁新硕和基塔尼。2019.使用伪线点云进行单目三维物体检测。IEEE/CVF国际计算机视觉研讨会论文集。0-0.

[38]

特纳·惠特德（Turner Whitted）。2005.改进的阴影显示照明模型。在ACM Siggraph 2005课程中。4秒。

[39]

吴鹏翔、陈思恒和Dimitris N Metaxas。2020年，Motionnet：基于鸟瞰图的自动驾驶联合感知和运动预测。IEEE/CVF计算机视觉和模式识别会议论文集。11385--11395.

[40]

杨晨瑜、陈云涛、田浩、陶晨欣、朱西洲、张兆祥、高煌、李洪阳、于乔、陆乐伟等，2022年。BEVFormer v2：通过透视监督将现代图像主干应用于鸟瞰识别。arXiv预打印arXiv:2211.10439（2022）。

[41]

Ze Yang和Liwei Wang。2019.多视图3D对象识别的学习关系。IEEE/CVF计算机视觉国际会议论文集。7505--7514.

[42]

尹天伟（Tianwei Yin）、周兴义（Xingyi Zhou）和菲利普·克拉亨布尔（Philipp Krahenbuhl）。2021.基于中心的三维物体检测和跟踪。IEEE/CVF计算机视觉和模式识别会议论文集。11784--11793.

[43]

Yurong You、Yan Wang、Wei Lun Chao、Divyansh Garg、Geoff Pleiss、Bharath Hariharan、Mark Campbell和Kilian Q Weinberger。[编号，日期]。Pseudo-LiDAR：自动驾驶中3D物体检测的精确深度。在学习代表国际会议上。

[44]

张云鹏、陆继文、周杰。2021.物体不同：灵活的单目三维物体检测。IEEE/CVF计算机视觉和模式识别会议论文集。3289--3298.

[45]

2022年，张云鹏、郑朱、郑文钊、黄俊杰、黄关煌、周杰和陆继文。贝弗斯：以视觉为中心的自动驾驶鸟瞰图中的统一感知和预测。arXiv预打印arXiv:2205.09743（2022）。

[46]

Yin Zhou和Oncel Tuzel。2018.Voxelnet：基于点云的三维物体检测的端到端学习。在IEEE计算机视觉和模式识别会议记录中。4490--4499.

[47]

朱本进（Benjin Zhu）、蒋正凯（Zhengkai Jiang）、周向新（Xiangxin Zhou）、李泽明（Zeming Li）和余刚（Gang Yu）。2019.点云三维物体检测的分类分组和采样。arXiv预印本arXiv:1908.09492（2019）。

索引术语

OccluBEV：用于多视图3D对象检测的遮挡感知时空建模
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉任务
        场景理解

建议

用于三维重建的宽带多视点视频分割
3DVP’10：第一届3D视频处理国际研讨会会议记录

跨多个视图获取前景轮廓是三维重建的基本步骤之一。在本文中，我们提出了一种新的视频分割方法，用于获取宽基线相机拍摄的场景的前景轮廓。。。
阅读更多信息
基于对抗学习的未标定多视角多人关联和三维姿态估计
摘要
在计算机视觉应用中，多人3D姿势估计是一项有用但具有挑战性的任务。利用多视点框架可以验证多人二维和三维姿态估计中的模糊性，其中遮挡或自遮挡是多人姿态估计的关键。。。
阅读更多信息
混合相机场景下的多视图结构移动

我们描述了一种混合相机类型（即全向相机和透视相机）的结构自移动（SfM）流水线。对于该流水线的步骤，我们提出了新的方法或对现有的透视相机方法进行了改进，以使其更符合实际情况。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

23岁MM：第31届ACM国际多媒体会议记录

2023年10月

9913页

国际标准图书编号：9798400701085

DOI（操作界面）：10.1145/3581783

一般主席：
阿卜杜勒穆塔勒布·萨迪克
加拿大渥太华大学和阿联酋MBZUAI
,
陶美
HiDream.ai，中国
,
丽塔·库奇亚拉
意大利摩德纳和雷吉奥·艾米利亚大学
,
课程主席：
贝尔蒂尼
意大利佛罗伦萨大学
,
戴安娜·帕特里夏·托本·瓦莱霍
哥伦比亚麦德林大学
,
Pradeep K.Atrey公司
美国纽约州立大学奥尔巴尼分校
,
沙米姆·侯赛因
M.Shamim Hossain（沙特阿拉伯国王大学

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

赞助商

SIGMM:ACM多媒体特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2023年10月27日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

会议

23年月日

赞助商：

SIGMM公司

23岁MM：第31届ACM国际多媒体会议

2023年10月29日至11月3日

加拿大渥太华安大略省

接受率

4171份提交文件的总体接受率为995份，24%

即将召开的会议

24年月日

赞助商：
西格姆

24岁MM：第32届ACM国际多媒体会议

2024年10月28日至11月1日

墨尔本，维多利亚州，澳大利亚

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
509
总下载次数

下载次数（过去12个月）509
下载次数（最近6周）41

其他指标

查看作者指标

引文

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子