Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

Liu, Youquan; Kong, Lingdong; Cen, Jun; Chen, Runnan; Zhang, Wenwei; Pan, Liang; Chen, Kai; Liu, Ziwei

计算机科学>计算机视觉和模式识别

arXiv公司：2306.09347（个）

【于2023年6月15日提交(第1版)，最新修订日期：2023年10月24日（本版本，v2）]

标题：通过提取视觉基础模型分割任意点云序列

作者：刘友泉,孔令东,岑钧,陈润南,张文伟（Wenwei Zhang）,梁磐,陈凯（Kai Chen）,刘子蔚

查看PDF

摘要：视觉基础模型（VFM）的最新进展为多功能和高效视觉感知开辟了新的可能性。在这项工作中，我们介绍了Seal，这是一个利用VFM分割不同汽车点云序列的新框架。Seal展示了三个吸引人的特性：i）可伸缩性：VFM被直接提取为点云，在预训练期间无需使用2D或3D注释。ii）一致性：在相机到激光雷达和点到段的正则化阶段，都会强制执行空间和时间关系，从而促进跨模式表征学习。iii）通用性：Seal能够以非自助方式将知识传递给涉及不同点云的下游任务，包括来自真实/合成、低/高分辨率、大/小规模和干净/损坏数据集的点云。在11个不同的点云数据集上进行的大量实验表明了Seal的有效性和优越性。值得注意的是，在线性探测后，Seal在nuScenes上实现了45.0%的惊人mIoU，超过了36.9%的随机初始化，超过了6.1%的现有技术。此外，Seal在所有11个测试点云数据集上的20个不同的小范围微调任务中，与现有方法相比，性能显著提高。

评论：	NeurIPS 2023（聚光灯）；37页，16幅图，15张表；代码位于此https URL
学科：	计算机视觉和模式识别（cs.CV）; 机器学习（cs.LG）；机器人（cs.RO）
引用为：	arXiv：2306.09347[cs.CV]
	（或 arXiv:2306.09347v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2306.09347

提交历史记录

发件人：香港凌东[查看电子邮件]
[第1版]2023年6月15日星期四17:59:54 UTC（15263 KB）
[版本2]2023年10月24日星期二09:51:00 UTC（15265 KB）

计算机科学>计算机视觉和模式识别

标题：通过提取视觉基础模型分割任意点云序列

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：通过提取视觉基础模型分割任意点云序列

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目