Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot, Generalizable Approach using RGB Images

Pan, Panwang; Fan, Zhiwen; Feng, Brandon Y.; Wang, Peihao; Li, Chenxin; Wang, Zhangyang

计算机科学>计算机视觉与模式识别

arXiv:2306.07598（cs）

【于2023年6月13日提交】

标题：学习从有限的数据估计6DoF姿势：使用RGB图像的一种少快照、可概括的方法

作者：潘旺潘,范志文,布兰登·冯,王培浩,李晨欣,张扬·王

查看PDF

摘要：准确估计六自由度（6DoF）物体的姿态对于机器人和增强现实中的许多应用至关重要。然而，现有的6DoF姿态估计方法通常依赖于CAD模板或密集的支持视图，这限制了它们在实际情况中的实用性。在这项研究中，我们提出了一种新的级联框架Cas6D，用于少数镜头的6DoF姿势估计，该框架可以推广，并且只使用RGB图像。为了解决在极少数镜头设置下目标检测的误报问题，我们的框架使用了一个自我监督的预训练ViT来学习鲁棒的特征表示。然后，我们基于相似度得分初始化最近的top-K姿势候选，并使用特征金字塔细化初始姿势，以形成和更新级联扭曲特征体，该特征体以越来越精细的尺度编码上下文。通过使用多个姿势箱离散姿势搜索范围，并使用前一阶段的预测逐步缩小每个阶段的姿势搜索范围。Cas6D可以克服姿势候选与地面真实姿势之间的巨大差距，这是稀疏视图场景中常见的故障模式。在LINEMOD和GenMOP数据集上的实验结果表明，与OnePose++和Gen6D相比，Cas6D在32镜头设置下的准确率（Proj-5）分别高达9.2%和3.8%。

学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2306.07598[cs.CV]
	（或 arXiv:2306.07598v1[简历]对于此版本）
	https://doi.org/10.48550/arXiv.2306.07598

提交历史记录

发件人：范志文[查看电子邮件]
[第1版]2023年6月13日星期二07:45:42 UTC（2524 KB）

计算机科学>计算机视觉与模式识别

标题：学习从有限的数据估计6DoF姿势：使用RGB图像的一种少快照、可概括的方法

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：学习从有限的数据估计6DoF姿势：使用RGB图像的一种少快照、可概括的方法

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目