计算机科学>计算机视觉与模式识别
标题: 学习从有限的数据估计6DoF姿势:使用RGB图像的一种少快照、可概括的方法
摘要: 准确估计六自由度(6DoF)物体的姿态对于机器人和增强现实中的许多应用至关重要。 然而,现有的6DoF姿态估计方法通常依赖于CAD模板或密集的支持视图,这限制了它们在实际情况中的实用性。 在这项研究中,我们提出了一种新的级联框架Cas6D,用于少数镜头的6DoF姿势估计,该框架可以推广,并且只使用RGB图像。 为了解决在极少数镜头设置下目标检测的误报问题,我们的框架使用了一个自我监督的预训练ViT来学习鲁棒的特征表示。 然后,我们基于相似度得分初始化最近的top-K姿势候选,并使用特征金字塔细化初始姿势,以形成和更新级联扭曲特征体,该特征体以越来越精细的尺度编码上下文。 通过使用多个姿势箱离散姿势搜索范围,并使用前一阶段的预测逐步缩小每个阶段的姿势搜索范围。Cas6D可以克服姿势候选与地面真实姿势之间的巨大差距,这是稀疏视图场景中常见的故障模式。 在LINEMOD和GenMOP数据集上的实验结果表明,与OnePose++和Gen6D相比,Cas6D在32镜头设置下的准确率(Proj-5)分别高达9.2%和3.8%。