直接多视图多人三维姿态估计

的一部分神经信息处理系统34的进展(NeurIPS 2021)

Biptex公司 纸类 评论和公众评论» 补充的

作者

王涛、张建峰、蔡玉军、颜水成、冯家石

摘要

我们提出了多视图姿态变换器(MvP),用于从多视图图像中估计多人三维姿态。MvP不是像以前的方法那样从昂贵的体积表示估计3D关节位置,或者从检测到的多个2D姿势重建每个人的3D姿势,而是以干净有效的方式直接回归多人的3D姿势,而不依赖于中间任务。具体来说,MvP将骨架关节表示为可学习的查询嵌入,并让它们逐步关注和推理来自输入图像的多视图信息,以直接回归实际的3D关节位置。为了提高这种简单流水线的准确性,MvP提出了一种层次化方案来简明地表示多人骨架关节的查询嵌入,并引入了一种输入相关的查询自适应方法。此外,MvP设计了一种新的几何引导注意机制,称为投射注意,以更精确地融合每个关节的横视信息。MvP还引入了RayConv操作,将视相关相机几何体集成到特征表示中,以增强投影注意力。我们通过实验证明,我们的MvP模型在几个基准上优于最先进的方法,同时效率更高。值得注意的是,它在具有挑战性的全景数据集上实现了92.3%的AP25,比之前的最佳方法[35]提高了9.8%。MvP是通用的,也可以扩展到恢复由SMPL模型表示的人体网格,因此有助于建模多人身体形状。代码和型号可在https://github.com/sail-sg/mvp。