三维人体姿态和形状估计

三维重建与人的感知

人类非常善于从视觉数据中感知人。我们甚至不去想它，就能快速感知他人的身体形状、姿势、面部表情和衣着。我们的研究训练机器以与人类相同的细节水平感知人类。

虽然当前的计算机视觉方法可以预测2D姿势和图像分割，因为有注释数据可用，但预测3D人体几何、运动和服装是一个公开的问题，因为训练数据（图像及其相应的3D几何）不可用。

我们解决这个问题的方法是推断和学习3D空间中人的强大表现。直觉上，这种表征编码了人的机器心理模型。给定一幅图像，推理算法应该预测3D中的全部细节，这应该与学习的3D人形先验一致，并且其投影应该与图像观测重叠，见图1。这为半监督学习打开了大门，因为只有未标记的图像才能用于推断3D世界的属性。

遵循这一范式，我们引入了从图像重建三维人体形状和姿势、从视频重建人体形状和衣服以及从视频重建非刚性变形的方法。

基于图像和视频的人体姿态和形状估计以下为：我们引入了（Neural Body Fitting（NBF）），它在CNN中集成了一个统计三维人体模型（SMPL），利用可靠的自下而上语义身体部位分割和强大的自上而下的人体模型约束，见图顶部。NBF是完全可区分的，可以使用自我一致性进行训练——3D世界预测需要与2D图像匹配。这使得我们可以通过单独的图像来了解3D人类，见图2。

服装：理解人类行为不仅仅是关于运动和身体形状。人们穿的衣服类型是另一种表达方式。人们用衣服来表达他们的政治观点、年龄、性别或社会地位。我们的目标是从图像中感知和捕捉人体形状以及衣服（类别、外观和形状），而不是在不改变衣服的情况下推断身体姿势和形状。我们介绍了第一批算法，用于从视频中重建人类，包括他们的3D服装。我们最近的工作允许从一些图像中分别预测身体形状和衣服，允许对预测进行完全控制，见图3。

杰勒德·蓬斯·莫尔

DEPT.计算机视觉和机器学习
电话+49.681.9325-2135
电子邮件: gpons@mpi-inf.mpg.de公司