视觉几何组-牛津大学

马金·艾奇纳,曼纽尔·马林,安德鲁·齐瑟曼,维托里奥·法拉利

概述

给我们一个视频镜头，我们想要检测和估计每个视频帧中每个人的2D身体姿势，即恢复身体部位的空间结构。由于我们主要对电视节目感兴趣通常只能从他们的腰部以上看到，我们关注六个身体部位：头部、躯干、左上臂/下臂/右臂。

为什么这么难？

二维铰接体模型的参数，例如每个身体部位的位置/方向/比例，生活在一个高维的搜索空间中。即使放弃了违反运动学的空间配置约束条件下，仍有大量可能的配置。

电视节目的特点是高度挑战性、不受控制的条件。许多因素是未知的，并且可能随着场景和时间的推移而变化。人们可以出现在图像中的任何位置和比例，并且可以穿任何颜色/质地的任何类型的衣服。背景和相机都可以移动，同时可以有多个人在场。当一无所知时先验的关于外观、姿势、位置和比例对于人来说，姿势估计是非常困难的。

理想情况下，我们应该尽可能少地做出假设。目前，我们的方法只假设人们看起来直立，但对服装、位置/规模、移动摄像机/背景没有任何限制，或手臂姿势。因此，我们的方法可以处理各种各样的手臂姿势（见图1）。

图1。方法

那么我们该怎么做呢？

我们的方法建立在Ramanan的图形结构引擎之上[6]。基于以上原因，直接搜索整个空间这是一项耗时且非常脆弱的操作。

在[1]中，我们引入了一个初始的上身检测阶段一般的姿势和外观。它提供了人员的大致位置和规模，以及躯干和头部的大致位置（图1a）。为了进一步限制搜索空间，使用分段算法（GrabCut），根据检测窗口的位置，我们提取可能覆盖一个人的前景区域（图1c）。

在[3]中，我们通过添加先验信息来扩展模型要求躯干和头部的方向接近垂直。这种利用正确假设的额外方法进一步缩小了搜索空间。

在[4]中，我们提出了一种估计特定于每个特定图像和人的外观模型的技术。为此，我们利用不同身体部位外观之间的依赖性以及它们相对于检测窗口的位置稳定性（图1b）。

上述阶段逐渐减少了身体部位的搜索空间，从而大大方便了后续图形结构估计的任务。我们对整个研究领域进行了全面研究[5]。

姿势估计结果示例

在图2中，我们显示了一些示例结果。有关更多详细信息和定量评估，请参阅我们的论文[1-5]。

图2。姿态估计结果

姿势搜索的应用

在不受控制的视频中估计2D姿势的能力打开了现有的新可能性。在[3]中，我们探索了其中一种，称为“姿势搜索”。姿势搜索的任务是从视频数据库中检索包含特定姿势的镜头。用户可以通过单个帧或一小组示例指定查询姿势。该方法描述了由姿态估计器返回的身体部位的空间结构，具有与人、衣服、背景和光照无关的特征。即使从单个查询框架开始，这也可以实现良好的泛化。我们的研究[3,5]表明，这种基于显式姿势估计的方法优于使用HOG描述符的基线。