查尔斯·詹姆斯托马斯·普菲斯特德里克·马吉戴维·霍格安德鲁·齐瑟曼



概述

为了解释人们的手语或手势,我们的目标是在长视频序列中有效地获得可靠的2D上半身姿势估计。我们提出了一种随机森林框架,它提供了姿势结构化输出,并克服了与独立身体关节检测相关的缺陷。


输出示例

一个人的肩膀、肘部、手腕和头部的2D图像位置构成了2D姿势估计。英国广播公司电视台(BBC TV)对一位手语签名者的姿势估计如下图所示。


独立体关节检测缺陷

基于随机森林的姿势估计器通常独立检测关节。独立性假设可能导致两个主要问题:


顺序森林

与典型的基于随机森林的姿态估计器不同,我们考虑了上身关节之间的相关性,并克服了独立性假设的缺陷。使用手臂的自然运动链作为约束,我们依次检测关节。每一个身体关节检测都是以序列中的前一个为条件的:首先我们检测头部,然后是肩膀、肘部和手腕,分别检测左臂和右臂。


每个条件人体关节检测器是由随机森林专家组成的混合体,由分类森林和回归森林组成。上图显示了腕部探测器的示例。

时序森林

每帧检测使用以下时间上下文进行增强:(1)顺序森林从相邻帧生成置信图,(2)使用密集光流的轨迹,置信图被扭曲并与当前帧对齐,(3)通过像素级对扭曲的置信图求和生成合成图,(4)最终的姿势输出只是合成贴图中最大置信度的位置。手腕检测加固示例如下所示:


优点

  1. 结构化姿势输出-减少手部混淆和不受约束的姿势。
  2. 改进的检测-本地化专家减少了特征空间,这使得学习更容易。
  3. 考虑了大量有用的图像上下文-例如,在做出最终决定之前,手腕检测会考虑手腕、肘部、肩部和头部周围的图像背景。
  4. 快速推理-随机森林只在专家位置进行评估,而不是在所有位置进行评估的滑动窗口方法。
  5. 探测器不会“丢失轨迹”-姿态估计不依赖于先前检测到的姿态,相反,我们使用时间窗口来执行每帧检测,这意味着误差不会随着时间传播。

结果


工具书类

[1] Escalera S.、J.Gonzalez、X.Baro、M.Reyes、O.Lopes、I.Guyon、V.Athistos和H.J.Escalante。2013年多模式手势识别挑战:数据集和结果。2013年ICMI
[2] J.Charles、T.Pfister、M.Everingham和A.Zisserman。手语视频中的自动高效人体姿势估计。IJCV,2013年。

我们其他相关工作的视频演示


手语视频中人体姿态的自动高效估计


签名电视广播中上身姿态跟踪的域自适应


出版物


J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
2014年英国机器视觉会议
最佳墙报奖

J.Charles,T.Pfister,M.Everingham,A.齐瑟曼
国际计算机视觉杂志,2013

J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
2013年英国机器视觉会议

T.Pfister,J.Charles,M.Everingham,A.齐瑟曼
2012年英国机器视觉会议
最佳论文荣誉奖和最佳视频奖

致谢

财政支持由EPSRC拨款EP/I012001/1和EP/I01229X/1提供