Arpit Mittal公司,安德鲁·齐瑟曼菲尔·托尔

概述

这项工作的目的是在静止图像中检测和定位人手。这是一项非常具有挑战性的任务,因为手的形状和视角可能非常不同,可以闭合或打开,可以部分咬合,可以有不同的手指关节,可以抓其他物体或其他手,等等。我们这样做的动机是,拥有一个可靠的手检测器有助于人类视觉识别中的许多其他任务,例如从静态图像中确定人类布局和动作。它也有利于人类的时间分析,例如识别视频中的手语、手势和活动。

我们该怎么做?

我们提出了一种基于两阶段假设和分类框架的检测器。首先,手假设由三种独立的方法提出:滑动窗口手形检测器、基于滑动窗口上下文的检测器和基于皮肤的检测器。滑动窗口检测器采用基于零件的可变形模型,具有三个组件。然后,用这三种方法对方案进行打分,并用一个判别训练模型对其进行验证。这三种提议机制确保了良好的召回率,而区分性分类则确保了较好的准确性。

此外,我们还开发了一种基于超像素的非最大值抑制新方法。下图概述了检测器。

示例图像 示例图像 示例图像 示例图像 示例图像
示例图像
(a) 输入图像
示例图像
(b) 手动假设
和上下文检测器

示例图像
(c) 皮肤检测和
假设

示例图像
(d) 超级像素
分段

示例图像
(e) 最终检测

*绿色从上下文检测器获得框,并且红色从手中接过。

示例结果


*顶行:来自手数据集的图像;中行:来自Signer数据集的图像;最下面一行:来自PASCAL VOC 2010人物布局测试集的图像。

可以看到手数据集上的更多结果在这里.

数据和地面真相注释

[1]中用于实验的手数据集以及所有13050个手实例的注释都可以在上找到本页.

评价

使用平均精度(AP)(精度召回曲线下的面积)评估性能。根据手部检测与地面边界框的重叠程度,判断手部检测是否正确。如果重叠分数大于0.5,则框为正数。重叠率是在地面周围的轴对齐边界矩形和检测到的手边界框之间计算的。有关绘图和评估性能,请参阅论文[1]。评估软件可从下载在这里.

代码

手部检测管道的参考实现可在本页.

出版物


[1]A.米塔尔,A.齐瑟曼,P.H.S.托尔
2011年英国机器视觉会议

致谢

这项工作由ERC拨款VisRec no.228180和ONR MURI N00014-07-1-0182资助。

erc标志 onr标志