VGG人体姿势估计数据集

这个VGG人体姿势估计数据集是一组用人体上身姿势注释的大型视频数据集。这些数据可供计算机视觉社区用于研究目的。

下载数据集 下载代码 评价 引用

YouTube姿势[1]

YouTube Pose数据集是50个YouTube视频的集合,用于人体上身姿势估计。它由YouTube上的50个视频组成,涵盖了广泛的活动和人群,例如舞蹈、单口喜剧、如何操作、体育、磁盘骑师、表演艺术和舞蹈手语签名者。每个视频中的100帧都被手动标注了上半身关节的2D位置。

BBC姿势[6]

BBC Pose由20个由BBC录制的视频组成(每个视频的长度为0.5h-1.5h),并配有覆盖的手语翻译。

分为列车/验证/测试

这20个视频分为10个视频用于培训,5个视频用于验证,5个用于测试。数据集包含9个签名者;在这9个签名者中,训练和验证集包含5个,测试集包含另外4个。以这种方式分割数据可以为训练保持足够的多样性,但也可以确保公平性,因为测试集包含的签名者与训练和验证集完全不同。

手动地面实况(验证和测试)

通过对签名者的姿势进行聚类(使用Buehler等人CVPR’09的跟踪输出-见[3]中的第2节),并对每个验证和测试视频中的200帧进行采样,并在簇之间均匀采样,总共产生1000帧用于验证,1000帧用于测试。以这种方式采样可确保联合估计的准确性不会偏向于更频繁出现的姿态。这2000个采样帧使用上半身关节位置(头部、手腕、肘部和肩部)进行手动注释。

半自动地面实况(训练)

除上述手动地面真相标签外,所有视频的所有帧都使用Buehler等人2009年开发的半自动但可靠的跟踪器进行了联合定位。这些标签被用作训练的基本事实。

姿势可视化

上图显示了BBC Pose中贴纸的散点图。

扩展BBC姿势[4]

扩展BBC姿势包含来自BBC姿势数据集的所有视频以及72个额外的训练视频。结合最初的BBC电视数据集,该数据集包含92个视频(82个训练、5个验证和5个测试),即大约700万帧。新72个视频的帧与Charles等人的跟踪器(IJCV’13[4])自动分配联合位置(用作训练的地面真相)。实际上,这些“地面实况”关节位置的噪音比原始BBC姿势数据集(使用Buehler等人CVPR'09的慢速半自动跟踪器获得)中的略高。

短BBC姿势[7]

短BBC姿势包含五个一小时长的视频,每个视频都有不同袖子长度的手语签名者(与上述数据集形成对比,后者只包含袖子中等长度的签名者)。五个视频中的每一个都有200个测试帧(这些测试帧已经用联合位置进行了手动注释),总计1000个测试帧。作者选择了测试帧,以包含各种姿势。

ChaLearn姿势

ChaLearn Pose是Escalera等人ICMI’13的ChaLearn 2013多模式手势数据集的子集,其中包含27人执行20个意大利手势的23小时Kinect数据。数据包括RGB、深度、前景分割和全身骨架。在此数据集中,训练和测试标签都有噪音(来自Kinect)。

数据集统计

BBC姿势 扩展BBC姿势 BBC短体式 ChaLearn姿势 YouTube姿势
视频总数 20 92 5 5 50
训练视频 10 82(10个相同) - 393 -
Val视频 5 5(相同) - 287 -
测试视频 5 5(相同) 5 275 50
9 ~40 5 27 50
框架 150万 700万 38万 130万 -
列车标签 Buehler等人。 Buehler等人(10)+Charles等人(72) - Kinect公司 -
Val标签 1000手动燃气轮机 1000手动燃气轮机(相同) - Kinect公司-
测试标签 1000手动燃气轮机 1000手动燃气轮机(相同) 1000手动燃气轮机 3200 Kinect公司 5000手动燃气轮机

评价

下面的代码包含用于再现以下绘图的脚本,这些绘图将姿势估计结果与所有VGG论文进行比较。

扩展BBC姿势/BBC姿势

短BBC姿势

ChaLearn公司

VGG人体姿势估计数据集已删除从这个网站,同时我们审查它的个人可识别信息。有关更多信息,请联系我们vgg-webmasters@robots.ox.ac.uk

文件名 描述 大小
YouTube_Pose_dataset_1.0.zip YouTube Pose视频链接、框架和注释(Matlab结构) 8500万
bbcpose_data_1.0.zip网址 BBC Pose训练、验证和测试集的数据集图像。 41克
bbcpose_extbbcpose数据1.0.zip 用于训练、验证和测试BBC姿势和扩展BBC姿势的数据集图像。 221克
bbcpose_subtitles_annotation_data_1.0.zip网址 英国广播公司(BBC)扩展姿态字幕;英国广播公司(BBC)姿势扩展版BSL标志的地面实况标记。 480万
bbcpose_extbbcpose代码1.0.tgz BBC Pose的套餐包括:
  • 训练(自动)和测试(手动地面实况)上半身关节注释
  • 训练、验证和测试分段(在我们的实验中使用)
  • 所有VGG姿势文件的联合预测
  • 可视化代码
  • 地物绘制代码
8800万
短时间播放日期_1.0.zip BBC Short Pose的数据集图像。 13克
shortbbcpose_eval_1.0.tgz短片 BBC Short Pose套装包括:
  • 测试(手动地面实况)上半身关节注释
  • 所有VGG姿势文件的联合预测
  • 可视化代码
  • 地物绘制代码
610万
查勒恩_瓦尔1.0.tgz ChaLearn Pose的此软件包包含:
  • 测试框架(如我们的实验中所用)
  • 所有VGG姿势文件的联合预测
  • 图形绘制代码
50万

相关论文

    [1] J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
    计算机视觉和模式识别,2016年

    [2]T.Pfister,J.Charles,A.齐瑟曼
    2015年IEEE国际计算机视觉会议

    [3] T.Pfister公司
    牛津大学博士论文,2015年
    [4] T.Pfister,K.Simonyan,J.Charles,A.齐瑟曼
    2014年亚洲计算机视觉会议

    [5] J.Charles、T.Pfister、,D.Magee,D.霍格,A.齐瑟曼最佳墙报奖
    2014年英国机器视觉会议

    [6] J.Charles,T.Pfister,M.Everingham,A.齐瑟曼
    国际计算机视觉杂志,2013

    [7] J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
    2013年英国机器视觉会议

致谢

财政支持由EPSRC拨款EP/I012001/1和EP/I01229X/1提供。