[1] J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
计算机视觉和模式识别,2016年
@诉讼中{Charles16,author=“Charles,J.和Pfister,T.和Magee,D.以及Hogg,D.和Zisserman,A.”,title=“个性化人体视频姿势估计”,booktitle=“IEEE计算机视觉和模式识别会议”,year=“2016”,}
我们提出了一种个性化的ConvNet姿势估计器,该估计器可以自动适应人的外表的唯一性,以改进长视频中的姿势估计。我们做出了以下贡献:(i)我们表明,给定一些高精度的姿态标注,例如来自通用ConvNet姿态估计器,可以在整个视频中使用基于图像的匹配(用于时间上较远的帧)和密集光流(用于时间上局部的帧)的组合来生成额外的标注;(ii)我们开发了一个遮挡感知的自我评估模型,能够自动选择高质量的注释并拒绝错误的附加注释;(iii)我们证明,这些高质量的注释可以用于微调ConvNet姿势估计器,从而使其个性化,以锁定人的外表的关键鉴别特征。结果是,与原始通用ConvNet相比,使用个性化ConvNets对目标视频的姿势估计有了实质性改进。我们的方法在两个标准基准上以及在一个新的具有挑战性的YouTube视频数据集上大大优于最新技术(包括顶级ConvNet方法)。此外,我们还表明,来自自动生成的注释的训练可以用于提高通用ConvNet在其他基准上的性能。
[2]T.Pfister,J.Charles,A.齐瑟曼
2015年IEEE国际计算机视觉会议
@诉讼中{Pfister15a,author=“Pfister,T.和Charles,J.以及Zisserman,A.”,title=“视频中人体姿势估计的流动ConvNets”,booktitle=“IEEE国际计算机视觉会议”,year=“2015”,}
这项工作的目标是视频中的人体姿势估计,其中有多个帧可用。我们研究了一种ConvNet架构,该架构能够通过使用光流跨多个帧组合信息,从时间上下文中获益。为此,我们提出了一种具有以下新颖性的网络架构:(i)一个比先前研究的回归热图更深的网络;(ii)学习隐式空间模型的空间融合层;(iii)光流用于对齐来自相邻帧的热图预测;以及(iv)最终参数池层,该层学习将对齐的热图组合成池置信度图。我们表明,该体系结构优于许多其他体系结构,包括仅在输入层使用光流的体系结构、直接回归关节坐标的体系结构,以及在不进行空间融合的情况下预测热图的体系结构。新体系结构在三个视频姿势估计数据集(包括Wild数据集中极具挑战性的Poses)上的表现远远超过了目前的技术水平,并且优于在单图像FLIC基准上不使用图形模型的其他深度方法(以及Chen&Yuille和Tompson等人在高精度区域的表现)。
[3] T.Pfister公司
牛津大学博士论文,2015年
@PhdThesis{Pfister15,author=“Pfister,T.”,title=“推进人体姿势和手势识别”,school=“牛津大学”,year=“2015”,}
本文在计算机视觉的两个密切相关的领域提出了新的方法:人体姿势估计和视频中的手势识别。在人体姿势估计中,我们证明了可以使用随机森林来估计单目视频中的人体姿势。为此,我们提出了一种从视频中分割人类的联合分割算法,以及一个预测估计姿势是否正确的评估器。我们进一步将此姿势估计器扩展到新的领域(使用传递学习方法),并通过在图像中顺序(而非独立)预测关节位置,并使用视频中的时间信息(而不是从单个帧预测姿势)来增强其预测。最后,我们超越了随机森林,并表明卷积神经网络可以用于更准确和有效地估计人类姿势。我们提出了两种新的卷积神经网络结构,并展示了如何将光流用于卷积网络以进一步改进预测。在手势识别中,我们探讨了使用弱监督来学习手势的想法。我们证明,通过让算法“观看”电视广播并将符号与字幕“匹配”,我们可以从带字幕的签名电视广播中自动学习手语。我们进一步表明,即使有少量的强有力的监督(比如手语,以手语视频词典的形式),也可以将这种强有力的监督与较弱的监督结合起来,学习更好的模式。
[4] T.Pfister,K.Simonyan,J.Charles,A.齐瑟曼
2014年亚洲计算机视觉会议
@诉讼中{Pfister14a,author=“Pfister,T.和Simonyan,K.以及Charles,J.和Zisserman,A.”,title=“用于手势视频中有效姿势估计的深度卷积神经网络”,booktitle=“亚洲计算机视觉会议”,year=“2014”,}
我们的目标是高效准确地估计手势视频中人类的上半身姿势。为此,我们基于最近成功应用的深度卷积神经网络(ConvNets)。我们的新颖之处在于:(i)据我们所知,我们的方法是第一个使用ConvNets来估计视频中的人体姿势;(ii)利用来自多个帧的时间信息的新网络,从而获得更好的性能;(iii)表明预先分割视频的前景可以提高性能;以及(iv)证明即使没有前景分割,网络也会学习从背景中抽象出来,并且即使在复杂多变的背景中也可以估计姿势。我们在BBC电视签名数据集上对我们的方法进行了评估,结果表明我们的姿势预测比目前的技术水平要好得多,计算速度也快了一个数量级。
[5] J.Charles、T.Pfister、,D.Magee,D.霍格,A.齐瑟曼最佳墙报奖
2014年英国机器视觉会议
@诉讼中{Charles14,author=“Charles,J.和Pfister,T.和Magee,D.以及Hogg,D.和Zisserman,A.”,title=“时间序列森林的上身姿势估计”,booktitle=“英国机器视觉会议”,year=“2014”,}
我们的目标是高效准确地估计手势视频中的人体上身姿势。为此,我们在随机森林(RF)分类器和回归器最近成功应用的基础上,开发了一个具有以下新颖性的姿势估计模型:(i)考虑到人体运动链,按顺序估计关节。这意味着我们的问题是可处理的,可以考虑更多的背景;以及(iii)使用密集光流来对齐来自附近帧的多个专家联合位置建议,从而提高估计的鲁棒性。由此产生的方法计算效率高,可以克服射频姿态估计器独立推断其位置所产生的许多错误(例如,混淆左手/右手)。我们表明,我们改进了两个公共数据集(BBC电视签名数据集和ChaLearn手势识别数据集)的上身姿势估计技术。
[6] J.Charles,T.Pfister,M.Everingham,A.齐瑟曼
国际计算机视觉杂志,2013
@第{Charles13a条,author=“Charles,J.和Pfister,T.和Everingham,M.和Zisserman,A.”,title=“手语视频中的自动高效人体姿势估计”,journal=“国际计算机视觉杂志”,year=“2013”,}
我们提出了一种全自动手臂和手跟踪器,可以在长度超过一小时的连续手语视频序列中检测关节位置。为了实现这一点,我们在四个方面做出了贡献:(i)我们证明了使用分层模型对所有帧进行联合分割,可以将覆盖签名者从背景电视广播中分离出来;(ii)我们表明,只要给定该分割和颜色模型,就可以使用随机森林回归量预测每帧的关节位置(肩部、肘部、腕部);(iii)我们表明,随机森林可以从现有的半自动但计算昂贵的跟踪器中进行训练;并且,(iv)引入评估器来评估预测的关节位置对于每个帧是否正确。该方法应用于20个背景变化、成像条件具有挑战性的签名视频,并适用于不同的签名者。我们的框架优于Buehler等人(IJCV 2011)最先进的长期跟踪器,不需要手动注释这项工作,并在自动初始化后,实时执行跟踪。与使用Yang和Ramanan的姿势估计方法获得的结果相比,我们还获得了更好的关节定位结果。
[7] J.Charles,T.Pfister,D.Magee,D.霍格,A.齐瑟曼
2013年英国机器视觉会议
@诉讼中{Charles13,author=“Charles,J.和Pfister,T.和Magee,D.以及Hogg,D.和Zisserman,A.”,title=“签名{TV}广播中上身姿势跟踪的域自适应”,booktitle=“英国机器视觉会议”,year=“2013”,}
这项工作的目的是估计电视广播中签名者的上半身姿势。给定合适的训练数据,使用随机森林体关节检测器来估计姿态。然而,获取此类培训数据的成本可能很高。本文的新颖之处在于,它是一种转移学习方法,能够利用现有的训练数据并将其用于新的领域。我们的贡献是:(i)一种对现有训练数据进行调整的方法,通过对不同外观的签名者进行合成来生成新的训练数据,以及(ii)一种个性化训练数据的方法。作为一个案例研究,我们展示了如何对不同服装(尤其是短袖和长袖服装)的手臂外观进行建模,以获得特定于个人的跟踪器。我们证明了转移学习和特定于人的跟踪器显著提高了姿势估计性能。