克里斯托夫·费希滕霍夫,阿克塞尔·平兹安德鲁·齐瑟曼

概述

这项工作的目标是视频中的目标检测‐在本网站上,我们提供了参考实施(即。代码、模型和数据)用于:

请看下面的我们的论文出版物了解更多详细信息。

检测和跟踪(D&T)架构

我们提出了一种统一的方法来解决真实视频中的目标检测问题。我们的目标是直接推断“tracklet”同时进行检测和跟踪的多帧使用ConvNet。我们使用基于检测和跟踪的丢失来训练端到端的完全卷积架构,并将我们的方法D&T称为联合检测和跟踪。网络的输入由多个帧组成,这些帧首先通过ConvNet主干产生卷积特征,这些卷积特征共享用于检测和跟踪任务。我们计算相邻帧的特征响应之间的卷积互相关,以估计不同特征尺度下的局部位移。在这些特性之上,我们使用RoI-pool层来分类和回归框建议,以及一个RoI-tracking层来回归跨帧的框转换(平移、缩放、纵横比)。我们的体系结构是完全卷积到RoI池/跟踪的,并且可以进行端到端的目标检测和跟踪训练。最后,为了在视频中推断出长时间的物体管,我们基于轨迹链接检测。

结果

我们根据来自视频(VID)数据集的ImageNet对象检测其中包括3862个培训中的30个课程和555个验证视频。这些对象在视频中具有边界框和轨迹ID的地面真相注释。按照标准做法,我们以验证集中30个类的平均精度(mAP)来衡量性能。

定性结果:(此处有更多视频)

定量结果:

我们在下表中显示了我们的模型和当前最先进技术的结果。

对大规模ImageNet VID数据集的定量评估表明,我们的方法D&T(τ=1)能够比上一次ILSVRC’16挑战的获胜者获得更好的单模型性能[5],尽管其概念简单且速度快得多。此外,我们还表明,包括跟踪丢失可以改进特征学习,以获得更好的静态目标检测D(&T丢失),并且我们还提出了一种适用于时间推移输入帧的快速D&T版本(τ=10)。当使用更强大的基础ConvNet(Inception-v4而不是ResNet-101)时,我们在上表的最后一行观察到,对于某些类别,D&T的类内表现大大提高,例如,狗(+5.7 AP)、家猫(+9.4 AP)、狮子(+11.4 AP)、蜥蜴(+4.5 AP)、兔子(+4.4 AP)。下表显示了与各种基础网络的总体性能比较。


代码、模型和数据


代码下载

有关安装说明,请遵循提供的自述文件。
我们的实现使用了卡费程序包中包含的库。

模型下载

我们发布了在ImageNet DET和VID数据集上联合训练的模型。

数据下载

我们的模型是使用使用区域提案网络。我们为ImageNet DET和VID子集的培训和测试提供了提取的建议。

如果你使用代码或模型,请引用我们的论文。

出版物


C.费希滕霍夫,A.Pinz,A.齐瑟曼
2017年IEEE国际计算机视觉会议

参考文献:

  • [2] 康康、李浩、肖涛、欧阳西、严军、刘晓霞和X.王。基于tubelet方案的视频对象检测网络。程序中。CVPR,2017年。
  • [3] 康康、李浩、颜建军、曾晓红、杨斌、肖涛、张春红、,Z.Wang、R.Wang、X.Wang和W.Ouyang。T-CNN:输卵管用卷积神经网络进行目标检测来自视频。arXiv预印本,2016年。
  • [4] 康凯、欧阳西、李浩和王旭。目标检测基于卷积神经网络的视频管。程序。CVPR,2016年。
  • [5] J.Yang、H.Shuai、Z.Yu、R.Fan、Q.Ma、Q.Liu和J.Deng。ILSVRC2016视频目标检测:NUIST团队。http://image-net.org/challenges/talks/2016/Imagenet%202016%20VID.pptx, 2016.

鸣谢

这项工作得到了ERC拨款VisRec no.228180、EPSRC计划拨款Seebibyte EP/M013774/1和P27076项目下的奥地利科学基金(FWF)的支持。Christoph Feichtenhofer是格拉茨理工大学电气测量和测量信号处理研究所奥地利科学院DOC奖学金的获得者。我们感谢NVIDIA Corporation对本研究所用GPU的捐赠。