视觉几何组-牛津大学

克里斯托夫·费希滕霍夫,阿克塞尔·平兹和安德鲁·齐瑟曼

概述

这项工作的目标是视频中的目标检测‐在本网站上，我们提供了参考实施（即。代码、模型和数据)用于：

检测到跟踪和跟踪到检测
C.Feichtenhofer、A.Pinz、A.Zisserman、ICCV，2017年。

请看下面的我们的论文出版物了解更多详细信息。

检测和跟踪（D&T）架构

我们提出了一种统一的方法来解决真实视频中的目标检测问题。我们的目标是直接推断“tracklet”同时进行检测和跟踪的多帧使用ConvNet。我们使用基于检测和跟踪的丢失来训练端到端的完全卷积架构，并将我们的方法D&T称为联合检测和跟踪。网络的输入由多个帧组成，这些帧首先通过ConvNet主干产生卷积特征，这些卷积特征共享用于检测和跟踪任务。我们计算相邻帧的特征响应之间的卷积互相关，以估计不同特征尺度下的局部位移。在这些特性之上，我们使用RoI-pool层来分类和回归框建议，以及一个RoI-tracking层来回归跨帧的框转换（平移、缩放、纵横比）。我们的体系结构是完全卷积到RoI池/跟踪的，并且可以进行端到端的目标检测和跟踪训练。最后，为了在视频中推断出长时间的物体管，我们基于轨迹链接检测。

结果

我们根据来自视频（VID）数据集的ImageNet对象检测其中包括3862个培训中的30个课程和555个验证视频。这些对象在视频中具有边界框和轨迹ID的地面真相注释。按照标准做法，我们以验证集中30个类的平均精度（mAP）来衡量性能。

定性结果：（此处有更多视频）

定量结果：

我们在下表中显示了我们的模型和当前最先进技术的结果。

对大规模ImageNet VID数据集的定量评估表明，我们的方法D&T（τ=1）能够比上一次ILSVRC’16挑战的获胜者获得更好的单模型性能[5]，尽管其概念简单且速度快得多。此外，我们还表明，包括跟踪丢失可以改进特征学习，以获得更好的静态目标检测D（&T丢失），并且我们还提出了一种适用于时间推移输入帧的快速D&T版本（τ=10）。当使用更强大的基础ConvNet（Inception-v4而不是ResNet-101）时，我们在上表的最后一行观察到，对于某些类别，D&T的类内表现大大提高，例如，狗（+5.7 AP）、家猫（+9.4 AP）、狮子（+11.4 AP）、蜥蜴（+4.5 AP）、兔子（+4.4 AP）。下表显示了与各种基础网络的总体性能比较。

代码、模型和数据

代码下载

有关安装说明，请遵循提供的自述文件。
我们的实现使用了卡费程序包中包含的库。

模型下载

我们发布了在ImageNet DET和VID数据集上联合训练的模型。

数据下载

我们的模型是使用使用区域提案网络。我们为ImageNet DET和VID子集的培训和测试提供了提取的建议。

如果你使用代码或模型，请引用我们的论文。

出版物

C.费希滕霍夫，A.Pinz，A.齐瑟曼

[1] 检测到跟踪和跟踪到检测

2017年IEEE国际计算机视觉会议

参考文献：

[2] 康康、李浩、肖涛、欧阳西、严军、刘晓霞和X.王。基于tubelet方案的视频对象检测网络。程序中。CVPR，2017年。
[3] 康康、李浩、颜建军、曾晓红、杨斌、肖涛、张春红、，Z.Wang、R.Wang、X.Wang和W.Ouyang。T-CNN：输卵管用卷积神经网络进行目标检测来自视频。arXiv预印本，2016年。
[4] 康凯、欧阳西、李浩和王旭。目标检测基于卷积神经网络的视频管。在程序。CVPR，2016年。
[5] J.Yang、H.Shuai、Z.Yu、R.Fan、Q.Ma、Q.Liu和J.Deng。ILSVRC2016视频目标检测：NUIST团队。http://image-net.org/challenges/talks/2016/Imagenet%202016%20VID.pptx, 2016.

鸣谢

这项工作得到了ERC拨款VisRec no.228180、EPSRC计划拨款Seebibyte EP/M013774/1和P27076项目下的奥地利科学基金（FWF）的支持。Christoph Feichtenhofer是格拉茨理工大学电气测量和测量信号处理研究所奥地利科学院DOC奖学金的获得者。我们感谢NVIDIA Corporation对本研究所用GPU的捐赠。