视觉几何组-牛津大学

用于视频动作识别的卷积双流网络融合

C.费希滕霍夫，A.平茨，A.齐瑟曼

2016年IEEE计算机视觉和模式识别会议

下载出版物：

卷积神经网络（ConvNets）在视频中的人体动作识别的最新应用提出了不同的解决方案，用于合并外观和运动信息。我们研究了在空间和时间上融合ConvNet塔的多种方法，以便最好地利用这种时空信息。我们得出了以下发现：（i）空间和时间网络可以在卷积层进行融合，而不是在softmax层进行融合，而不会损失性能，但可以显著节省参数；（ii）最好在最后一个卷积层在空间上融合此类网络，而不是更早地融合，并且在类预测层额外融合可以提高准确性；最后（iii）时空邻域上抽象卷积特征的汇集进一步提高了性能。基于这些研究，我们提出了一种新的ConvNet体系结构，用于视频片段的时空融合，并在标准基准上评估其性能，在此基础上该体系结构获得了最先进的结果。

链接：

BibTex参考：

@会议记录{Feichtenhofer16，author=“Christoph Feichtenhofer、Axel Pinz和Andrew Zisserman”，title=“用于视频动作识别的卷积双流网络融合”，booktitle=“IEEE计算机视觉和模式识别会议”，year=“2016”，}

数据库中的其他出版物：

»克里斯托夫·费希滕霍夫
»阿克塞尔·平茨
»安德鲁·齐瑟曼

出版物

用于视频动作识别的卷积双流网络融合

链接：

ArXiv公司

软件

BibTex参考：

数据库中的其他出版物：