提供这些材料是为了确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



用于视频动作识别的卷积双流网络融合

C.费希滕霍夫,A.平茨,A.齐瑟曼
2016年IEEE计算机视觉和模式识别会议
下载出版物:feichtenhofer16.pdf[1个月] 
卷积神经网络(ConvNets)在视频中的人体动作识别的最新应用提出了不同的解决方案,用于合并外观和运动信息。我们研究了在空间和时间上融合ConvNet塔的多种方法,以便最好地利用这种时空信息。我们得出了以下发现:(i)空间和时间网络可以在卷积层进行融合,而不是在softmax层进行融合,而不会损失性能,但可以显著节省参数;(ii)最好在最后一个卷积层在空间上融合此类网络,而不是更早地融合,并且在类预测层额外融合可以提高准确性;最后(iii)时空邻域上抽象卷积特征的汇集进一步提高了性能。基于这些研究,我们提出了一种新的ConvNet体系结构,用于视频片段的时空融合,并在标准基准上评估其性能,在此基础上该体系结构获得了最先进的结果。

链接:


BibTex参考:

@会议记录{Feichtenhofer16,author=“Christoph Feichtenhofer、Axel Pinz和Andrew Zisserman”,title=“用于视频动作识别的卷积双流网络融合”,booktitle=“IEEE计算机视觉和模式识别会议”,year=“2016”,}

数据库中的其他出版物: