基于空间注意的动作识别时空运动网络
摘要
1.简介
(1) 我们提出了一种基于注意机制的时空信息模块来建模时空信息,并使用组卷积的形式来融合时空信息,在不增加太多计算量的情况下提高了网络的识别能力。 (2) 我们提出了一种时空运动网络,它结合了时空信息和运动信息,可以很容易地集成到ResNet网络中,并且可以简单高效地识别动作。 (3) 我们的SMNet在不同的数据集上进行了实验,例如Something-Something V1、Something-Something V2和Kinetics-400,并取得了一些良好的结果。
2.相关工程
2.1. 2D网络
2.2. 3D网络
2.3. 注意力机制
2.4. 群组卷积
3.方法
3.1. SMNet网络
3.2. 网络分析
3.2.1. 采样策略
3.2.2. 东南方
3.2.3. 我
4.实验和结果
4.1. 数据集
4.2. 实施详细信息
4.2.1. 培训
4.2.2. 测试
4.3. 实验结果
4.4. 烧蚀研究
4.4.1. 采样策略
4.4.2. 插入位置
4.4.3. 融合策略
4.4.4. 群卷积
5.结论
作者贡献
基金
机构审查委员会声明
知情同意书
数据可用性声明
利益冲突
工具书类
Simonyan,K。; 视频中动作识别的双流卷积网络。 高级神经信息处理。 系统。 2014 , 1 , 568–576. [ 谷歌学者 ] Wang,L。; 熊,Y。; 王,Z。; 乔,Y。; Lin,D。; 唐,X。; van Gool,L.时间段网络:深入行动识别的良好实践。 计算。 视觉。 2016 , 9912 , 20–36. [ 谷歌学者 ] Wang,L。; 熊,Y。; 王,Z。; Qiao,Y.非常深双流ConvNets的良好实践。 arXiv公司 2015 ,arXiv:1507.02159。 [ 谷歌学者 ] Ji,S。; 徐伟(Xu,W.)。; 杨,M。; Yu,K.三维卷积神经网络用于人类动作识别。 IEEE传输。 模式分析。 机器。 智力。 2013 , 35 , 221–231. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Tran,D。; Boudev,L。; 弗格斯,R。; 托雷萨尼,L。; Paluri,M.使用3D卷积网络学习时空特征。 2015年12月7日至13日在智利圣地亚哥举行的2015年计算机视觉国际会议记录; 第4489–4497页。 [ 谷歌学者 ] 扎克,C。; Pock,T。; Bischof,H。实时TV-L1光流的基于对偶的方法。 Jt.(约)。 模式识别。 交响乐团。 2007 , 4713 , 214–223. [ 谷歌学者 ] Zhu,Y。; 兰,Z。; 纽萨姆,S。; Hauptmann,A.动作识别的隐藏双流卷积网络。 arXiv公司 2018 ,arXiv:1704.00389。 [ 谷歌学者 ] 高,S。; Cheng,医学硕士。; Zhao,K。; Zhang,X.Y。; Torr,P.Res2Net:一种新的多尺度主干架构。 IEEE传输。 模式分析。 机器。 智力。 2019 , 43 , 652–662. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] 伊尔格·E。; 迈耶,N。; Saikia,T。; Keuper,M。; Dosovitskiy,A。; Brox,T.FlowNet 2.0:深网络光流估计的发展。 IEEE配置计算。 视觉。 模式识别。 2017 , 2017 , 1647–1655. [ 谷歌学者 ] 吴,S。; Park,J。; Lee,J.Y。; Kweon,I.S.CBAM:卷积块注意模块。 arXiv公司 2018 ,arXiv:1807.06521。 [ 谷歌学者 ] 他,K。; 张,X。; 任,S。; Sun,J.图像识别的深度残差学习。 arXiv公司 2016 ,arXiv:1512.03385。 [ 谷歌学者 ] 林,J。; 甘,C。; 王凯。; Han,S.TSM:高效视频理解的时间移位模块。 2019年10月27日至11月2日在韩国首尔举行的2019 IEEE/CVF国际计算机视觉会议(ICCV)会议记录。 [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] 费希滕霍费尔,C。; 平茨,A。; 用于视频动作识别的卷积双流网络融合。 arXiv公司 2016 ,arXiv:1604.06573。 [ 谷歌学者 ] 李,M。; Lee,S。; 儿子S。; 帕克·G。; Kwak,N.动作特征网络:用于动作识别的固定动作过滤器。 arXiv公司 2018 ,arXiv:1807.10037。 [ 谷歌学者 ] 刘,Z。; 罗,D。; Wang,Y。; Wang,L。; Tai,Y。; 王,C。; 李,J。; 黄,F。; Lu,T.TEINet:视频识别的高效架构。 arXiv公司 2020 ,arXiv:1911.09435。 [ 谷歌学者 ] [ 交叉参考 ] 李毅。; 吉,B。; 施,X。; 张杰。; Kang,B。; Wang,L.TEA:动作识别的时间激发和聚合。 arXiv公司 2020 ,arXiv:2004.01398。 [ 谷歌学者 ] 江,B。; 王,M。; 甘,W。; Wu,W。; Yan,J.STM:动作识别的时空和运动编码。 arXiv公司 2019 ,arXiv:1908.02486。 [ 谷歌学者 ] Carreira,J。; Zisserman,A.Quo Vadis,动作识别? 新模型和动力学数据集。 arXiv公司 2017 ,arXiv:1705.07750。 [ 谷歌学者 ] 迪巴,A。; 法亚兹,M。; 夏尔马,V。; 卡拉米,A.H。; Yousefzadeh,R.Temporal 3D ConvNets:视频分类的新架构和转移学习。 arXiv公司 2017 ,arXiv:1711.08200。 [ 谷歌学者 ] 黄,G。; 刘,Z。; Van Der Maaten,L。; Weinberger,K.Q.密集连接卷积网络。 arXiv公司 2017 ,arXiv:1608.06993。 [ 谷歌学者 ] 邱,Z。; 姚,T。; Mei,T.使用伪三维残差网络学习时空表示。 arXiv公司 2017 ,arXiv:1711.10305。 [ 谷歌学者 ] 费希滕霍夫,C。; 风扇,H。; 马利克,J。; 他,K.放慢视频识别网络的速度。 arXiv公司 2019 ,arXiv:1812.03982。 [ 谷歌学者 ] Feichtenhofer,C.X3D:高效视频识别的扩展架构。 arXiv公司 2020 ,arXiv:2004.04730。 [ 谷歌学者 ] Jaderberg,M。; Simonyan,K。; 齐瑟曼,A。; Kavukcuoglu,K.空间变压器网络。 arXiv公司 2015 ,arXiv:1506.02025。 [ 谷歌学者 ] 胡,J。; 沈,L。; 阿尔巴尼,S。; Sun,G。; Wu,E.挤压和励磁网络。 IEEE传输。 模式分析。 机器。 智力。 2020 , 42 , 2011–2023. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Wang,F。; 江,M。; 钱,C。; Yang,S。; 李,C。; 张,H。; 王,X。; Tang,X.图像分类的剩余注意网络。 arXiv公司 2017 ,arXiv:1704.06904。 [ 谷歌学者 ] Krizhevsky,A。; Sutskever,I。; Hinton,G.E.ImageNet使用深度卷积神经网络进行分类。 Commun公司。 ACM公司 2017 , 60 , 84–90. [ 谷歌学者 ] [ 交叉参考 ] Zagoruyko,S。; Komodakis,N.更加关注注意力:通过注意力转移提高卷积神经网络的性能。 arXiv公司 2017 ,arXiv:1612.03928。 [ 谷歌学者 ] 戈亚尔,R。; 卡胡,S.E。; 米查尔斯基,V。; 马泰津斯卡,J。; 威斯特伐尔州。; Kim,H。; 哈内尔,V。; 水果,I。; Yianilos等人。; Mueller-Freitag,M。; 等。用于学习和评估视觉常识的“某物某物”视频数据库。 arXiv公司 2017 ,arXiv:1706.04261。 [ 谷歌学者 ] 凯·W·。; Carreira,J。; Simonyan,K。; 张,B。; Zisserman,A.动力学人体动作视频数据集。 arXiv公司 2017 ,arXiv:1705.06950。 [ 谷歌学者 ] Jia博士。; 魏,D。; Socher,R。; 李,L.J。; Kai,L。; Li,F.F.ImageNet:一个大规模的分层图像数据库。 2009年6月20日至25日,美国佛罗里达州迈阿密,2009年IEEE计算机视觉和模式识别会议记录。 [ 谷歌学者 ] 王,X。; Girshick,R。; 古普塔,A。; He,K.非局部神经网络。 arXiv公司 2018 ,arXiv:1711.07971。 [ 谷歌学者 ] 周,B。; Andonian,A。; 奥利瓦,A。; Torralba,A.视频中的时间关系推理。 arXiv公司 2018 ,arXiv:1711.08496。 [ 谷歌学者 ] Zolfaghari,M。; 辛格,K。; 布罗克斯,T。 ECO:用于在线视频理解的高效卷积网络 ; 施普林格:瑞士查姆,2018年。 [ 谷歌学者 ] 刘,Z。; Wang,L。; Wu,W。; 钱,C。; Lu,T.TAM:用于视频识别的时间自适应模块。 arXiv公司 2020 ,arXiv:2005.06803。 [ 谷歌学者 ] 谢S。; Sun,C。; 黄,J。; 涂,Z。; Murphy,K.重新思考时空特征学习:视频分类中的速度-准确性权衡。 arXiv公司 2018 ,arXiv:1712.04851。 [ 谷歌学者 ] Wang,H。; Tran,D。; 托雷萨尼,L。; Feiszli,M.相关网络视频建模。 arXiv公司 2020 ,arXiv:1906.03349。 [ 谷歌学者 ] 李,X。; Wang,Y。; Zhou,Z。; Qiao,Y.SmallBigNet:为视频分类集成核心和上下文视图。 arXiv公司 2020 ,arXiv:2006.14582。 [ 谷歌学者 ] Tran,D。; Wang,H。; 托雷萨尼,L。; Ray,J。; Lecun,Y。; Paluri,M.《动作识别时空卷积的进一步研究》。 arXiv公司 2018 ,arXiv:1711.11248。 [ 谷歌学者 ] 范,Q。; 陈,C.F。; Kuehne,H。; 皮斯托亚,M。; Cox,D.More Is Less:通过大小网络和深度时间聚合学习高效的视频表示。 arXiv公司 2019 ,arXiv:1912.00869。 [ 谷歌学者 ] Wang,L。; 李伟(Li,W.)。; Van Gool,L.视频分类的外观和关系网络。 arXiv公司 2018 ,arXiv:1711.09125。 [ 谷歌学者 ] 李,X。; Zhang,Y。; 刘,C。; Shuai,B。; Tighe,J.VidTr:《没有卷积的视频变压器》。 arXiv公司 2021 ,arXiv:2104.11746。 [ 谷歌学者 ] 贝尔塔修斯,G。; Wang,H。; Torresani,L.了解视频需要时空关注吗? arXiv公司 2021 ,arXiv:2102.05095。 [ 谷歌学者 ] Arnab,A。; Dehghani,M。; Heigold,G。; Sun,C。; Lui,M。; Schmid,C.ViViT:视频视觉变压器。 arXiv公司 2021 ,arXiv:2103.15691。 [ 谷歌学者 ] 风扇,H。; 熊,B。; 曼加拉姆,K。; 李毅。; Feichtenhofer,C.多尺度视觉变形金刚。 arXiv公司 2021 ,arXiv:2104.11227。 [ 谷歌学者 ] 帕特里克,M。; 坎贝尔,D。; Y.M.浅野。; 梅茨,I。; 亨里克斯,J.F.《盯着球:视频变形金刚中的轨迹注意力》。 arXiv公司 2021 ,arXiv:2106.05392。 [ 谷歌学者 ]