A Spatio-Temporal Motion Network for Action Recognition Based on Spatial Attention

Yang, Qi; Lu, Tongwei; Zhou, Huabing

doi:10.3390/e24030368

开放式访问第条

基于空间注意的动作识别时空运动网络

通过

祁阳

^1,2,

通威路

^1,2,*

和

周华兵

^1,2

¹

武汉理工大学计算机科学与工程学院，武汉430205

²

武汉理工大学智能机器人湖北省重点实验室，武汉430205

^*

信件应寄给的作者。

熵 2022,24(3), 368;https://doi.org/10.3390/e24030368

收到的提交文件：2022年1月24日/修订日期：2022年2月28日/接受日期：2022年3月1日/发布日期：2022年3月4日

下载

浏览地物

版本注释

摘要

:

时间建模是视频中动作识别的关键，但传统的二维CNN不能很好地捕捉时间关系。3D CNN可以实现良好的性能，但计算量很大，在现有设备上没有很好的实践。基于这些问题，我们设计了一个通用而有效的模块，称为时空运动网络（SMNet）。SMNet保持了2D的复杂性，减少了算法的计算量，同时实现了与3D CNN相当的性能。SMNet包含一个时空激励模块（SE）和一个运动激励模块（ME）。SE模块使用组卷积来融合时间信息以减少网络中的参数数量，并使用空间注意来提取空间信息。ME模块使用相邻帧之间的差异来提取相邻帧之间特征级的运动模式，这可以有效地编码运动特征并帮助有效地识别动作。我们使用ResNet-50作为主干网络，并将SMNet插入到剩余块中，以形成一个简单有效的动作网络。在Something-Something V1、Something-Something V2和Kinetics-400三个数据集上的实验结果表明，它的性能优于当前状态的运动识别网络。

关键词：

时间建模;时空运动;群卷积;空间注意力

1.简介

动作识别是视频理解中最重要的部分，其目的是使计算机能够准确地理解视频内容并对视频进行分类。视频动作识别方法将原始视频数据的运动信息和空间信息映射到特征空间以获得视频的特征表达，并根据特征描述符实现视频中动作的准确分类。因此，如何提取能够准确表示视频内容的动作信息是视频动作识别任务中的关键问题。现有的动作识别分为基于二维的动作识别和基于三维的动作识别。然而，基于二维的动作识别大多通过光流提取运动特征，这需要额外的成本。基于3D的动作识别具有比2D更高的性能，但计算量大，不太适合实际应用。因此，在实际环境中需要一种操作动作识别方法。

现有的动作识别方法主要集中在运动特征和时空特征的提取上。对于时空信息的提取，现有的方法[1,2,三]直接使用二维CNN对RGB图像进行特征提取，但这些方法缺乏时间序列信息。另一种方法是使用3D CNN[4]提取特征，使卷积层中的每个特征映射连接到前一层中的多个相邻连续帧[5]. 这种方法可以很好地捕获时空特征，并允许保留时间信息，但将卷积核从2D扩展到3D将不可避免地增加一个数量级，使计算量呈指数级扩展，这限制了其实时应用。为了解决这个问题，我们使用空间注意机制来关注人们感兴趣的部分，从而在训练中更加重视这一部分。通过引入加权信息，我们可以更好地关注更重要的特征并抑制不必要的特征。此外，使用组卷积在时间维中提取时间信息可以相对减少计算工作量。

对于运动信息的提取，现有的方法[6,7]提取光流[8,9]手动获取信息，然后将光流信息输入到基于二维CNN的两流网络中进行特征提取，但光流缺乏捕获长期时间关系的能力。此外，光流需要额外的提取，这在时间复杂性和空间复杂性方面非常昂贵，限制了其实时应用。此外，在两流网络中，时空和运动信息的特征学习是孤立的，只有网络的最后一个阶段才进行信息融合。为了解决这些问题，我们使用ME模块进行运动信息提取。ME模块使用连续帧中的RGB差异提取特征级运动模式，从而构建运动特征模型。我们的目标只是搜索运动表示，而不是在连续帧之间搜索精确的运动信息。因此，我们将只使用RGB帧，不涉及任何预先计算的光流。

受上述观察的启发，我们设计了一个简单有效的SMNet模块，将时空和运动特征集成到统一的2D CNN框架中，无需任何三维卷积和光流预计算。给定一个输入特征图，我们使用ME模块计算相邻帧之间的特征级运动表示。灵感来自CBAM[10]SE模块基于空间维数提取特征来表示空间信息，并通过组卷积来表征视频帧的信道信息。我们将这两个模块并排连接，并将它们合并到SMNet中，从而将它们融合在一起。SMNet块可以轻松插入到现有ResNet中[11]在不添加太多参数的情况下替换原始剩余块的架构。如所示图1，我们可视化了基线[1]、TSN[2]以及我们的一些动作特征提取方法。我们可以观察到，基线无法很好地识别动作所在的区域，而TSN只专注于独立地识别对象，而不是推理动作。与基线和TSN相比，我们提出的时空运动在准确识别运动区域的基础上聚焦于人的行为，如最后一列所示。简而言之，我们的贡献有三个方面：

(1): 我们提出了一种基于注意机制的时空信息模块来建模时空信息，并使用组卷积的形式来融合时空信息，在不增加太多计算量的情况下提高了网络的识别能力。
(2): 我们提出了一种时空运动网络，它结合了时空信息和运动信息，可以很容易地集成到ResNet网络中，并且可以简单高效地识别动作。
(3): 我们的SMNet在不同的数据集上进行了实验，例如Something-Something V1、Something-Something V2和Kinetics-400，并取得了一些良好的结果。

2.相关工程

在本节中，我们分别简要介绍了3D CNN、动作识别中的时间依赖性、注意机制和双线性池。

2.1. 2D网络

动作识别是视频任务中的一个基本问题，近年来被广泛应用于视频检索、监控、人机交互、虚拟现实、智能家居和智能安防等领域，并受到了广泛的学术研究。近年来，随着深度学习的发展，出现了许多动作识别方法，其中最重要的是时空特征和运动特征的提取。Simonyan等人提出的两流网络[1,4]采用双分支网络结构分别捕获视频的时空信息。空间域使用RGB图像作为输入来提取外观特征，时域使用光流信息作为输入来提取时间特征。Feichtenhofer等人[6,11]遵循两流网络的体系结构，研究了两流的融合策略。作者改进了空域和时域的融合策略，在空域网络和时域网络的融合问题中提出了五种不同的融合方案，并介绍了时域融合问题中的三种方法。TSN公司[2]提出了一种基于远程时间结构的视频动作识别专用网络。首先，TSN使用稀疏时间采样策略和基于视频监控的策略在时域中分割视频，然后随机选择片段作为网络输入。然后，使用交叉练习、规则化技术和数据扩展进行训练，最后，在网络的后半部分通过加权平均进行融合。然而，所有这些方法都需要额外的计算和存储成本来处理光流。TSM公司[12]提出了沿着时间维度移动信道的一部分以促进相邻帧之间的信息交换。它首次将时间建模引入到基于二维CNN的框架中，并将部分信道移位操作嵌入到二维CNN中。然而，TSM[13]缺少动作时间建模的明确模型，例如相邻帧之间的差异。所有这些网络都需要额外的成本和计算工作来获取和存储光流信息，这是成本高昂的。相比之下，我们的方法不需要额外的光流信息作为输入，只需要RGB图像作为网络的输入，这大大降低了额外的成本，对实际应用非常有益。

最近，一些工作提出可以在2D CNN中嵌入一些可以模拟运动和时间信息的模块。示例包括MFNet[14]，TEIN网[15]和TEA[16]已证明其对ResNet架构有效。STM公司[17]在特征层次上对运动特征进行建模，提出了一个同时对时空和运动信息进行建模的块，而不是普通的残差块。具体来说，给定一个特征映射，分别获得时空和运动特征，并将这两个特征融合以获得STM[17]块。STM公司[17]块可以很容易地插入到ResNet中以替换原始剩余块。然而，它仍然不能在准确性和计算量之间取得良好的平衡，时间信息的提取也不令人满意。我们的网络继续这种设计，用我们的SMNet块代替ResNet的原始残差块进行设计，并使用组卷积来减少部分参数的数量。在网络的末尾，使用融合策略来集成特征信息。

2.2. 3D网络

另一种类型的动作识别是使用3D CNN建模的。C3D公司[5]简单地使用三维卷积核对视频进行处理，通过对比实验确定3×3×3为最优卷积核尺寸。Carreira等人提出的I3D[18]将三维卷积网络与两流网络相结合。卷积网络应用Inception-V1模型，将原始网络中的卷积核扩展为三维卷积核，并直接使用已经在ImageNet上预训练的二维卷积核参数初始化参数，并将其预训练到动力学数据库上，以提高网络的性能。基于此，Diba等人[19]建议T3D将参数从预处理的2D卷积网络传输到随机初始化的3D网络，以实现稳定的权重初始化。T3D取代了DenseNet中的卷积核[20]使用3D卷积内核，并提出了一个TTL层（时间转换层），该层能够使用不同尺度的卷积捕获不同时间的信息，并最终将TTL层嵌入到DenseNet中。邱等人提出的P3D残差网络[21]减少网络参数。P3D使用ResNet的网络框架，使用1×3×3卷积（获得空间维度特征）和3×1×1卷积（获取时间维度特征）级联或并行，而不是原来的3×3×3，并且设计了一个更深层的网络，将所有三种P3D结构应用于其中[22]提出了一种用于视频分类的组合快慢网络，其模型由两部分组成：以低帧速率运行以捕获空间语义信息的慢路径和以高帧速率运转以捕获具有良好时间分辨率的动作信息的快路径。X3D[23]是一个高效视频网络家族，它沿着多个网络轴，在空间、时间、宽度和深度上，逐步扩展一个微小的2D图像分类架构。受机器学习中特征选择方法的启发，采用了一种简单的逐步网络扩展方法，在每一步中扩展一个轴，从而实现了对复杂度权衡的良好精度。当这些网络很好地提取视频的时间信息时，将卷积核从2D扩展到3D将不可避免地增加网络的计算量，这不利于网络的实际应用。我们的网络使用时间组卷积来提取时间信息，这使得它与一些3D网络一样精确，但计算密集度要低得多。

2.3. 注意力机制

注意机制是机器学习中的一种数据处理方法，广泛应用于各种类型的机器学习任务中。该算法通过提取特征表达的每个部分的注意度得分并将其作为融合权重来优化原始特征。通过注意机制优化的特征表达可以有效地突出原始数据中的重要成分，使其更适合相应任务的要求。Jaderberg等人[24]提出了一种注意机制，该机制允许将原始图像中的空间信息转换为另一个空间，并保留关键信息。具体来说，他们提出了一个称为空间变换器的模块，该模块将图像中的空间域信息转换为相应的空间变换，以便提取关键信息。Jie等人[25]他们希望明确建模特征通道之间的相互依赖关系。使用了一种新的“特征缩放”策略。具体来说，学习过程用于自动获取每个特征通道的重要性，然后根据重要性提升有用的特征并抑制对手头任务不太有用的特征。Wang等人[26]提出“剩余注意网络”，这是一种使用注意机制的卷积神经网络，可以以端到端的训练方式与先进的前馈网络体系结构相结合。Woo S等人[10]提出了一种简单有效的前馈卷积神经网络注意模块。给定一个中间特征图，该模块沿两个单独的维度（通道和空间）顺序推断注意力图，然后将注意力图乘以输入特征图，以进行自适应特征细化。基于此，我们的网络引入了空间注意机制，以将更多的注意力集中在人类行为上，而不是背景上。

2.4. 群组卷积

香草卷积本质上由一组带参数的卷积核组成，用于从图像中提取局部特征。卷积过程实际上涉及从上到下和从左到右遍历滤波器，每次匹配时在相应位置对元素进行加权并输出它们。对于特征提取，传统的卷积是计算输入图像的整体卷积的过程，使用卷积核在图像上滑动，将图像点上的像素灰度值与相应卷积核上的值相乘，然后将所有乘以的值相加，作为图像上对应于卷积核中间像素的像素的灰度值，最后滑动到所有图像上。然而，这种卷积很容易增加大型网络的计算量和参数，这使得迭代学习过程更加繁琐。Krizhevsky等人[27]首先介绍了分组卷积的概念，并将其应用于实际，大大减少了模型参数和视频内存占用。基于此，我们的模型使用时间序列上的组卷积来减少模型参数并提取时间信息。

3.方法

在本节中，我们详细描述了我们的时空运动模块（SMNet）。首先，我们描述了我们的整体网络框架。然后，我们对我们的网络进行了详细的分析和修改。有关我们网络的更多详细信息，请参阅第3.1节和第3.2节.

3.1. SMNet网络

我们设计了一个二维动作识别网络，只以RGB图像为输入，从图像中提取不同的信息进行动作识别，避免了光流的影响。由于视频帧中不同空间位置信息的重要性不同，我们将空间注意机制引入到视频动作识别任务中。在现有的普通卷积中，一个卷积核只能提取一个特征图，因此我们在网络中引入了组卷积，它可以用相同的计算量和参数生成多个特征图以获得更多的特征信息。我们的模型框架如所示图2.我们使用TSN提出的稀疏时间采样策略[2]对输入视频进行采样。首先，给定一个视频，我们将其划分为N个片段，然后从每个片段中随机选择一帧以形成一个输入序列。对于时空运动的建模，我们基于ResNet-50进行构建[11]并在ResNet-50的剩余块中覆盖多个SMNet模块。SMNet块包含用于提取时空信息的时空激励模块（SE）和用于提取运动信息的运动激励模块（ME）。

3.2. 网络分析

3.2.1. 采样策略

我们使用稀疏采样策略来选择输入帧，我们可以在[2]纸张。由于我们的动作是连续的，在将视频剪切成帧后，我们可以发现一些相邻帧中的帧几乎是相似的。因此，我们按照动作发生的时间顺序分割视频帧。一旦帧被分割，我们可以看到每个片段包含的帧数大致相同。因此，为了获得更好的外观并减少输入视频帧的冗余，我们在每个片段中随机选择帧来形成我们的输入序列。在这种情况下，输入序列中的每个帧或多或少是不同的，然后对输入进行训练。有关详细信息，请参阅[1]纸张。因此，适合使用稀疏采样策略随机选择输入帧来构建输入序列。

3.2.2. 东南方

SE模块通过组卷积提取时域信息。我们建议使用群卷积[27]，如所示图3与普通卷积相比，群卷积具有一些固有的优点。首先，群卷积算法更加关注不同信道上独立卷积核的学习。我们都知道，不同信道上的语义信息是不同的，因此，这样的操作可以使每个信道上的信息相互独立，便于更好地进行定时信息提取。其次，组卷积可以大大减少模型的参数，并且在使用相同数量的参数和计算时可以生成多个特征图，这样我们的网络可以编码更多的信息。我们对输入的特征映射进行分组，并且每个卷积核也相应地被划分为组。每个组的卷积核用于与相应组中的输入数据部分进行卷积，以获得每个组的输出数据，然后通过级联将其组合成一个特征映射，从而减少网络参数的数量或增加特征映射并改进特征表示。

SE模块引入了一种空间注意机制，用于在空间域上提取信息。因为在视频帧中，我们经常需要注意人体的动作，而忽略了混沌背景的影响。此外，我们考虑到图像中空间位置信息的不同重要性，因此我们引入了一个空间注意模块来训练获得空间权重矩阵。引入了注意机制，通过关注更重要的特征并抑制不必要的特征来提高表达能力，这对区分具有相似背景的不同行为具有重要影响，如图4因此，我们使用空间域中的注意力机制来提取空间信息。如所示图5，灵感来自[28]我们相信，沿着渠道轴线应用池操作可以有效地突出包含关键信息的区域。因此，我们沿通道方向执行平均池和最大池操作，以获得两个二维特征图。将获得的两个特征映射在维度方向上串联，以获得拼接的特征映射。新要素图的通道是原始两个要素图通道的总和。对于拼接后的特征图，通过卷积层生成空间注意图，然后与原始特征相乘得到新的特征。

因此，我们将群体卷积和空间注意机制纳入我们的网络框架图6，使用一维卷积来融合时间信息可以表示为：

{F类}^{'} = C类 o个 n个 c（c） 一 t吨 e（电子） ({F类}_{1}, {F类}_{2}, \dots, {F类}_{n个})

(1)

在这里

{F类}_{1}, {F类}_{2}, \dots, {F类}_{n个}

是通过卷积得到的特征n个组。利用空间域中的注意机制来学习空间关系，我们使用两个池操作来聚合特征图的通道信息。如方程式所示(2)每个特征表示整个信道的平均聚合特征和最大聚合特征。在位置信息丰富的空间信息路径上，从每一层的特征地图中提取空间注意矩阵，并将提取的空间注意矩阵应用于原始特征地图，以确定需要聚焦的位置。然后通过标准卷积层连接和卷积生成二维空间注意图。简而言之，空间注意力的计算如下：

{F类}_{1}^{*}, \dots, {F类}_{n个}^{*} = C类 o个 n个 v（v） [一 v（v） 克 P（P） o个 o个 我 ({F类}^{'}), M（M） 一 x个 P（P） o个 o个 我 ({F类}^{'})]

(2)

{M（M）}_{秒} ({F类}_{*}) = C类 o个 n个 c（c） 一 t吨 e（电子） ({F类}_{1}^{*}, \dots, {F类}_{n个}^{*})

(3)

在这里，

{F类}^{'}

是组卷积的结果，并且

{F类}_{n个}^{*}

是每个卷积得到的注意矩阵。我们的SMNet框架将两个模块串联在一起，如等式所示(三)，最后进行融合。我们的融合运算可以表示为公式（4）：

G公司 = F类 + {F类}^{'} \times {M（M）}_{秒} ({F类}_{*})

(4)

3.2.3. 我

ME模块已在中进行了探索[16,17]. 它基于特征级建模运动信息。因为单个RGB图像通常会对静态外观进行编码，并且缺少关于前一帧和下一帧的上下文信息。另一方面，两个连续帧之间的RGB差分运算可以描述外观的变化，这可能与运动突出区域相对应。换句话说，我们认为在所有特征通道中，不同的通道捕获不同的信息。一些通道倾向于建模与场景相关的静态信息。其他人则专注于描述动态信息。对于动作识别，模型应该更加关注对动态信息敏感的通道。ME模块就是基于这种思想构建的，其结构如所示图7具体来说，我们认为时间步t处的特征级运动表示可以近似为两个相邻帧之间的差异

X（X） (t吨)

和

X（X） (t吨 + 1)

。我们首先对

X（X） (t吨 + 1)

，然后使用转换后的特征来执行差异。从形式上来说，这可以表示为：

M（M） (t吨) = C类 o个 n个 v（v） 三 * X（X） (t吨 + 1) - X（X） (t吨) 1 \leq t吨 \leq T型 - 1

(5)

哪里

M（M） (t吨)

是当时的动议签名t吨通过这种方式，我们可以获得运动特征的表示。在时间维度上，差分运算可以产生

T型 - 1

运动表示。然后沿时间通道进行合并以获得运动特征。

为了获得分类任务，我们使用交叉熵作为损失函数：

L（左） = \frac{1}{N个} \sum_{我 = 1}^{T型} \sum_{c（c） = 1}^{M（M）} 年_{我 c（c）} 我 o个 克 ({第页}_{我 c（c）})

(6)

哪里M（M）是类的数量，T型是小批量大小，

c（c） = \{1, 2, \dots, M（M）\}

是第i个样本的真实标签，

{第页}_{我 c（c）}

是观测样本的预测概率我属于类别c（c）.

年_{我 c（c）}

是一个符号函数，定义为：

年_{我 c（c）} = \{\begin{matrix} 0 & 这个 类别 属于 我 是 c（c） \\ 1 & 这个 类别 属于 我 是 不 c（c） \end{matrix}

与其他作品不同[16,17]在我们设计的SE模块中，我们使用了组卷积和空间注意机制，以获得更准确的时空信息，并且我们将ME模块与我们提出的SE模块并行使用。在网络的后期，将两个模块的结果进行融合，如所示图2最后，我们讨论了将SMNet模块插入ResNet-50的位置，以便充分利用我们的模型。我们可以在实验部分看到这个操作的细节。

4.实验和结果

4.1. 数据集

某物某物V1[29]包含174个类别，包括86017个训练集视频、11522个验证集视频和10960个测试集视频，共计108499个视频，编号从1到108499。每个视频对应一个文件，其中包含高度为100 px的jpg图像，可变宽度jpg图片以每秒12帧的速度从原始视频中提取。Jpg文件名以00001.Jpg开头。jpg的数量随原始视频的长度而变化。

某物某物V2[29]是Something-Something V1的扩展。它包含220847个视频，其中训练集中有168913个，验证集中有24777个，测试集中有27157个。总共有174个标签显示人类对日常对象执行预定义的基本操作。

动力学-400[30]包含400个类别，每个类别至少有400个视频片段，每个片段取自不同的YouTube视频，持续约10秒，并提供240k培训视频和20k验证视频。在我们的实验中，使用了223127个培训视频和18153个验证视频。对于Kinetics-400数据集，模型在训练集上进行训练，并在验证集上进行评估。

4.2. 实施详细信息

4.2.1. 培训

根据TSN中提到的相同策略，我们对视频动作识别任务进行了实验。对于给定的输入视频，我们根据时间平均分割从每个视频片段中提取T帧（在我们的实验中为8帧）以获得输入序列，这些帧的较短边的大小固定为256，并裁剪一个大小为224×224的中心区域以进行动作预测。我们在ImageNet数据集上预先训练了模型参数[31]. 使用二维ResNet-50作为网络主干，将我们的模型插入ResNet的剩余块中进行训练。此外，我们还使用了数据增强技术。在训练过程中，我们使用随机缩放和角度剪裁来处理图片帧，并将输入帧的大小调整为224×224。

4.2.2. 测试

在测试过程中，从视频中随机抽取10个不同的视频片段，通过所有片段得分的平均值获得最终预测。对于视频剪辑中的每一帧，我们遵循中提出的策略[32]，并通过保持纵横比将较小的尺寸调整为256。然后对覆盖整个帧的3个256×256的作物进行采样，进行动作预测。

4.3. 实验结果

在Something-Something V1、Something-Sething V2和Kinetics-400数据集上，将我们的模型框架与现有的动作识别方法进行了比较。结果如所示表1,表2和表3这里，top 1（%）表示预测概率最大的分类是正确分类的概率，top 5（%）是预测概率最高的五个分类中存在正确分类的可能性。我们将我们的结果与最先进的2D CNN动作识别框架进行了比较。由于基于3D CNN的动作识别框架比2D CNN稍大，参数也更多，因此距离工业应用还有很长的路要走，所以我们只比较了3D结果的一小部分。

表1描述了在相同主干条件和相同输入帧下，与Something-Something V1数据集上的现有2D动作识别模型和一些3D动作识别模型相比，我们的模型框架的准确性。我们的模型与输入帧分别为8、16和8+16的各种2D动作识别模型进行了比较。当输入帧为16帧时，我们的模型在前5帧上的性能达到82.3%，比TEA高2%[16]比STM高1.9%[17]. 与部分3D动作识别相比，我们模型的性能也稍高。

表2描述了与Something-Something V2数据集上的最新2D动作识别模型的一些比较。在8+16的输入帧下，我们的模型在前5帧上的性能达到91.9%，比TEINet高2.1%[15]. 在输入帧为8的情况下，我们的模型在top 1上实现了63.2%的性能，比TEINet高1.9%[15]，但前5名的准确率为87.6%，比最佳STM低1.2%[17]模型，这可能是由于输入帧数较少。

表3描述了我们的方法与Kinetics-400数据集上的一些最新动作识别方法进行了比较。我们可以看到，与CorrNet相比，我们的准确性略低[37]和S3D-G[36]在top 1和top 5中，这是因为这两种方法都是3D动作识别方法，能够很好地处理时间信息。在二维动作识别方法中，我们可以看到我们的模型在top 1上达到76.8%的性能，这与TANet几乎相同[35]. 这可能是因为我们的模型没有很好地处理Kinetics-400数据集中的视点问题，其中不同视图中的相同动作没有得到很好的识别，也没有很好的关注速率方面。

由于当前最先进的动作识别包括基于变压器的系统，我们将其与Something-Something V2数据集上的一些高级变压器模型进行了比较。比较结果如所示表4.

我们将Something-Something V2数据集上的实验结果与一些变压器模型中的结果进行了比较。我们将输入序列设置为8+16帧。比较结果如所示表4我们可以发现，Something-Something V2的Top-5达到91.9%，略高于变压器型号。这可能是因为Something-Something V2数据集中需要更复杂的时间推断。然而，由于变压器的计算量很大，它也不适用于实际场景。

我们将我们的SMNet模型框架与几个最新的动作识别框架在计算量和参数数量方面进行了比较，结果如所示表5。我们使用TSN、TSM、STM、I3D和我们的SMNet进行实验，主干为resnet-50和ECO[34]、ECOEnLite[34]主干为Something-Something V1数据集上的BNInception+3D ResNet-18。我们可以从中清楚地看到图8我们的方法在参数和触发器数量方面取得了很好的平衡，确保了参数和计算量的小幅度增加，同时提高了精度。

4.4. 烧蚀研究

在本节中，我们将在Something-Something V2数据集和Something-Something V1数据集上进行消融实验。所有实验都以RGB图像作为输入。

4.4.1. 采样策略

我们讨论我们的先验知识。为了进一步证明稀疏采样对我们的实验的影响，我们在Something-Something V1数据集上进行了随机采样和稀疏采样的比较实验。在随机采样中，我们剪切视频并选择8个随机帧来获得我们的输入序列。在稀疏采样中，我们根据动作的时间顺序将视频分成8个相等的片段。在每个片段中随机选择一帧以获得我们的输入序列。实验结果如所示表6我们可以清楚地看到稀疏采样对实验的帮助。

由于随机抽样的结果不是恒定的，因此产生的序列不一定包括第一、中间和第二个动作周期。然而，稀疏采样可以在很长的时间范围内对视频进行建模，生成的输入序列可以包含所有动作发生的时间段。因此，在我们的实验中，我们对整个视频帧应用稀疏采样策略。

4.4.2. 插入位置

我们讨论了将模块插入ResNet-50的位置对Something-Something V2数据集上的整体模型性能的影响。我们知道ResNet-50可以分为6个阶段，即。，

C类 o个 n个 v（v） 1, 第页 e（电子） 秒_{_2}, 第页 e（电子） 秒_{_三}, 第页 e（电子） 秒_{_4}, 第页 e（电子） 秒_{_5}

和FC层。我们将SMNet模块插入ResNet-50

第页 e（电子） 秒_{_2}, 第页 e（电子） 秒_{_2, 三}, 第页 e（电子） 秒_{_2, 三, 4}, 第页 e（电子） 秒_{_2, 三, 4, 5}

分别进行插入实验。实验结果如所示表7。我们将基线设置为基本ResNet-50网络。我们可以发现，用我们的模块替换剩余块可以显著提高实验的准确性，并且我们替换了ResNet50的几个剩余块进行实验。与基线相比，在ResNet-50网络中插入我们的模块后，排名前1的准确度分别提高了0.6%、1%、1.6%和2.7%。从实验结果来看，用我们的模块替换所有剩余块对实验的准确性有较大影响。

我们的SMNet模块用于替换ResNet-50主干的所有剩余块

第页 e（电子） 秒_{_2}

到

第页 e（电子） 秒_{_5}

。我们进行了一项消融研究，以实验在不同位置插入不同数量的SMNet模块对实验结果的影响。具体来说，我们在特定阶段用不同数量的SMNet模块替换了所有ResNet块，并保持所有其他阶段不变。我们用8个输入帧对Something-Something V2数据集进行了实验，结果如所示表8.

我们可以从中看到表8在动作识别的后期阶段插入SMNet模块更有助于识别性能。后期的时空特征将从更大范围内捕获时间信息，并实现有效的时间聚集。此外，当SMNet模块插入ResNet主干网的所有阶段时，我们的方法的性能达到了最佳结果。我们可以看到多个SMNet模块在ResNet-50中的堆叠方式图9.

4.4.3. 融合策略

我们在Something-Something V2数据集上讨论了SE模块和ME模块的融合模式。在实验中，我们分别将SE模块和ME模块并联和串联。实验结果如所示表9可以看出，当两个模块串联时，在前1个模块上的准确率为61.7%，在前5个模块上为86.9%，但当两个组件并联时，在第一个模块上准确率为63.2%，在第五个模块上正确率为87.6%。我们可以清楚地看到，当我们的两个子模块并行连接时，我们的准确性会更好，因此后续的实验采用并行策略。

4.4.4. 群卷积

我们讨论了群卷积的组数对Something-Something V2数据集上模型的准确性和计算工作量的影响。结果如所示表10我们知道，对于群卷积，群的数目越多，实验结果越好。因此，我们需要进行一些实验来测试组的数量对实验的影响。我们可以看到，当组数为4时，我们模型的性能权衡更好。当组数超过4时，组数的增加在精度和计算方面不会优化。这可能是由于硬件设备的限制。如果硬件设备能够跟上，我们可以尝试增加组的数量。

5.结论

目前，对动作识别的研究仍在如火如荼地进行。由于2D网络的性能与3D网络相似，但其参数和计算量较少，因此2D在工业着陆方面比3D有更好的发展前景，越来越多的研究人员进入该领域进行研究。与现有二维网络相比，本文具有更准确的识别性能，不需要预先计算光流，减少了计算成本和工作时间。与现有的三维网络相比，本文能够实现与三维网络相同的性能，而不需要过多的计算成本，这在实际应用中非常有意义。在本文中，我们还将其与最先进的变压器模型进行了比较。然而，由于变压器的计算工作量很大，因此它也不适用于实际场景。总的来说，本文提出了一种高效的时空运动网络，它可以提高模型性能，同时最小化模型的参数数量和计算工作量，这对工业应用具有重要意义。

作者贡献

概念化：Q.Y.和T.L。；方法：Q.Y。；软件，Q.Y。；验证：Q.Y。；形式分析：Q.Y。；调查：Q.Y。；资源：Q.Y。；数据管理：Q.Y。；书面原稿编制：Q.Y。；写作-审查和编辑：Q.Y.、T.L.和H.Z。；可视化：Q.Y。；监督：Q.Y.、T.L.和H.Z。；项目管理：T.L。；资金获取：T.L.所有作者均已阅读并同意手稿的出版版本。

基金

本研究得到湖北省科技创新项目（2019AAA045）和国家自然科学基金（62171328）的资助。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

不适用。

利益冲突

作者声明没有利益冲突。

工具书类

Simonyan，K。；视频中动作识别的双流卷积网络。高级神经信息处理。系统。 2014,1, 568–576. [谷歌学者]
Wang，L。；熊，Y。；王，Z。；乔，Y。；Lin，D。；唐，X。；van Gool，L.时间段网络：深入行动识别的良好实践。计算。视觉。 2016,9912, 20–36. [谷歌学者]
Wang，L。；熊，Y。；王，Z。；Qiao，Y.非常深双流ConvNets的良好实践。arXiv公司 2015，arXiv:1507.02159。[谷歌学者]
Ji，S。；徐伟（Xu，W.）。；杨，M。；Yu，K.三维卷积神经网络用于人类动作识别。IEEE传输。模式分析。机器。智力。 2013,35, 221–231. [谷歌学者] [交叉参考] [绿色版本]
Tran，D。；Boudev，L。；弗格斯，R。；托雷萨尼，L。；Paluri，M.使用3D卷积网络学习时空特征。2015年12月7日至13日在智利圣地亚哥举行的2015年计算机视觉国际会议记录；第4489–4497页。[谷歌学者]
扎克，C。；Pock，T。；Bischof，H。实时TV-L1光流的基于对偶的方法。Jt.（约）。模式识别。交响乐团。 2007,4713, 214–223. [谷歌学者]
Zhu，Y。；兰，Z。；纽萨姆，S。；Hauptmann，A.动作识别的隐藏双流卷积网络。arXiv公司 2018，arXiv:1704.00389。[谷歌学者]
高，S。；Cheng，医学硕士。；Zhao，K。；Zhang，X.Y。；Torr，P.Res2Net:一种新的多尺度主干架构。IEEE传输。模式分析。机器。智力。 2019,43, 652–662. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
伊尔格·E。；迈耶，N。；Saikia，T。；Keuper，M。；Dosovitskiy，A。；Brox，T.FlowNet 2.0：深网络光流估计的发展。IEEE配置计算。视觉。模式识别。 2017,2017, 1647–1655. [谷歌学者]
吴，S。；Park，J。；Lee，J.Y。；Kweon，I.S.CBAM：卷积块注意模块。arXiv公司 2018，arXiv:1807.06521。[谷歌学者]
他，K。；张，X。；任，S。；Sun，J.图像识别的深度残差学习。arXiv公司 2016，arXiv:1512.03385。[谷歌学者]
林，J。；甘，C。；王凯。；Han，S.TSM：高效视频理解的时间移位模块。2019年10月27日至11月2日在韩国首尔举行的2019 IEEE/CVF国际计算机视觉会议（ICCV）会议记录。[谷歌学者] [交叉参考] [绿色版本]
费希滕霍费尔，C。；平茨，A。；用于视频动作识别的卷积双流网络融合。arXiv公司 2016，arXiv:1604.06573。[谷歌学者]
李，M。；Lee，S。；儿子S。；帕克·G。；Kwak，N.动作特征网络：用于动作识别的固定动作过滤器。arXiv公司 2018，arXiv:1807.10037。[谷歌学者]
刘，Z。；罗，D。；Wang，Y。；Wang，L。；Tai，Y。；王，C。；李，J。；黄，F。；Lu，T.TEINet：视频识别的高效架构。arXiv公司 2020，arXiv:1911.09435。[谷歌学者] [交叉参考]
李毅。；吉，B。；施，X。；张杰。；Kang，B。；Wang，L.TEA：动作识别的时间激发和聚合。arXiv公司 2020，arXiv:2004.01398。[谷歌学者]
江，B。；王，M。；甘，W。；Wu，W。；Yan，J.STM：动作识别的时空和运动编码。arXiv公司 2019，arXiv:1908.02486。[谷歌学者]
Carreira，J。；Zisserman，A.Quo Vadis，动作识别？新模型和动力学数据集。arXiv公司 2017，arXiv:1705.07750。[谷歌学者]
迪巴，A。；法亚兹，M。；夏尔马，V。；卡拉米，A.H。；Yousefzadeh，R.Temporal 3D ConvNets：视频分类的新架构和转移学习。arXiv公司 2017，arXiv:1711.08200。[谷歌学者]
黄，G。；刘，Z。；Van Der Maaten，L。；Weinberger，K.Q.密集连接卷积网络。arXiv公司 2017，arXiv:1608.06993。[谷歌学者]
邱，Z。；姚，T。；Mei，T.使用伪三维残差网络学习时空表示。arXiv公司 2017，arXiv:1711.10305。[谷歌学者]
费希滕霍夫，C。；风扇，H。；马利克，J。；他，K.放慢视频识别网络的速度。arXiv公司 2019，arXiv:1812.03982。[谷歌学者]
Feichtenhofer，C.X3D：高效视频识别的扩展架构。arXiv公司 2020，arXiv:2004.04730。[谷歌学者]
Jaderberg，M。；Simonyan，K。；齐瑟曼，A。；Kavukcuoglu，K.空间变压器网络。arXiv公司 2015，arXiv:1506.02025。[谷歌学者]
胡，J。；沈，L。；阿尔巴尼，S。；Sun，G。；Wu，E.挤压和励磁网络。IEEE传输。模式分析。机器。智力。 2020,42, 2011–2023. [谷歌学者] [交叉参考] [绿色版本]
Wang，F。；江，M。；钱，C。；Yang，S。；李，C。；张，H。；王，X。；Tang，X.图像分类的剩余注意网络。arXiv公司 2017，arXiv:1704.06904。[谷歌学者]
Krizhevsky，A。；Sutskever，I。；Hinton，G.E.ImageNet使用深度卷积神经网络进行分类。Commun公司。ACM公司 2017,60, 84–90. [谷歌学者] [交叉参考]
Zagoruyko，S。；Komodakis，N.更加关注注意力：通过注意力转移提高卷积神经网络的性能。arXiv公司 2017，arXiv:1612.03928。[谷歌学者]
戈亚尔，R。；卡胡，S.E。；米查尔斯基，V。；马泰津斯卡，J。；威斯特伐尔州。；Kim，H。；哈内尔，V。；水果，I。；Yianilos等人。；Mueller-Freitag，M。；等。用于学习和评估视觉常识的“某物某物”视频数据库。arXiv公司 2017，arXiv:1706.04261。[谷歌学者]
凯·W·。；Carreira，J。；Simonyan，K。；张，B。；Zisserman，A.动力学人体动作视频数据集。arXiv公司 2017，arXiv:1705.06950。[谷歌学者]
Jia博士。；魏，D。；Socher，R。；李，L.J。；Kai，L。；Li，F.F.ImageNet：一个大规模的分层图像数据库。2009年6月20日至25日，美国佛罗里达州迈阿密，2009年IEEE计算机视觉和模式识别会议记录。[谷歌学者]
王，X。；Girshick，R。；古普塔，A。；He，K.非局部神经网络。arXiv公司 2018，arXiv:1711.07971。[谷歌学者]
周，B。；Andonian，A。；奥利瓦，A。；Torralba，A.视频中的时间关系推理。arXiv公司 2018，arXiv:1711.08496。[谷歌学者]
Zolfaghari，M。；辛格，K。；布罗克斯，T。ECO：用于在线视频理解的高效卷积网络; 施普林格：瑞士查姆，2018年。[谷歌学者]
刘，Z。；Wang，L。；Wu，W。；钱，C。；Lu，T.TAM：用于视频识别的时间自适应模块。arXiv公司 2020，arXiv:2005.06803。[谷歌学者]
谢S。；Sun，C。；黄，J。；涂，Z。；Murphy，K.重新思考时空特征学习：视频分类中的速度-准确性权衡。arXiv公司 2018，arXiv:1712.04851。[谷歌学者]
Wang，H。；Tran，D。；托雷萨尼，L。；Feiszli，M.相关网络视频建模。arXiv公司 2020，arXiv:1906.03349。[谷歌学者]
李，X。；Wang，Y。；Zhou，Z。；Qiao，Y.SmallBigNet：为视频分类集成核心和上下文视图。arXiv公司 2020，arXiv:2006.14582。[谷歌学者]
Tran，D。；Wang，H。；托雷萨尼，L。；Ray，J。；Lecun，Y。；Paluri，M.《动作识别时空卷积的进一步研究》。arXiv公司 2018，arXiv:1711.11248。[谷歌学者]
范，Q。；陈，C.F。；Kuehne，H。；皮斯托亚，M。；Cox，D.More Is Less:通过大小网络和深度时间聚合学习高效的视频表示。arXiv公司 2019，arXiv:1912.00869。[谷歌学者]
Wang，L。；李伟（Li，W.）。；Van Gool，L.视频分类的外观和关系网络。arXiv公司 2018，arXiv:1711.09125。[谷歌学者]
李，X。；Zhang，Y。；刘，C。；Shuai，B。；Tighe，J.VidTr：《没有卷积的视频变压器》。arXiv公司 2021，arXiv:2104.11746。[谷歌学者]
贝尔塔修斯，G。；Wang，H。；Torresani，L.了解视频需要时空关注吗？arXiv公司 2021，arXiv:2102.05095。[谷歌学者]
Arnab，A。；Dehghani，M。；Heigold，G。；Sun，C。；Lui，M。；Schmid，C.ViViT：视频视觉变压器。arXiv公司 2021，arXiv:2103.15691。[谷歌学者]
风扇，H。；熊，B。；曼加拉姆，K。；李毅。；Feichtenhofer，C.多尺度视觉变形金刚。arXiv公司 2021，arXiv:2104.11227。[谷歌学者]
帕特里克，M。；坎贝尔，D。；Y.M.浅野。；梅茨，I。；亨里克斯，J.F.《盯着球：视频变形金刚中的轨迹注意力》。arXiv公司 2021，arXiv:2106.05392。[谷歌学者]

图1。我们使用Grad-CAM在基线、TSN和SMNet（我们的）上可视化我们的图像特征。

图1。我们使用Grad CAM在基线、TSN和SMNet（我们的）上可视化我们的图像特征。

图2。在总体模型框架中，我们使用TSN提出的稀疏时间采样策略对输入视频进行采样。给定一个视频，我们将其划分为N个片段，然后从每个片段中随机选择一帧，形成一个输入序列。为了建模时空运动，我们设计了SMNet模块。SMNet包含一个SE模块（用于提取准确的时空信息）和一个ME模块（用于获取精细运动信息）。为了提高模型的准确性，我们在ResNet-50的剩余块中叠加了几个SMNet模块（实验中叠加了四个SMNet组件）。详细信息见第4.4节消融实验。

图2。在总体模型框架中，我们使用TSN提出的稀疏时间采样策略对输入视频进行采样。给定一个视频，我们将其划分为N个片段，然后从每个片段中随机选择一帧，形成一个输入序列。为了建模时空运动，我们设计了SMNet模块。SMNet包含一个SE模块（用于提取准确的时空信息）和一个ME模块（用于获取精细运动信息）。为了提高模型的准确性，我们在ResNet-50的剩余块中叠加了几个SMNet模块（实验中叠加了四个SMNet组件）。详细信息见第4.4节烧蚀实验。

图3。群卷积的结构。我们将输入的特征映射（W×H×C）分组，并将每个卷积核相应地划分为组。这里将特征映射和卷积核分为两组。然后，我们进行卷积计算以获得每组的输出数据，然后将它们串联起来。*表示卷积运算。

图3。群卷积的结构。我们将输入的特征映射（W×H×C）分组，并将每个卷积核相应地划分为组。这里将特征映射和卷积核分为两组。然后，我们进行卷积计算，以获得每组的输出数据，然后将它们连接起来。*表示卷积运算。

图4。背景相似的不同行动。飞盘接球和足球罚球。

图5。空间注意结构模块。我们沿着通道方向执行平均池化和最大池化，并连接这两个特征图。

图5。空间注意结构模块。我们沿通道方向执行平均池和最大池，并将这两个特征映射连接起来。

图6。SE模型。利用作用于时间维的一维群卷积对时域信息进行融合。使用空间域上的注意机制来学习空间上的关系。

图6。SE模型。使用在时间维度上作用的1D群卷积来融合时域中的信息。使用空间域上的注意机制来学习空间上的关系。

图7。ME模型。使用帧之间的差异来表示运动信息。在时间维度中，对两个相邻帧执行差分运算，以生成

T型 - 1

运动表示。然后沿时间通道进行合并以获得运动特征。

图7。ME模型。使用帧之间的差异来表示运动信息。在时间维度中，对两个相邻帧执行差分运算，以生成

T型 - 1

运动表示。然后沿时间通道进行合并以获得运动特征。

图8。视频分类性能比较。我们比较了Something-Something V1数据集的Top-1精确度和计算成本。我们建议SMNet与TEINet比较好[11]、TSM[12]、ECO[34]和I3D[18]在准确性和效率之间进行权衡。

图8。视频分类性能比较。我们比较了Something-Something V1数据集的Top-1精确度和计算成本。我们建议将SMNet与TEINet进行比较[11]、TSM[12]、ECO[34]和I3D[18]在准确性和效率之间的权衡方面。

图9。ResNet-50中堆叠多个SMNet模块的方式。

表1。在输入帧为8、16、8+16的情况下，我们将其与Something-Something V1数据集上最新的2D动作识别框架和一些3D动作识别框架进行了比较。

方法	骨干	框架	Val Top-1（%）	价值排名前5位（%）
二维CNN：
TSN-RGB型[2]	ResNet-50公司	8	19.7	46.6
TSN-多尺度[33]	BN初始	8	34.4	-
TSM-RGB接口[13]	ResNet-50公司	8	43.4	73.2
TEIN网[11]	ResNet-50公司	8	47.4	-
STM-RGB标准[17]	ResNet-50公司	8	49.2	79.3
茶[16]	ResNet-50公司	8	48.9	78.1
SMNet（我们的）	ResNet-50公司	8	49.8	79.6
TSM-RGB接口[13]	ResNet-50公司	16	44.8	74.5
TEIN网[11]	ResNet-50公司	16	49.9	-
STM-RGB标准[17]	ResNet-50公司	16	50.7	80.4
TEA公司[16]	ResNet-50公司	16	51.9	80.3
生态的[34]	BNInception+3D ResNet-18公司	16	41.4	-
SMNet（我们的）	ResNet-50公司	16	53.4	82.3
TEIN网[11]	ResNet-50公司	8 + 16	52.2	-
TSM公司[12]	ResNet-50公司	8 + 16	49.7	78.5
TANet公司[35]	ResNet-50公司	8 + 16	50.6	79.3
ECOEnLite公司[34]	BNInception+3D ResNet-18公司	92	46.4	-
SMNet（我们的）	ResNet-50公司	8 + 16	55.2	84.3
3D CNN：
S3D-G系列[36]	开端	64	48.2	78.7
第3天[18]	ResNet-50公司	64	41.6	72.2

表2。使用8、16、8+16的输入帧，我们将其与Something-Something V2数据集上最新的2D动作识别框架进行了比较。

方法	骨干	框架	最大值-1（%）	价值排名前5位（%）
TSN-RGB型[2]	ResNet-50公司	8	-	86.2
TSN-多尺度[33]	BN初始	8	48.8	77.6
TSM公司[12]	ResNet-50公司	8	56.7	83.7
TEIN网[11]	ResNet-50公司	8	61.3	-
STM公司[17]	ResNet-50公司	8	62.3	88.8
SMNet（我们的）	ResNet-50公司	8	63.2	87.6
TSM公司[12]	ResNet-50公司	16	58.7	84.8
TEIN网[11]	ResNet-50公司	16	62.1	-
STM公司[17]	ResNet-50公司	16	64.2	89.8
TEA公司[16]	ResNet-50公司	16	64.5	89.8
SMNet（我们的）	资源网-50	16	65.7	90.1
TEIN网[11]	ResNet-50公司	8 + 16	65.5	89.8
TSM双流[12]	ResNet-50公司	8 + 16	63.5	88.6
小型BigNet[38]	ResNet-50公司	8 + 16	63.3	88.8
SMNet（我们的）	ResNet-50公司	8 + 16	67.8	91.9

表3。在输入帧数不同的情况下，我们将其与最近的2D动作识别框架和Kinetics-400数据集上的一些3D动作识别框架进行了比较。

方法	骨干	框架	最大值-1（%）	价值排名前5位（%）
二维CNN：
SmallBigNet公司[38]	ResNet-50公司	8 × 3 × 10	76.3	92.5
TEINet公司[11]	ResNet-50公司	16 × 3 × 10	76.2	92.5
TEA公司[16]	ResNet-50公司	16 × 3 × 10	76.1	92.5
TSM公司[12]	ResNet-50公司	16 × 3 × 10	74.7	91.4
TANet公司[35]	ResNet-50公司	16 × 4 × 3	76.9	92.9
TSN公司[2]	开胃V3	25 × 10 × 1	72.5	90.2
右（2+1）D[39]	ResNet-34型	32 × 1 × 10	74.3	91.4
TAM公司[40]	bLResNet-50型	48 × 3 × 3	73.5	91.2
SMNet（我们的）	ResNet-50公司	8 × 3 × 10	76.1	92.7
SMNet（我们的）	ResNet-50公司	16 × 3 × 10	76.8	93.3
3D CNN：
仅较慢[22]	ResNet-50公司	8 × 3 × 10	74.8	91.6
ARTNet公司[41]	ResNet-18公司	16 × 10 × 25	70.7	89.3
荷兰国际3D[32]	ResNet-50公司	128 × 3 × 10	76.5	92.6
CorrNet公司[37]	ResNet-50公司	32 × 1 × 10	77.2	-
S3D-G系列[36]	开始V1	64 × 3 × 10	74.7	93.4

表4。输入帧8+16。我们将其与Something-Something V2数据集上最先进的变压器模型进行了比较。

方法	预应变	最大值-1（%）	价值排名前5位（%）
视频Tr-L[42]	IN-21K+K-400	60.2	-
变压器-L[43]	印度-21K	62.5	-
ViViT-L公司[44]	RIN-21K+K-400	65.4	89.8
MViT-B公司[45]	K-400型	67.1	90.8
Mformer公司[46]	IN-21K+K-400	66.5	90.1
Mformer-L公司[46]	IN-21K+K-400	68.1	91.2
人力资源经理[46]	IN-21K+K-400	67.1	90.6
SMNet（我们的）	ImgNet公司	67.8	91.9

表5。模型的计算量和Something-Something V1数据集上参数的比较。

方法	骨干	框架	FLOP公司	参数
TSN公司[2]	ResNet-50公司	8	33克	2430万
TSM公司[12]	ResNet-50公司	8	32.9克	2390万
STM公司[17]	ResNet-50公司	8	33.3克	2400万
经济合作组织[34]	BNInception+3D ResNet-18	16	64克	4750万
ECOEnLite公司[34]	BNInception+3D ResNet-18	92	267克	1.5亿
国际3D[6]	ResNet-50公司	64	306克	2800万
SMNet（我们的）	ResNet-50公司	8	33.1克	23.9米

表6。随机抽样和稀疏抽样的比较结果。我们在Something-Something V1数据集上进行了实验。对于随机采样，我们在整个片段中采样了8帧。对于稀疏采样，我们将视频平均分为8个片段，并随机采样每个片段。

抽样策略	分段数（Number of Segments）	输入的数量序列帧	最大值-1（%）
随机抽样	1	8	45.7
稀疏采样	8	8	49.8

表7。在Something-Something V2数据集上ResNet的不同位置测试模块。SMNet模块插入

第页 e（电子） 秒_{_2}

残余块体

第页 e（电子） 秒_{_2}

和

第页 e（电子） 秒_{_三}

残余块体

第页 e（电子） 秒_{_2}

,

第页 e（电子） 秒_{_三}

和

第页 e（电子） 秒_{_4}

残余块体和

第页 e（电子） 秒_{_2}

,

第页 e（电子） 秒_{_三}

,

第页 e（电子） 秒_{_4}

和

第页 e（电子） 秒_{_5}

ResNet的剩余块来比较插入位置和插入的模块数对精确度的影响。

表7。在Something-Something V2数据集上ResNet的不同位置测试模块。SMNet模块插入

第页 e（电子） 秒_{_2}

残余块体

第页 e（电子） 秒_{_2}

和

第页 e（电子） 秒_{_三}

剩余块

第页 e（电子） 秒_{_2}

,

第页 e（电子） 秒_{_三}

和

第页 e（电子） 秒_{_4}

残余块体和

第页 e（电子） 秒_{_2}

,

第页 e（电子） 秒_{_三}

,

第页 e（电子） 秒_{_4}

和

第页 e（电子） 秒_{_5}

ResNet的剩余块来比较插入位置和插入的模块数对精确度的影响。

阶段	前1名（%）	前五名（%）
基线	60.5	85.3
$第页 e（电子）秒_{_2}$	61.1	85.7
$第页 e（电子）秒_{_2, 三}$	61.5	86.3
$第页 e（电子）秒_{_2, 三, 4}$	62.1	86.8
$第页 e（电子）秒_{_2, 三, 4, 5}$	63.2	87.6

表8。我们在不同的位置插入了不同数量的SMNet块。在一个阶段，我们用不同数量的SMNet模块替换了所有ResNet块，其他阶段保持不变。

表8。我们在不同的位置插入了不同数量的SMNet块。在一个阶段，我们用不同数量的SMNet模块替换了所有的ResNet块，其他阶段保持不变。

阶段	SMNets的数量	最大值-1（%）
$第页 e（电子）秒_{_2}$	三	61.1
$第页 e（电子）秒_{_三}$	4	61.3
$第页 e（电子）秒_{_4}$	6	61.9
$第页 e（电子）秒_{_5}$	三	61.5
$第页 e（电子）秒_{_2, 三, 4, 5}$	16	63.2

表9。比较Something-Something V2数据集上模块之间的融合策略。分别并联和串联操作SE和ME模块，以比较精度。

表9。比较Something Something V2数据集上模块之间的融合策略。分别并联和串联操作SE和ME模块，以比较精度。

融合策略	前1名（%）	前五名（%）
系列	61.7	86.9
平行	63.2	87.6

表10。在Something-Something V2数据集上对组卷积的组数进行实验。

组编号	FLOP公司	前1名（%）	前五名（%）
2	33.4克	62.8	87.1
4	33.1克	63.2	87.6
6	33.1克	63.1	87.4
8	33.1克	62.9	87.5

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

杨琼。；卢·T。；周，H。基于空间注意的动作识别时空运动网络。熵 2022,24, 368.https://doi.org/10.3390/e24030368

AMA风格

杨强，陆涛，周浩。一种用于基于空间注意的动作识别的时空运动网络。熵. 2022; 24(3):368.https://doi.org/10.3390/e24030368

芝加哥/图拉宾风格

杨、齐、陆通伟和周华兵。2022.“基于空间注意的动作识别时空运动网络”熵24，编号3:368。https://doi.org/10.3390/e24030368

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

基于空间注意的动作识别时空运动网络

摘要

1.简介

2.相关工程

2.1. 2D网络

2.2. 3D网络

2.3. 注意力机制

2.4. 群组卷积

3.方法

3.1. SMNet网络

3.2. 网络分析

3.2.1. 采样策略

3.2.2. 东南方

3.2.3. 我

4.实验和结果

4.1. 数据集

4.2. 实施详细信息

4.2.1. 培训

4.2.2. 测试

4.3. 实验结果

4.4. 烧蚀研究

4.4.1. 采样策略

4.4.2. 插入位置

4.4.3. 融合策略

4.4.4. 群卷积

5.结论

作者贡献

基金

机构审查委员会声明

知情同意书

数据可用性声明

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI