KNN-Based Machine Learning Classifier Used on Deep Learned Spatial Motion Features for Human Action Recognition

Paramasivam, Kalaivani; Sindha, Mohamed Mansoor Roomi; Balakrishnan, Sathya Bama

doi:10.3390/e25060844

开放式访问第条

基于KNN的机器学习分类器用于深度学习空间运动特征的人体动作识别

通过

卡拉瓦尼·帕拉马斯瓦姆

^1,*

,

穆罕默德·曼苏尔·鲁米·辛达

²和

萨提亚·巴马·巴拉克里什南

²

¹

印度塔米尔纳德邦Bodinayakanur 625582，政府工程学院电子与通信工程系

²

印度泰米尔纳德邦马杜赖蒂亚加拉贾尔工程学院电子与通信工程系，邮编：625015

^*

信件应寄给的作者。

熵 2023,25(6), 844;https://doi.org/10.3390/e25060844

收到的提交文件：2023年3月30日/修订日期：2023年5月4日/接受日期：2023年5月9日/发布日期：2023年5月25日

（本文属于主题机器和深度学习)

下载

浏览地物

版本注释

摘要

:

人的行为识别是监控视频分析中的一个基本过程，用于了解人的行为以确保安全。现有的HAR方法大多使用计算量较大的网络，如3D CNN和双流网络。为了缓解具有更多参数的3D深度学习网络在实施和训练方面的挑战，从头开始设计了一种基于有向无环图的剩余2D CNN，其参数较少，并被命名为HARNet。提出了一种从原始视频输入构建空间运动数据的新管道，用于人体动作的潜在表示学习。构造的输入被送入网络，以便在单个流中同时对空间和运动信息进行操作，在全连接层学习的潜在表示被提取出来并送入传统的机器学习分类器进行动作识别。对提出的工作进行了实证验证，并将实验结果与现有方法的结果进行了比较。结果表明，该方法优于最新的SOTA方法，在UCF101上提高了2.75%，在HMDB51上提高了10.94%，在KTH数据集上提高了0.18%。

关键词：

空间运动提示;基于有向非循环图的残差2D CNN;深度学习特征;KNN分类器

1.简介

在大多数计算机视觉应用程序中，识别人类行为是一个至关重要的过程，例如暴力检测[1,2]、监控视频分析[三]，异常检测[4]、视频检索、视频摘要[三]老年护理监测和紧急救援行动[5]. 人类动作识别也适用于机器人辅助手术方法。荣文提出了一种基于手部评估的机器人辅助手术方法，并辅以增强现实技术（AR）[6]. 在他们的方法中，术前和术中信息在基于投影仪的AR环境中直接显示在患者身上，而移动手术机器人系统执行预定义的RF针插入计划。针对视觉跟踪应用，提出了一种面向暹罗的区域建议网络[7]. 提出了一种基于真实患者身体模型分割图像和直接增强交互性的增强手术规划方法。通过对手术模型的投影、校正和注册，提出了一种投影仪-Kinect系统，以直接在患者身上创建具有空间增强现实的手术环境[8]. 在中提出了联合相似性度量和基于可调权重的立体匹配算法[9]. 这些方法增强了匹配成本计算，以更好地拟合心脏软组织的彩色图像。该方法同时利用图切割的概念增强了自适应权值。近年来，基于深度学习的人类行为识别[10,11,12,13]由于其基于对视觉皮层的模仿来理解上下文的效率，在计算机视觉领域受到了越来越多的关注。有基于2DCNN的方法使用两流方法和LSTM网络，也有基于3D CNN的HAR方法。虽然3DCNN在时间视频流上表现良好，但由于计算复杂度较高，它有自己的局限性。这促使研究人员开发了基于双流的2DCNN方法。通过网络两次遍历的两流方法仍然存在复杂性。因此，提出了一种新的单流、基于有向非循环图的残留2D CNN，也称为HARNet。

提出的工作受到信息瓶颈理论的推动[14]它认为任何有监督学习策略的目标都是提取并恰当地表示与输出标签相对应的输入数据中的重要信息内容。根据最小充分统计信息理论的解释，输入数据需要以最大压缩格式映射到输出标签，并尽可能地保留信息内容。提出的工作引入了一种新的单流学习框架，称为HARLearning，用于预测人类行为。该方法通过设计定制的浅层图（剩余CNN），利用CNN在学习最大压缩但信息丰富的表示方面的能力。选择浅层网络结构是为了确保模型的最佳性能，即使训练样本的质量较低，这将有助于识别监控视频中的异常动作，其中异常动作数据的数量与正常动作的数量不太相似。另一个原因是，浅层网络可以很容易地部署在边缘设备上，因为浅层网络中使用的卷积层的数量和结构的简单性都减少了，这导致了参数数量的减少，再次降低了计算复杂度和训练时间。术语“基于分层图形的CNN体系结构”意味着具有具有多个输入或多个输出的层。这实际上意味着来自一个层的信息将直接到达下一层，但常规流除外。这是通过提供剩余连接来实现的。学习到的特征已用于训练ML分类器，如支持向量机（SVM）、决策树（DT）、线性判别分析（LDA）、朴素贝叶斯（NB）、集成和k近邻（KNN），以识别人类行为。对于人体动作识别，时间/运动信息非常重要。将空间和时间信息结合起来，构造出一种新的空间运动线索。空间信息由灰度帧保存，灰度帧与光流运动矢量在带轴上结合以包括时间方面。

主要捐款如下：

空间和时间线索的融合，分别由强度和光流矢量表示。
提出了一种用于提取深度学习动作特征的单流浅层网络HARNet架构。
提出了一个基于KNN的机器学习框架，用于对多达101个人类动作进行分类。
在基准数据集上进行实验并与SOTA（最新技术）进行比较。

本文的结构如下。第2节给出了与拟议工作相关的文献。第3节描述了提出的空间运动特征学习框架。第4节描述了网络学习设置的实验细节以及结果和讨论。第5节给出了结论和未来的方向。

2.相关工作

最近，深度学习网络被广泛用于分析视频中的事件。其中一个模型是使用ResNet50来提取输入每帧的重要特征，然后使用递归神经网络（ConvLSTM）检测任何异常事件[2]. 年提出了一种结合CNN和长短时记忆（LSTM）的方法，用于在较小的数据集中对视频进行分类[15]. 使用Resnet-152对三种不同的输入变体进行评估，以基于三层LSTM进行编码和解码。第一个输入是RGB帧，第二个输入是光流，第三个输入是两个RGB帧和光流的组合。年提出的混合深度学习网络（HDLN）[16]已被用于从复杂的智能手机惯性数据中提取特征。深度学习模型还可以用于自动识别单个工人的活动。在中提出了一种将CNN与SVM和R-CNN相结合的方法[17]. 所有提取的细粒度动作特征都使用动作相关高斯混合模型（AIGMM）进行训练。对时空信息进行了分析，并保留了相似性。利用AIGMM的统计信息，如平均值、后验概率和协方差，创建核以发现相似性[18].

行人属性识别（PAR）在适用于视频监控系统的计算机视觉技术中非常重要。已实施基于PAR的方法，以比较深度学习和传统算法[19]. 为了识别个体与相关物体相互作用的群体活动，提出了一种基于骨骼信息的方法[20]. 该方法使用组交互关系网络（GIRN）来查找多个模块之间的关系以及它们之间的交互。为了从随机视图中识别人类动作，提出了一种基于辅助条件GAN的两分支视图动作生成方法[21]. 使用这种方法，可以为人类动作的任意视图生成动作样本，并在训练集中扩大动作序列的视图范围。实现了一种基于双摄像头框架的方法来识别和跟踪非驾驶活动（NDA）。这是通过使用深度学习算法将驾驶员的视线映射到非线性识别模型来实现的[22]. 此外，基于骨架的人机交互识别需要空间、时间和交互特征。提出了一种用于交互识别的二进关系图卷积网络（DR-GCN）方法[23]. 在最近的作品中，变形金刚被用于视频中的动作识别。下面给出了使用视觉变换器进行动作识别的方法的全面综述[24]. 动作变换器（AcT）是一种简单、完全自关注的结构，在卷积层、递归层和关注层的组合下，其性能优于更复杂的网络[25]. 该方法在较短的时间窗口中利用二维姿态表示来减少计算和能量需求。

3.建议的空间运动特征学习框架

所提出的空间运动特征学习框架包括三个步骤，即预处理、神经网络设计和HAR的表示学习，如所示图1预处理涉及空间信息与运动信息的融合。它是通过将视频帧的灰度形式与从带轴上的光流计算获得的运动矢量连接来执行的。

3.1. 预处理

将输入的视频数据分割成帧，对帧进行二次采样以减少冗余。通过使用Horn和Schunk方法查找帧之间的光流来计算运动矢量[26]. 强度图像是从RGB帧获得的，RGB帧与光流的水平矢量和垂直矢量相连接。由于构造的输入包含空间和运动信息，因此称为空间运动融合数据。

3.2、。拟定网络模型的设计

所建议的网络由五个阶段的卷积层堆叠而成，如所示图2在第一阶段中，使用八个通道卷积层，每个通道卷积层具有3的内核大小和具有相同填充的单个步长。每个卷积层后面都有一个批处理归一化层，以提供跨数据小备份的归一化。ReLU层用于仅保留特征的零和正值。

网络以下阶段的卷积层具有越来越多的信道，其比例因子为2，但内核的大小固定为

三 \times 三

同样，步幅和填充与第一阶段卷积层相同。通过

(1 \times 1)

跳过连接的卷积操作。然后

(2 \times 2)

最大池层用于将特征映射的大小降采样到值的一半，并仅保留主要特征。然后，在网络的第二阶段使用ReLU层。该层的输出特征图与第三和第四阶段层的组合特征输出相加。第二阶段ReLU的功能与第四阶段批量规范化输出一起添加。然后，最大池层用于缩小特征的维度。然后，包括ReLU层，接下来是最后的第五阶段卷积和批处理归一化层。第四阶段ReLU的输出特征图与第五阶段批量归一化的输出特征地图相连接。然后是平均池层和完全连接层。完全连接的层接收大小为的输入

8 \times 8 \times 128

（8192），输出节点的数量被选为用于训练网络的动作类的数量。全连接层用于以更精简的形式提取数据的高级表示。softmax层的最后一层仅用于在训练阶段学习拟议网络的核权重。在训练网络模型时，使用类别交叉熵作为损失函数。在学习HARNet核权重后，提取在全连接层中学习到的高层特征作为表示。这些特征用于训练k-最近邻（k-NN）分类器，以推断由所学表示表征的动作。

3.3、。信息瓶颈原则

信息瓶颈原理基于信息理论，用于提取随机输入变量中包含的更重要的内容

X \in v（v）

，其中v（v）表示关于随机输出变量的预处理视频数据

Y（Y） \in 我

，其中我表示输出操作类别的标签。考虑到他们的转移概率

第页 (Y（Y） ∣ X)

，它们的联合概率分布可以计算为

第页 (X; Y（Y）) = 第页 (Y（Y） ∣ X) 第页 (X)

(1)

重要的平均信息由相互信息提供，如

我 (X; Y（Y）) = \sum \sum [第页 (X; Y（Y）) {日志}_{2} (\frac{第页 (Y（Y） ∣ X)}{第页 (Y（Y）)})]

(2)

其中统计相关性介于X和Y（Y）假设。如所示图2，网络的每一层对从上一层获得的输入进行操作，从而使神经网络形成马尔可夫链。因此，数据处理不平等（DPI）源于以下事实：Y（Y）在一层中丢失的内容在后续层中无法恢复。根据深度神经网络的信息论学习原理，深度神经网络中的每一层只处理来自前一层的输入。连续层中的信息丢失

(n个 \geq 米)

与前面的层相比，如下面的等式所示。对于任何后续层

n个 \geq 米

，我们认为

我 (Y（Y）; X) \geq 我 (Y（Y）; {R（右）}_{米}) \geq 我 (Y（Y）; {R（右）}_{n个}) \geq 我 (Y（Y）; \hat{Y（Y）})

(3)

哪里

{R（右）}_{n个}

是更高层的表示，

{R（右）}_{米}

是较低层的表示，以及

\hat{Y（Y）}

是真实标签的预测标签Y（Y）。只有当且仅当每一层都为其输入提供了足够的统计信息时，才能实现上述表达式中的等式。因此，不仅需要在每个层获得最相关的表示，还需要获得其输入的最紧凑表示。因此，大规模分层网络可能会导致信息瓶颈。这个限制可以通过设计浅层网络来克服。每个层都需要尝试增强

我 (Y（Y）; {R（右）}_{n个})

同时减少

我 ({R（右）}_{n个 - 1}; {R（右）}_{n个})

尽可能多。这是通过卷积神经网络层实现的。

3.4. 分类

提取在完全连接层中学习的特征以训练机器学习分类器。使用支持向量机（SVM）、决策树（DT）、k近邻（KNN）、线性判别分析（LDA）、朴素贝叶斯（NB）和集成等多种ML分类器分析了该网络在潜在表示学习中的效果。

k-最近邻分类器：k-NN实际上适用于识别人类行为的模式，因为它是非参数的，这意味着它不假设数据的分布。因此，它在我们提出的方法中很有效。k-NN分类器存储所有训练数据，并尝试基于相似性度量对测试数据进行分类。在我们的实验中，欧氏距离被视为寻找邻域的相似性度量。用于分类测试样本的邻域数为1。
支持向量机（Support Vector Machine）：基于选择的核函数，SVM执行复杂数据转换。在这些转换的帮助下，数据之间的分隔边界被最大化。
决策树：决策树是一种用于多类分类问题的系统方法。DT提出了一组与数据集特征相关的查询。它是使用二叉树可视化的。根节点上的数据再次拆分为两个具有不同属性的不同记录。叶子表示数据集的类。
朴素贝叶斯：贝叶斯定理是朴素贝叶分类方法的基础。使用朴素贝叶斯方法是因为假设数据中的每一对特征之间都是独立的。
线性判别分析：我们的实验中使用了线性判别分析（LDA）分类方法。它假设不同类别的数据基于不同的高斯分布。LDA使用测试数据属于特定类的估计概率对其进行分类。概率最高的类被预测为给定样本的输出类。
集成：自适应增强多类分类方法被用作我们实验的集成聚合方法。我们实验中使用的学习周期数为100，收缩率相同。

为了训练分类器，从训练数据集中检索潜在表示。然后使用训练好的模型预测为测试数据集学习的表示类。在使用KTH训练机器学习分类器模型时，调整k-NN分类器的超参数，如所示表1; 文中还列出了超参数调谐实验的结果。

4.网络学习设置的实验细节

本节描述了HARNet的总体培训制度。对视频序列进行预处理，获得空间和运动信息的融合。网络输入缩小到

64 \times 64 \times 三

输入层之后的卷积层具有使用Gloot初始化器初始化的权重，这有助于稳定训练阶段并缩短训练时间。大小的内核权重

三 \times 三

用随机梯度下降更新。第一个卷积层有八个信道，在接下来的卷积层中，这个数量加倍。在网络的所有卷积层中，每个内核都以单个步幅沿着其输入移动。模型中所有最大池层的大小为

2 \times 2

以2的步幅。建议的HARNet的超参数通过实验在线性范围内进行更改来进行调整，如所示表2。在调谐过程之后，初始学习速率、动量和微带大小分别设置为0.01、0.5和32。三阶段方法包括培训、测试和验证，用于防止网络过度拟合。用于实现三阶段方法的数据分割比为70:15:15，所有实验都进行了三次。在视频基础上进行70:15:15的数据分割，以提供足够数量的视频样本用于培训。视频数据训练集用于训练网络模型以学习核权重，在训练过程中使用验证数据以提高网络性能。视频数据测试集传递给训练模型以预测未看到数据的动作类别。

4.1. HAR的数据集

用于实验评估拟议工作性能的三个标准HAR数据集是HMDB51、UCF101和KTH。数据集的各种功能，如视频剪辑数、帧速率、动作类别数、挑战和数据捕获中的变化都列在表3.

HMDB51型[27]是一个大型人体运动数据库，包含51个动作类的6849个视频。动作分为五大类，常见的身体动作、常见的面部动作、与物体的身体动作，与物体的面部动作，以及人类与身体动作的互动。UCF101[28]该数据集包含101个动作类别下的13320个视频，动作具有巨大的多样性。在不同比例、视点和照明条件下，对象的姿势和外观有很大的变化，可能与相机运动或不同的杂乱背景有关。KTH数据集[29]包含2391个视频片段，使用静态相机以每秒25帧的帧速率在统一背景上捕获。该数据集包括六个动作，即拳击、跑步、慢跑、步行、鼓掌和挥手。视频拍摄分为四种不同场景，室内、室外、不同规模的室外和穿着不同衣服的室外。

4.2. 结果和讨论

为了定量评估提出的网络模型的性能，使用以下等式计算出用于评估人类行为识别准确性的标准评估指标(4).

A类 c（c） c（c） u个 第页 一 c（c） 年_{M（M） o个 d日 e（电子） 我} = \frac{T型 P（P） + T型 N个}{(T型 P（P） + T型 N个 + F类 P（P） + F类 N个)}

(4)

为了比较不同分类模型的性能，以及通过改变不同参数分析同一模型的性能[30]. 针对多类动作识别问题，定义了精确性、召回率、特异性和F1-核心的性能评估指标，作为每类指标的平均值。每个类的评估指标是通过假设它们是一个二进制分类问题来定义的，这样考虑的类被视为正情况，所有其他类被视为由等式（5）-（8）表示的负情况。

P（P） 第页 e（电子） c（c） 我 秒 我 o个 {n个}_{P（P） e（电子） 第页 C类 我 一 秒 秒} = \frac{T型 P（P）}{(T型 P（P） + F类 P（P）)}

(5)

R（右） e（电子） c（c） 一 我 我_{P（P） e（电子） 第页 C类 我 一 秒 秒} = \frac{T型 P（P）}{(T型 P（P） + F类 N个)}

(6)

S公司 第页 e（电子） c（c） 我 如果 我 c（c） 我 t吨 年_{P（P） e（电子） 第页 C类 我 一 秒 秒} = \frac{T型 N个}{(T型 N个 + F类 P（P）)}

(7)

F类 1 秒 c（c） o个 第页 {e（电子）}_{P（P） e（电子） 第页 C类 我 一 秒 秒} = \frac{(2 * T型 P（P）)}{[(2 * T型 P（P）) + F类 P（P） + F类 N个]} .

(8)

通过取每个类的性能指标的算术平均值，计算多个类的评估指标。

4.2.1. UCF101评估

所提出的网络模型使用预处理的UCF101视频片段进行训练，用于对101个动作类进行分类。在学习了数据的权重和潜在表示后，从所提出的网络的全连接层中提取特征。提取的特征用于训练传统的ML分类器，以评估网络在学习潜在表示方面的效果。训练后的ML模型对测试数据中的人类行为进行了预测，平均分类准确率为：LDA为98.33%，NB为93.73%，集合为93.04%，DT为99.56%，SVM为99.98%，KNN为99.99%。列出所有标准多类性能指标的详细分类报告见表4.KNN得出的最大值为0.9999（精确度）、0.9990（召回）、统一（特异性）和0.9999（F1-核心）。根据中观察到的值表3结果表明，该方法对UCF101数据的行为分类效果良好。无论ML分类器如何，精确度、召回率、特异性和F1分数的其他指标的值也很高。

4.2.2. HMDB51评估

HMDB51数据集的准确性、精确度、召回率、F1-核心和特异性等标准指标列于表5该方法识别人类行为的准确率为：LDA为86.39%，NB为79.16%，集成分类器为77.97%，SVM分类器为88.01%，DT为86.51%，KNN分类器为89.41%。根据中列出的值表4结果表明，KNN分类器对各种指标产生了最大值，例如精度为0.8943，召回率为0.8933，特异性为0.8999，F1-score为0.8938。

4.2.3. KTH数据集评估

该方法的性能已经在具有六个动作类的未修剪KTH数据集上进行了实验评估。由于该数据集包含前景中有人和没有人的帧，因此使用了使用高斯混合模型检测人的预处理步骤。在检测到前景中的人后，将帧转换为空间运动线索，并通过网络模型对其进行进一步处理，以学习潜在表征。学习后的表示用于训练ML分类器模型，然后使用测试数据集评估预测准确性、精确度、召回率、特异性和F1-核。表6列出了在KTH数据集上计算的性能指标的值。该工作在LDA下的平均分类准确率为95.93%，在NB下为95.76%，在集成下为96.64%，在DT下为96.50%，在SVM下为97.16%，在KNN分类器下的最大性能为97.49%。KNN的准确度为0.9667，召回值为0.9623，特异性为0.9951，F1-core为0.9644。

结果如所示表4,表5和表6结果表明，无论采用何种分类器，该方法都能获得较高的精度值。这意味着所提出的方法做出的更积极的预测是正确的，这表明了所提出的工作在学习人类行为表征方面的效率。高召回率表明，在所有实际的阳性样本中，模型所做的大多数阳性预测都是正确的。所有ML分类器的高特异性值表明，经过训练的模型能够正确地对测试数据中的更多阴性样本进行分类。由于F1核是准确度和召回率的调和平均值，高F1核表明分类器通过同时考虑假阳性和假阴性结果来正确预测测试样本。这些度量的高值表明了所提出的HAR表示学习的强大鲁棒性。

4.2.4. 烧蚀研究结果

进行消融研究以确定每一层在影响所建议网络模型性能方面的重要性。它是通过从提出的模型中删除某些层来实现的；实验结果列于表7在第一项研究中，为了了解剩余连接的重要性，通过

1 \times 1

去除卷积层和加法层，结果命名为HARNet without Residual。结果表明，去除残余连接后，HMDB51上使用KNN分类器的原始模型的最大性能下降了0.86%，UCF101上下降了1%，KTH上下降了11.28%。在第二项研究中，通过保留剩余连接和加法运算以了解它们的贡献，将最大池层从原始层中删除，称为HARNet_without Maxpooling。可以观察到，最大池层的删除会使所提出的网络模型在HMDB51上的学习表示性能降低0.59%，在UCF101上降低0.97%，在KTH上降低3.33%，如图3结果表明，剩余连接和最大池层在人类行为识别的学习表征中具有重要意义。

4.3。与最新方法的比较

在UCF101、HMDB51和KTH三个基准数据集上，分析了所提出的网络在表示学习中的有效性，并与其他现有方法进行了比较。由于最先进的（SOTA）方法通常采用70:30的数据分割，因此建议的方法也使用这种分割，以便与SOTA技术进行比较。使用由k-NN分类的拟议网络特征进行的动作识别实验的结果与早期的研究进行了比较，如下所示表8,表9和表10。可以从中推断出表8与现有方法相比，所提出的方法提高了UCF101的性能[31]（Twostream）增长2.75%。表9将所提工作与现有工作在HMDB51数据集上的性能进行了比较，结果表明，所提方法在HMMDB51上的平均预测精度比现有最佳工作提高了10.94%[32]. 将KTH数据集的结果与中现有工作的结果进行了比较表10这些结果表明，与现有方法相比，该方法的性能提高了0.18%[33]. 提出的HARNet特征也已使用k-NN的两个最新变体进行训练，即基于k-最近邻的质心位移[34]和基于质心位移的集合k最近邻（ECDNN）[35]. 该实验表明，在UCF101上使用CDNN和ECDD的准确率提高了0.02%，在KTH上使用CDNN和ECDNN的准确率分别提高了0.86%和1.36%，而HMDB51的准确率相对较低（使用CDNN-和ECDN-分别降低1.5%和0.23%）。建议的和现有的深度神经网络中可学习参数的总数列于表11由于拟建网络只有五个

三 \times 三

卷积层，三层

1 \times 1

卷积层，以及具有多个动作类（N_c）乘以8192个权重和N_c个偏置项的全连接层，所提出的HARNet模型包括525779个内核权重和偏置项。这些权重与来自五个批次标准化层阶段的496个偏移和缩放参数相加，得到总共526275个参数。与现有最佳方法相比[36]下降了83.12%。

5.结论和未来方向

本文提出了一种基于信息瓶颈原理的HARLearning表示学习模型。它是通过设计一种新的基于有向非循环图的剩余CNN来实现的，称为HARNet。它是通过堆叠卷积层，然后是批处理归一化层和ReLU，在剩余连接后具有最大池层(

1 \times 1

)卷积。该网络经过训练，以学习输入的潜在表征和识别人类行为。空间和运动信息的融合是通过将帧的形式与光流矢量连接起来实现的。利用批量规范化和剩余连接的优点，网络能够更好地理解人类行为的不同特征。通过使用最大池层和(

1 \times 1

)卷积。学习的特征用于训练ML分类器。与SOTA方法相比，使用KNN分类器的HARNet特征在UCF101上的准确率提高了2.75%，在HMDB51上提高了10.94%，在KTH上提高了0.18%。其他指标证明了所提方法在网络参数少得多的HAR上的鲁棒性，这有助于在边缘设备上实现所提模型。建议的工作可以扩展到HAR的无监督模型，以使其能够在监视期间对看不见的数据进行分类。可以使用大型新数据集（如动力学700）对模型进行训练，以便包含更多动作。

作者贡献

概念化、K.P.和M.M.R.S。；数据管理、K.P.和S.B.B。；形式分析，K.P.和M.M.R.S。；调查，K.P。；方法论，K.P.和M.M.R.S。；项目管理、M.M.R.S.和S.B.B。；资源，M.M.R.S。；软件，K.P。；监督、M.M.R.S.和S.B.B。；验证、K.P.和M.M.R.S。；可视化，K.P。；书写原始草稿，K.P。；所有作者均已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

这些数据位于可公开访问的存储库中。本研究中的数据可在UCF101上公开获取，网址为http://arxiv.org/abs/1212.0402，参考号[28]，HMDB51位于https://doi.org/10.1007/978-3642-33374-3，参考编号[27]和KTHhttps://www.csc.kth.se/cvap/actions网站/，参考号[29].

鸣谢

作者衷心感谢蒂亚加拉贾尔工程学院（TCE）对本研究实施的支持。

利益冲突

作者声明没有利益冲突。

工具书类

Roshan，S。；Srivathsan，G。；Deepak，K.，《自动视频监控中的暴力检测：最新趋势和比较研究》。在智能数据中心系统; 学术出版社：剑桥，马萨诸塞州，美国，2020年；第157-171页。[谷歌学者]
Vosta，S。；Yow，K.C.一种用于监控摄像机中现实世界暴力检测的CNN-RNN组合结构。应用。科学。 2022,12, 1021. [谷歌学者] [交叉参考]
俄亥俄州埃尔哈罗斯。；Almadeed，N。；Al-Maaded，S。；布瑞丹，A。；Beghdadi，A.监控视频序列的组合多动作识别和摘要。应用。智力。 2021,51, 690–712. [谷歌学者] [交叉参考]
Berroukham，A。；霍斯尼，K。；Lahraichi，M。；Boulfrifi，I.基于深度学习的视频监控异常检测方法：综述。牛市。选举人。工程师通知。 2023,12, 314–327. [谷歌学者] [交叉参考]
Zhang，Y。；郭，Q。；杜，Z。；Wu，A.基于时空融合网络的应急救援动态场景中的人类行为识别。电子 2023,12, 538. [谷歌学者] [交叉参考]
温·R。；Tay，W.L。；Nguyen，B.P.公司。；Chng，C.-B。；Chui，C.K.基于直接增强现实界面的手势引导机器人辅助手术。计算。方法生物识别程序。 2014,116, 68–80. [谷歌学者] [交叉参考]
朱，H。；薛，M。；王，Y。；袁，G。；Li，X.使用面向暹罗的区域建议网络进行快速视觉跟踪。IEEE信号处理。莱特。 2022,29, 1437–1441. [谷歌学者] [交叉参考]
温，R。；Nguyen，B.P。；Chng，C.-B。；Chui，C.K.使用投影仪-Kinect系统进行原位空间AR手术规划。2013年12月5日至6日，越南岘港，第四届信息和通信技术研讨会论文集。[谷歌学者]
赖，X。；杨，B。；马，B。；刘，M。；尹，Z。；尹，L。；Zheng，W.一种基于联合相似性度量和自适应权重的改进立体匹配算法。应用。科学。 2023,13, 514. [谷歌学者] [交叉参考]
杨琼。；卢·T。；Zhou，H.基于空间注意的动作识别时空运动网络。熵 2022,24, 368. [谷歌学者] [交叉参考]
Tasnim，N。；Baek，J.H.基于骨架的人体动作识别的动态边缘卷积神经网络。传感器 2023,23, 778. [谷歌学者] [交叉参考]
Y.Y.乔弗里。；Aono，M.，使用运动和多视图激发与时间聚集的视频动作识别。熵 2022,24, 1663. [谷歌学者] [交叉参考]
Ahn，D。；Kim，S。；Hong，H。；Ko，B.C.STAR-Transformer：一种用于人类行为识别的时空交叉注意变压器。2023年1月2日至7日在美国HI威科洛举行的IEEE/CVF计算机视觉应用冬季会议（WACV）会议记录；第3330–3339页。[谷歌学者]
蒂什比，N。；深度学习和信息瓶颈原则。2015年4月26日至5月1日，以色列耶路撒冷，信息理论研讨会（ITW）会议记录。[谷歌学者]
西克尔，K。；Arzamendia Lopez，M。；格雷戈，D。；古铁雷斯，D。；Toral，S.评估CNN+LSTM系统对洗手步骤的分类。2021年9月22日至24日，西班牙马拉加，西班牙人工智能协会第十九届会议记录。[谷歌学者]
曹，Q。；徐，F。；Li，H.使用混合深度学习网络通过智能手机传感器的步态数据进行用户认证。数学 2022,10，第2283页。[谷歌学者] [交叉参考]
Patalas-Maliszewska，J。；Halikowski，D.基于深度学习的单个工人活动自动评估模型。传感器 2020,20, 2571. [谷歌学者] [交叉参考]
Mohan，C.S.使用动态内核进行细粒度动作识别。模式识别。 2022,122, 108282. [谷歌学者]
王，X。；郑S。；Yang，R。；郑，A。；陈，Z。；Tang，J。；Luo，B.行人属性识别：一项调查。模式识别。 2022,121, 108220. [谷歌学者] [交叉参考]
佩雷斯，M。；刘杰。；Kot，A.C.基于骨架的关系推理用于群体活动分析。模式识别。 2022,122, 108360. [谷歌学者] [交叉参考]
Gedamu，K。；纪毅。；Yang，Y。；高，L。；Shen，H.T.通过新视图动作生成实现任意视图人类动作识别。模式识别。 2021,118, 108043. [谷歌学者] [交叉参考]
Yang，L。；Dong，K。；丁，Y。；J·布莱顿。；詹，Z。；Zhao，Y.使用双摄像头监控系统识别视觉相关的非驾驶活动。模式识别。 2021,116, 107955. [谷歌学者] [交叉参考]
朱，L。；Wan，B。；李，C。；田，G。；Hou，Y。；Yuan，K.基于骨架的人体交互识别的二进关系图卷积网络。模式识别。 2021,115, 107920. [谷歌学者] [交叉参考]
乌尔哈克，A。；Akhtar，A。；波格勒布纳，N。；Mian，G.《行动识别的视觉变形金刚：一项调查》。arXiv公司 2022，arXiv:2209.05700。[谷歌学者]
马齐亚五世。；Angarano，S。；Salvetti，F。；Angelini，F。；Chiaberge，M.Action Transformer：基于位置的短时人类动作识别的自我关注模型。模式识别。 2022,124, 108487. [谷歌学者] [交叉参考]
Horn，B.K.P.公司。；Schunk，B.G.《确定光流》。Artif公司。智力。 1981,17, 185–204. [谷歌学者] [交叉参考]
Kuehne，H。；Jhuang，H。；Stiefelhagen，R。；Serre Thomas，T.Hmdb51：用于人体运动识别的大型视频数据库。在斯图加特高性能计算中心汇刊（HLRS）; 施普林格：德国柏林/海德堡，2013年。[谷歌学者] [交叉参考]
Soomro，K。；扎米尔，A.R。；Shah，M.UCF101:《野外视频》中101个人类动作类的数据集。arXiv公司 2012，arXiv:1212.0402。[谷歌学者] [交叉参考]
Kthaction数据集。在线可用：https://www.csc.kth.se/cvap/actions网站/（于2023年3月26日访问）。
格兰迪尼，M。；巴格利，E。；Visani，G.《多类分类的度量：概述》。arXiv公司 2020，arXiv:2008.05756。[谷歌学者]
Tran，D。；王，H。；托雷萨尼，L。；Ray，J。；乐村，Y。；Paluri，M.《动作识别时空卷积的进一步研究》。2018年6月18日至22日在美国犹他州盐湖城举行的第31届IEEE/CVF计算机视觉和模式识别（CVPR）会议记录。[谷歌学者]
I.M.纳西尔。；拉扎，M。；Shah，J.H。；Khan，文学硕士。；Rehman，A.在非受控环境中使用机器学习进行人类行为识别。2021年4月6日至7日在沙特阿拉伯利雅得举行的第一届人工智能和数据分析国际会议记录。[谷歌学者]
张春云。；Xiao，Y.-Y。；林，J.-C。；陈，C.P。；刘伟。；Tong，Y.H.人体运动无监督表征学习的三维去卷积网络。IEEE传输。赛博。 2020,52, 398–410. [谷歌学者] [交叉参考]
王，A.X。；楚科娃，S.S。；Nguyen，B.P.基于质心位移的k近邻的实现和分析。在《高级数据挖掘和应用》，第18届国际会议论文集-ADMA 2022，澳大利亚昆士兰州布里斯班，2022年11月28日至30日; 施普林格：德国柏林/海德堡，2022年。[谷歌学者] [交叉参考]
王，A.X。；楚科娃，S.S。；Nguyen，B.P.基于质心位移对k近邻进行集合。信息科学。 2023,629，313–323。[谷歌学者] [交叉参考]
Wang，L。；熊，Y。；王，Z。；乔，Y。；Lin，D。；唐，X。；Van Gool，L.《时间段网络：深度行动识别的良好实践》。2016年10月11日至14日，荷兰阿姆斯特丹，第十四届欧洲计算机视觉会议（ECCV）会议记录；第8-16页。[谷歌学者]
Simonyan，K。；视频中动作识别的双流卷积网络。《第28届神经信息处理系统会议记录》，2014年12月8日至13日，美国加利福尼亚州蒙特利尔；第8-13页。[谷歌学者]
杜，T。；布尔德夫，L。；弗格斯，R。；托雷萨尼，L。；Paluri，M.使用3D卷积网络学习时空特征。2015年12月11日至18日，智利圣地亚哥，计算机视觉国际会议记录；第11-18页。[谷歌学者]
邱，Z。；姚，T。；梅，T。；Venice，I.使用伪三维残差网络学习时空表示。2017年10月22日至29日在意大利威尼斯举行的第十六届国际计算机视觉会议（ICCV）会议记录；第22-29页。
周，Y。；太阳，X。；查，Z.-J。；Zeng，W.MiCT：用于人体动作识别的3D/2D混合卷积管。2018年6月18日至23日在美国犹他州盐湖城举行的第31届IEEE/CVF计算机视觉和模式识别（CVPR）会议记录；第18-23页。[谷歌学者]
涂，Z。；李，H。；张，D。；Dauwels，J。；Li，B.Y.Action-Stage强调视频动作识别的时空VLAD。J.IEEE传输。图像处理。 2019,28, 2799–2812. [谷歌学者] [交叉参考]
李，X。；谢，M。；Zhang，Y。；丁·G。；Tong，W.动作识别的双注意卷积网络。IET图像处理。 2020,14, 1059–1065. [谷歌学者] [交叉参考]
佩雷特，T。；马苏洛，A。；Burghardt，T。；Mirmehdi，M。；Damen，D.用于少量快照动作识别的时间关系交叉变换器。《IEEE/CVF计算机视觉和模式识别会议论文集》，虚拟，2021年6月19-25日；第475-484页。[谷歌学者]
陈，B。；孟，F。；Tang，H。；Tong，G.基于伪三维剩余网络的人类行为识别两级注意模块。传感器 2023,23, 1707. [谷歌学者] [交叉参考]
Omi，K。；Kimata，J.等人。；Tamaki，T.使用领域特定适配器进行动作识别的模型-认知多领域学习。IEICE传输。信息系统。 2022,105, 2119–2126. [谷歌学者] [交叉参考]
Bregonzio，M。；Xiang，T。；龚S.融合动作识别兴趣点的外观和分布信息。模式识别。 2012,45, 1220–1234. [谷歌学者] [交叉参考]
季S。；徐伟（Xu，W.）。；杨，M。；Yu，K.三维卷积神经网络用于人体动作识别。IEEE传输。模式分析。机器。智力。 2013,35，221–231。[谷歌学者] [交叉参考]
Cho，J。；李，M。；Chang，H.J.使用局部运动和组稀疏性进行鲁棒动作识别。模式识别。 2014,47, 1813–1825. [谷歌学者] [交叉参考]
姚明。；刘，Y。；Huang，S.J.人类行为识别的时空信息。图像视频处理。 2016, 39. [谷歌学者] [交叉参考]
张，C。；田，Y。；郭，X。；Daal，L.Deep activation-based Computer，动作识别深度视频的属性学习。视觉图像理解。 2018,167, 37–49. [谷歌学者] [交叉参考]
米什拉，O。；卡维曼丹，P.S。；Kapoor，R.使用轮廓和简单元素基于模态频率的人类行为识别。IJE变速器。A基础知识 2022,35, 45–52. [谷歌学者]
Wang，L。；唐，Z。；吉，B。；Wu，G.TDN：有效动作识别的时差网络。《IEEE/CVF计算机视觉和模式识别会议论文集》，虚拟，2021年6月20日至25日；第19-25页。[谷歌学者]

图1。提出的学习深层空间运动特征的框架。

图2。拟议HARNet的架构。

图3。在三个数据集上使用六个分类器进行消融研究的比较。

表1。ML分类器超参数的调整。

模型	超参数调整				调整前的精度（%）	调整后的精度（%）
k-NN公司	超参数	K	距离度量		95.58	97.49
	调谐范围	[1–100]	欧几里得、城市街区、， Minkowski、Chebychev、，汉明、斯皮尔曼、， Cosine，马哈拉诺比斯
	调谐值	1	欧几里得的
支持向量机	超参数	盒子约束	编码	内核规模	95.93	97.16
	调谐范围	[0–1000]	1-vs-1， 1-vs-全部	[0–1000]
	调谐值	1	1对1	1
DT公司	超参数	最小叶片尺寸			94.26	96.50
	调谐范围	[1–300]
	调谐值	1
激光雷达	超参数	三角洲	伽马射线		93.78	95.93
	调谐范围	[1 × 10⁻⁶, 1 × 10⁻³]	[0–1]
	调谐值	0	0.002
注	超参数	分发	宽度		92.96	95.76
	调谐范围	正常，内核	[0–10]
	调谐值	正常	-
合奏	超参数	数量学习循环	学习率		94.05	96.64
	调谐范围	[1-400]	[0–1]
	调谐值	100	1

表2。HARNet超参数的调整。

模型	超参数调整
HARNet公司	超参数	动量	初始学习率	迷你背带尺寸
	调谐范围	[0–1]	[0.001–1]	[16–64]
	已调整	0.5	0.01	32

表3。数据集的各种功能。

数据集	特征
数据集	视频剪辑数	帧速率（以每秒帧数为单位）	行动类别数量	挑战	数据捕获的变化
HMBD51型	6849	30	51	摄像机移动	摄像头视点，不同的视频质量
UCF101型	13320	25	101	背景杂乱，相机移动	对象在不同比例、不同照明条件和视点下的姿势和外观
KTH公司	2391	25	6	存在阴影，低质量视频	尺度变化，不同衣服的受试者，室内，室外

表4。ML分类器对UCF101。

表4。ML分类器对UCF101的影响比较。

ML分类器	准确性	精密度	召回	特异性	F1-芯
激光雷达	98.33	0.9826	0.9834	0.9998	0.9826
注	93.73	0.9392	0.9390	0.9994	0.9361
合奏	93.04	0.9114	0.8934	0.9993	0.8906
DT公司	99.56	0.9953	0.9951	1	0.9951
支持向量机	99.98	0.9998	0.9998	1	0.9998
KNN公司	99.99	0.9999	0.9990	1	0.9999

表5。ML分类器对HMDB51的影响比较。

ML分类器	精度（%）	精密度	召回	特异性	F1-芯
激光雷达	86.39	0.8680	0.8573	0.8993	0.8620
注	79.16	0.7911	0.7846	0.8978	0.7857
合奏	77.97	0.8260	0.7416	0.8975	0.7722
支持向量机	88.01	0.8819	0.8767	0.8996	0.8792
DT公司	86.51	0.8638	0.8596	0.8993	0.8615
KNN公司	89.41	0.8943	0.8933	0.8999	0.8938

表6。ML分类器对KTH的影响比较。

ML分类器	准确性	精密度	召回	特异性	F1-芯
激光雷达	95.93	0.9561	0.9372	0.9918	0.9450
注	95.76	0.9468	0.9382	0.9916	0.9420
合奏	96.64	0.9564	0.9524	0.9934	0.9543
DT公司	96.50	0.9546	0.9505	0.9931	0.9525
支持向量机	97.16	0.9628	0.9586	0.9944	0.9606
KNN公司	97.49	0.9667	0.9623	0.9951	0.9644

表7。消融研究中的表现。

模型	ML分类器	HMDB51型	UCF101型	KTH公司
HARNet公司	KNN公司	89.41	99.89	97.50
	支持向量机	88.01	99.78	97.16
	DT公司	86.51	99.56	96.50
	激光雷达	86.39	98.33	95.9
	注	79.16	93.73	95.8
	合奏	77.97	93.04	96.6
HARNet_无残差	KNN公司	88.65 （0.86%↓)	98.89 (1% ↓)	86.50 (11.28% ↓)
	支持向量机	87.01	98.79	86.33
	DT公司	85.43	98.19	75.65
	激光雷达	87.50	99.21	82.3%
	注	84.70	94.81	80.8%
	合奏	85.63	98.65	84.97%
HARNet_不带最大池	KNN公司	88.88 (0.59% ↓)	98.92 (0.97% ↓)	94.25 (3.33% ↓)
	支持向量机	87.49	98.90	94.18
	DT公司	84.69	98.42	92.90
	激光雷达	88.56	98.83	92.36
	注	85.45	92.79	90.9
	合奏	86.86	98.82	93.5

表8。与UCF101上的现有工程进行比较。

作者	方法	年份	准确度（%）
Simonyan，K.和Zisserman，A[37]	双流（SVM融合）	2014	88
Du等人。 [38]	C3D（从I380k微调）	2015	85.20
Wang等人。 [36]	TSN公司	2016	94.2
邱等人。[39]	伪3D	2017	93.70
Zhou等人。 [40]	3D/2D混合转换管（MiCT）	2018	88.90
Tran等人。 [31]	R（2+1）D-RGB（动力学）	2018	96.80
Tran等人。 [31]	R（2+1）D-TwoStream（动力学）	2018	97.30
Tu等人。 [41]	行动-ST-VLAD	2019	95.60
Li等人。 [42]	D网络	2020	86.70
Perrett等人。 [43]	TRX公司	2021	96.10
张永美[5]	STFusionNet公司	2022	93.20
陈[44]	2L-注意-s3DResNet	2023	95.68
提出	HARNet+KNN	-	99.98

表9。与HMDB51上的现有工程进行比较。

作者	方法	年份	准确度（%）
Simonyan，K.和Zisserman，A[37]	双流（SVM融合）	2014	59.40
Wang等人。 [36]	TSN公司	2016	68.50
Zhou等人。 [40]	3D/2D混合转换管（MiCT）	2018	63.80
Tran等人。 [31]	R（2+1）D-RGB（动力学）	2018	74.50
Tran等人。 [31]	R（2+1）D-TwoStream（动力学）	2018	78.70
Tu等人。 [41]	行动-ST-VLAD	2019	71.40
Li等人。 [42]	数据网络-50	2020	54.30
因扎曼·雷曼[32]	3DCF+NFC	2021	82.55
Perrett等人。 [43]	TRX公司	2021	75.60
Omi等人。 [45]	多域	2022	75.62
陈[44]	2L-注意-s3DResNet	2023	72.60
提出	HARNet+KNN	-	91.58

表10。与KTH现有工程进行比较。

作者	方法	年份	准确度（%）
Bregonzio等人[46]	外观+分发-MKL Fusion	2012	94.33
水旺等人。 [47]	三维有线电视新闻网	2013	90.20
赵[48]	局部运动+全运动	2014	89.70
姚明[49]	STB+池	2016	95.83
Zhang等人。 [50]	SIFT+BoW+SVM	2018	94.69
Zhang等人[33]	三维反褶积NN2	2020	97.40
米什拉[51]	有限元分析+RBF-SVM	2022	96.20
提出	HARNet+KNN	-	97.58

表11。与参数*中的现有工程进行比较。

作者	方法	预训练数据集	年份	参数（M）
西蒙扬，K。和Zisserman，A[37]	双流	ImageNet公司	2014	25
Du等人。 [38]	C3D公司	动力学400	2015	34.6
Wang等人。 [36]	TSN公司	ImageNet公司	2016	24.3
邱等人。 [39]	伪3D	ImageNet/动力学400	2017	25.4
Zhou等人。 [40]	3D/2D混合转换管（MiCT）	动力学400	2018	50.2
Li等人。 [42]	D网络	-	2020	36.26
王[52]	TDN公司	Kinetics400+ImageNet	2021	52.3
Omi等人。 [45]	多域	动力学400	2022	32.02
陈[44]	2L-注意-s3DResNet	动力学400	2023	3.08
提出	哈内特	HMDB51型	-	0.52

*由于本实验中使用的数据集不同，因此此比较仅供参考。

免责声明/出版商注释：所有出版物中包含的声明、意见和数据仅为个人作者和撰稿人的声明、意见和数据，而非MDPI和/或编辑的声明、意见和数据。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品造成的任何人员或财产伤害不承担任何责任。

分享和引用

MDPI和ACS样式

Paramasivam，K。；辛达，M.M.R。；Balakrishnan，S.B.公司。基于KNN的机器学习分类器用于人类动作识别的深度学习空间运动特征。熵 2023,25, 844.https://doi.org/10.3390/e25060844

AMA风格

Paramasivam K、Sindha MMR、Balakrishnan SB。基于KNN的机器学习分类器用于人类动作识别的深度学习空间运动特征。熵. 2023; 25(6):844.https://doi.org/10.3390/e25060844

芝加哥/图拉宾风格

Paramasivam、Kalaivani、Mohamed Mansoor Roomi Sindha和Sathya Bama Balakrishnan。2023.“基于KNN的机器学习分类器用于人类动作识别的深度学习空间运动特征”熵25，6号：844。https://doi.org/10.3390/e25060844

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单