A CNN-RNN Combined Structure for Real-World Violence Detection in Surveillance Cameras

Vosta, Soheil; Yow, Kin-Choong

doi:10.3390/app12031021

开放式访问第条

一种用于监控摄像机中现实世界暴力检测的CNN-RNN组合结构

通过

索海尔·沃斯塔

和

Kin-Choung Yow公司

^*

里贾纳大学工程与应用科学学院，里贾纳，SK S4S 0A2，加拿大

^*

信件应寄给的作者。

申请。科学。 2022,12(3), 1021;https://doi.org/10.3390/app12031021

收到的提交文件：2021年11月26日/修订日期：2022年1月6日/接受日期：2022年1月13日/发布日期：2022年1月19日

（本文属于特刊可视化数据分析的计算与人工智能II)

下载

浏览地物

审查报告版本注释

摘要

:

近年来，监控摄像机越来越多地用于许多公共和私人空间，以提高这些区域的安全性。尽管许多公司仍在招聘人员来监控摄像机，但招聘人员更有可能因人为错误而错过摄像机馈送中的一些异常事件。因此，监控监控摄像头可能会浪费时间和精力。另一方面，许多研究人员对监控数据进行了研究，并提出了几种自动检测异常事件的方法。因此，如果监控摄像头前发生任何异常，可以立即检测到。因此，我们引入了一种检测监控摄像头馈送中异常事件的模型。在这项工作中，我们通过实现一个著名的卷积神经网络（ResNet50）来设计一个模型，用于提取输入流每个帧的基本特征，然后使用递归神经网络的特定模式（ConvLSTM）来检测时间序列数据集中的异常事件。此外，与之前主要关注手工数据集的工作相比，我们的数据集采用了不同主题和环境的实时监控摄像头馈送。此外，我们对正常和异常事件进行了分类，并展示了该方法为每个异常找到正确类别的能力。因此，我们将数据分为三个主要和基本类别：第一类主要需要消防服务，而第二类和第三类是关于偷窃和暴力行为。我们在UCF-Crime数据集上实现了该方法，AUC达到81.71%，高于相同数据集上的其他模型，如C3D。我们未来的工作重点是在现有模型中添加一个注意力层，以检测更多的异常事件。

关键词：

异常检测;监控摄像机;ResNet公司;ConvLSTM公司;CNN+RNN;UCF犯罪

1.简介

随着公共管理、安保和安全方面的许多新挑战，越来越需要通过监控摄像机监控公共场景。乍一看，人类似乎很容易监控监控摄像头的输入，从行为模式中提取重要和有用的信息，检测异常行为，并提供即时响应[1]. 然而，由于人类能力的严重限制，一个人很难同时监测信号[2]. 这也是一项耗时的任务，需要很多资源，例如人员和工作区[三]. 因此，自动检测方法对此至关重要。行为理解的一个子领域[4]监控摄像头正在检测异常事件。监控摄像机中的异常检测是一项具有挑战性的任务，可能会面临以下几个问题：（1）异常事件很少发生；因此，很难找到此类事件的大量数据集。缺少样本可能会导致学习过程中出现一些困难。（2）通常，所有不遵循特定模式（或规则）的东西都称为“异常”。因此，我们无法为异常事件指定模型。（3）在不同的情况下，动作可以是正常的，也可以是异常的。这意味着，即使是全球异常事件（GAE）也可能是特定情况下的常规活动，比如枪击俱乐部。“射击”行为通常被认为是不正常的，而在射击俱乐部中则是正常的。另一方面，某些行为本质上并不异常，但在特定位置和条件下会出现异常，称为局部异常事件（LAE）[5]. 此外，Varadarajan在[6]提出异常事件是“在不寻常的时间、不寻常的地点采取的行动”。

从学习的角度来看，异常检测可以分为三种方法：有监督、无监督和半监督，这是一种重要且众所周知的学习方法分类。在监督学习中，通过考虑模型是由一个类别还是所有现有类别训练，有两种不同的方法[7]. 换句话说，在单模型学习中，模型只由正常（或异常）事件训练，而在多模型学习中则需要训练正常和异常事件。在单模型学习中，通过学习正常定义的阈值来区分异常事件和正常事件[8,9,10]，学习特征空间中正常事件的多维模型[11,12,13,14,15,16,17]和模型定义的学习规则[18]. 然而，对于多模型学习方法，特别是在存在多组异常时使用，每个类都将独立或独立地进行训练[7]. 另一方面，异常检测问题通常被视为无监督学习问题[19]. 该技术处理未标记的数据，其中假设正常事件经常发生，而异常事件很少发生在数据中。将所有罕见事件视为异常是这种学习的缺点之一[7]. 非监督学习中的几种聚类算法认为正常和异常事件应该在特征空间中很好地分离[20,21,22]. 此外，半监督异常检测方法既不像监督方法那样对标记数据过于可靠，也不像非监督模型那样精确度低[23]. 该模型试图缩小有监督和无监督技术之间的差异[19]. 一些工作利用了半监督学习模式的特性，如[24,25,26]. 本文将异常检测问题作为监督学习模式中的多场景公式提出。现实世界中的许多异常行为取决于我们对异常事件的定义，以将其标记为异常。然而，在这里，我们关注的是UCF-Crime数据集[27]包括公共场所监控摄像头捕捉到的许多异常、非法和暴力行为，这可能会给个人和社会人口带来严重问题。我们提出的模型使用ResNet50作为卷积神经网络（CNN）进行特征提取。然后，由于使用视频数据集，我们在模型体系结构中添加了一个RNN，即ConvLSTM，它可以有效地处理模型中的此类数据。然后，该模型返回输入视频是否包含非法行为。该模型可以节省人类的时间和金钱，并提高检测不可修复损坏的准确性。此外，该模型可以显著缩短应急服务的响应时间，这对政府和人民至关重要。拟议方法的主要贡献总结如下。

ResNet和ConvLSTM的组合用于监控摄像机的异常检测。
我们使用了UCF-Crime数据集，其中包括监控摄像机在13类异常事件中记录的自然场景。
为了更好地理解每个异常类别，我们通过将正常场景与异常场景分开，定义了UCF犯罪的两个修改数据集。

在本文的其余部分，我们分析了其他相关的工作，这些工作使用了不同的模型和每个子模型的整体思想，用于监控摄像机中的异常检测第2节然后，在第3节，我们描述了我们提出的模型。接下来，通过以下几项实验来评估我们的工作第4节最后，在中讨论了结论和未来的工作第5节.

2.相关工程

随着监控摄像机的广泛使用和对异常事件自动检测的需求，人们提出了几种方法来解决视频数据集中的各种异常检测[5,6,7,8,9]. 监督学习方法旨在分离数据类，而非监督技术解释和理解数据特征。在这两种方法中，有监督的异常检测技术优于使用标记数据的无监督异常检测技术[28]. 在监督异常检测中，从训练数据中学习分离边界，然后使用学习模型将测试数据分为正常类和异常类。

2015年，Tran等人[29]提出了一种利用三维卷积网络学习时空特征的模型。该模型称为C3D，在该模型中，每个分割的视频都经过一个三卷积层3D ConvNet对不同的动作进行分类。四年后，Sultani等人[30]在他们的论文中，使用该模型和多实例学习（MIL）来发现异常事件。

然而，深度神经网络结构最近已成功应用于各种计算机视觉任务，包括异常检测问题。异常检测的有监督深度学习主要包括两部分：特征提取网络和分类器网络[31]. 本文实现了卷积神经网络（CNN），从每个输入视频数据帧中提取基本特征。通过利用递归神经网络（RNN）结构，系统可以研究一系列帧以发现任何异常事件。

2.1. 卷积神经网络

CNN是图像处理目标中最常用的神经网络选择[32]. 从具有复杂结构的高维数据中提取复杂的隐藏特征是CNN的主要优点，使其适合于序列和图像数据集的特征提取器[33,34]. 提取的深度特征用于不同的应用，如图像质量评估[35]，皮肤病变分类[36]和人员重新身份验证[37]. 虽然CNN广泛用于文本分类和NLP等各种深度学习任务，但它们主要用于计算机视觉，如图像和视频检测和分类[38]. 近十年来，已经建立了各种类型的细胞神经网络，如AlexNet、ResNets、VGG、Inceptions及其变体。通过将这些卷积神经网络与softmax层相结合，也完成了一些工作[39]和形态分析[40]异常检测区域。除了CNN，Xu等人[41]和Hasan等人[42]提出的自动编码器结构。Nguyen等人[43]提出了一种用于视频流中异常事件检测的贝叶斯非参数方法。此外，还有其他一些模型，如Fisher向量和PCA[44]，运动交互场（MIF）[45]已在此范围内提出。

然而，也有一些模型主要用于关注数据的多个维度。

在深度学习方法中用于特征提取的最常见的CNN之一是ResNets。常规CNN通常是卷积层和完全连接层的组合[46]. 层数取决于几个标准，每种CNN都有其结构。例如，AlexNet有八层，GoogleNet有22层。另一种称为剩余神经网络（ResNet）的人工神经网络具有某种不同的结构。ResNet使用跳过连接（或快捷方式），可以跳过层。使用这种快捷方式的主要原因是将激活从前面的层传递到后面的层，以便更好地记忆参数，从而减少渐变消失的可能性[47].

2.2。循环神经网络

另一方面，RNN是在分析时间序列数据时捕获特征的著名选择之一[48]. 然而，随着时间步长的增加，它们无法提取上下文。通过改进RNN中的长期依赖性，引入了长短期记忆（LSTM）网络来克服这一限制[49]. 由于监控摄像机馈送的连续性，LSTM网络在异常检测应用中变得更加流行[26]. 因此，一些研究人员使用LSTM结构研究异常检测问题。在基于LSTM的网络中使用重建误差的规则性分数是使用LSTM解决异常检测问题的一种方法[50,51]. 此外，Srivastava等人提出了一个模型，在无监督学习方法中使用自动编码器、编码器LSTM和解码器LSTM[52].

然而，仅有的RNN方法无法获得高精度的结果。它们主要预测视频时间序列中的后续帧，并通过计算基本真实值和预测值之间的差值来判断视频片段是否异常。因此，由于异常事件不遵循特定的算法，因此很难根据下一帧的预测判断是否发生了异常事件。

2.3. CNN+RNN

深度学习架构在单独学习空间（通过CNN）和时间（通过LSTM）特征方面表现良好。时空网络是学习时空关系特征的网络[53]. 在STN中，结合CNN和LSTM来提取时空特征[31]. 将CNN应用于数据后，CNN结构（例如ResNet或AlexNet）的输出将成为后续LSTM的输入。一些研究人员采用这种技术在视频数据集中进行检测，如[30,54,55]用于发现异常事件。此外，近年来出现了另一种方法，其中卷积层在进入LSTM结构之前过滤CNN的输出[50,56,57]. 这种新方法被称为卷积LSTM或卷积LSTM。因此，卷积层不是在LSTM中完全连接，而是显著减少了参数的数量。因此，过拟合的机会减少了，它可以提高模型的性能。

3.建议方法

现在，我们将使用上述概念构建我们提出的模型。我们将残差网络（ResNets）实现为深度神经网络中最有效的特征提取技术之一[47]. 然后，在下一阶段，我们使用卷积LSTM（ConvLSTM）作为递归网络（RNN）来查找视频数据集中的异常。整个想法，如所示图1，表示每个视频文件被划分为以下序列n个帧之间的差异是CNN的输入（即ResNet50）。ResNet50的输出随后将转到RNN（即ConvLSTM）。完成此过程后n个帧，输出进入最大池化层，然后是几个完全连接的层以实现结果。

现在，我们将在下面详细介绍所建议的模型。

3.1、。预处理

在第一步中，我们将每个视频文件划分为固定帧。在这种情况下，如果我们要将视频文件划分为n个在视频文件的总帧数中，我们计算应该跳过的帧数。因此，如果视频文件的长度为60秒，则视频帧的总数为

米 = 1800

如果视频格式设置为30 f/s。现在，假设

n个 = 30

我们需要从1800帧中选择30帧。因此，我们需要在60个跳过的帧之后选择每个帧。选择帧后，我们计算每个帧与其相邻帧之间的差异，以考虑每个输入的空间移动。我们还用另一种方法预处理了一组数据集。我们选择了三类UCF-Crime数据集。我们将每个视频文件的异常事件的准确时间分割开来，并将其标记为“异常”，因此每个视频的其余部分都标记为“正常”。然后，将每个视频文件分割为相同长度的文件（例如，5 s）。因此，与前面的场景一样，n个将从中选择帧米帧，但在这种情况下米也固定为n个因此，在之前的工作中，我们只关注发生异常事件的帧。此外，正常集也取自包含异常事件的同一文件。这意味着，与原始的UCF-Crime数据集相比，背景、照明和对象都相同，只有行为不同，这有助于系统更好地检测异常事件。

3.2. ResNet50公司

ResNets在几个著名的数据集上表现出了出色的性能，例如ImageNet[58]和被称为机器学习各个领域（如动作识别）中许多应用中最常见的模型之一。尽管有几种不同层的ResNet，如ResNet-18,26,50101152。考虑到其复杂性，我们在建议的模型中选择了ResNet50，因为它的结构易于理解，性能更好。由于难以收集和标记异常事件，我们在模型中使用了转移学习[59]. 因此，我们在ImageNet数据集上预训练模型，包括1000个图像类别。因此，通过在ImageNet上运行ResNet50，参数将被初始化和更新，模型就可以在我们想要的数据集上运行了。

在我们的案例中，如所示图1，每个视频文件的每一帧和下一帧的差异将转到ResNet50。原始输入图像帧大小为

240 \times 240

因此，我们的ResNet50的输入将是

(240 \times 240 \times 三)

使用“channelllast”数据格式。然后，在经过几个卷积层和汇集层之后，深层剩余特征（DRF）的输出是一个4d张量（n，1，12048），需要为ConvLSTM滤波器进行整形。图2说明了模型中使用的ResNet50的结构。因此，ResNet50输出重新整形为（n，4,4128），并准备通过ConvLSTM层。由于我们不需要使用ResNet进行分类，因此我们不使用1000-d全连接层。我们只使用最后一个卷积块的输出进行DRF提取，以处理下一层中提取的特征[60].

3.3. ConvLSTM公司

由于LSTM或更具体地说，全连接LSTM（FC-LSTM）的输入、单元输出和状态都是一维向量，因此它们无法保持图像和视频中像素之间的空间关系。因此，LSTM不适用于空间序列数据[57,61]. ConvLSTM的第一个应用是使用雷达图像进行预测[57]. 然而，近年来，它已被应用于其他应用，这些应用主要集中在计算机视觉任务中的预测，如打滑检测[62]. 在ConvLSTM方法中，由于卷积层，最后两个维度（行和列）中的所有输入、单元输出、状态和空间维度都是三维张量。因此，由于ConvLSTM在其结构中具有卷积门，它可以为模型提供时空变化。与常规LSTM相比，ConvLSTM具有更好的性能[57].图3详细显示了ConvLSTM结构。在哪里？X（X）是输入和C类是单元输出。隐藏状态显示方式小时，以及

我_{t吨}, {（f）}_{t吨}, {o个}_{t吨}

是ConvLSTM结构中的门。因此，很明显，对于本文的目标，要发现依赖于时空特征的异常事件，最好的选择是使用ConvLSTM来获得更有效的结果。

从复杂性的角度来看，由于LSTM使用一维向量，因此在Hadamard产品之后，它会生成过多的参数，从而增加模型的复杂性，并增加发生过拟合的可能性。因此，由于ConvLSTM独特结构的优点，它需要较少的参数，降低了模型的复杂性，并保留了空间关系，这些空间关系非常适合于图像和视频。

从ResNet传入的每个帧都进入ConvLSTM单元，其中包含256个隐藏状态（过滤器），内核大小为

= (三 \times 三)

。ConvLSTM的输入是一个4D张量，（n，滤波器大小=256，行=4，列=4），因此每个时间步的输入是

4 \times 4

256个通道的图像。

3.4. 分类

最后，在第四层中，最后一个ConvLSTM的输出被传输到最大池层

(2 \times 2)

然后，将结果展平以获得一维向量。接下来，输出向量通过几个完全连接的层，并进行批量规范化和ReLU激活。因此，如果我们只愿意进行二进制分类，在经过1000-d、256-d和10-d全连接层之后，我们使用sigmoid激活和二进制交叉熵作为损失函数，然后计算最终输出是否显示异常事件。然而，如果我们的最终分类目标是两个以上的类别，我们使用softmax激活和类别交叉熵作为损失函数。

3.5. ResNet+ConvLSTM

到目前为止，我们已经讨论了ResNet和ConvLSTM，它们在各自设计的任务中都能很好地工作。在本节中，我们提出了我们的方法，将ConvLSTM模型添加到ResNet结构中，因为ResNet的输出将进入ConvLSTM网络。

以下描述了拟议的ResNet50ConvL的整个想法和程序

STM模型如所示图1.

首先，每个输入视频被划分为n个框架。然后，每帧和下一帧之间的差异进入预处理阶段，作为ResNet结构的初始部分，包括数据增强、去噪和规范化。
接下来，每两个帧的差异将转到我们的ResNet50结构。它经过34层Batch-Normalization、卷积、池和全连接层，以提供1000个向量大小的合适特征提取。
随后，每个图像的输出将成为相关ConvLSTM的输入。每个ConvLSTM层将提供两个输入：一个来自之前的ConvLSTM256个特征地图，另一个来自ResNet50处理的数据。因此，这种结构对空间顺序数据，尤其是视频数据非常有用。我们在模型中使用的ConvLSTM由256个大小为 $三 \times 三$ 和步幅1。
最后，最后一个ConvLSTM层的输出，其中包括来自大小为的前一阶段的所有信息 $(n个, 4, 4, 128)$ ，转到 $(2 \times 2)$ MaxPooling层之后是一些完全连接的层，以提供所需的分类。

4.实验结果

在本节中，我们将我们的实验结果与应用于UCF-Crime的其他方法进行比较，以评估我们的模型的工作效果。我们使用AUC和准确性指标进行评估。

4.1. 数据集

在本文中，我们在UCF-Crime数据集上实现了所提出的模型[27]包括学校、商店和街道等公共场所的监控摄像头捕捉到的大量异常、非法和暴力行为。选择此数据集的原因是，此数据集是从每天和任何地方都可能发生的实际日常事件中提取的。此外，这些异常行为可能会给个人和社会带来严重问题。有几篇论文使用了一些手工制作的数据集或具有相同背景和环境的特定数据集（即曲棍球比赛数据集和电影数据集），这在我们的日常生活中很少见。该数据集包括13类异常事件（即虐待、逮捕、纵火、袭击、道路事故、盗窃、爆炸、斗殴、抢劫、枪击、偷窃、购物和故意破坏）以及正常事件类别中的长时间未经修剪的监控摄像头馈送。图4表示UCF-Crime数据集的一部分。为了与该领域的其他作品进行公平比较，我们使用了

75 %

用于培训和

25 %

在我们的实验中进行测试。

我们使用了UCF-Crime数据集的四个变体：Ucfcrimes、Binary、4MajorCat和NREF。Ucfcrimes是我们的原始数据集，其中有14个类。而在二进制中，我们将所有13个异常事件视为一类异常。在4MajorCat中，我们将异常事件分为三大组和一个正常组。因此，这三个群体被命名为盗窃（即盗窃、抢劫、偷窃、商店盗窃）、故意破坏（即纵火、道路事故、爆炸、故意破坏）和暴力行为（即虐待、逮捕、袭击、打架、射击）。NREF是另一个仅关注三个异常（道路事故、爆炸和战斗）的操纵数据。在这个数据集中，在每个异常视频中，不使用预定义的异常和正常视频，而是包含被认为异常的异常。相反，视频文件的其余部分被标记为正常。此外，我们将NREF中的所有视频剪辑为10秒的视频，以从每个文件中获得更多相关帧。Ucfcrimes和Binary数据集的每个类别的视频数量如所示表1此外，表2表示4MajCat和NREF数据集的视频数。

4.2. 实验设置

我们的实验使用了Keras库中包含的ResNet50和ConvLSTM应用了提出的模型。我们利用几个超参数来调整模型，以获得最佳实验结果。表3将我们的实验结果与使用数据增强与否以及初始权重和优化器类型的不同值进行了比较。因此，我们在数据集上应用了数据增强，并在实验中使用glorot_uniform作为初始权重，RMSprop作为优化器。

此外，我们在实验中使用glorot_uniform作为初始权重，使用RMSprop作为优化器。此外，我们模型的学习率设置为

10^{- 4}

。epochs也被设置为50，但一旦损失函数收敛，代码就会停止，如果继续，代码就没有意义了。这意味着，在每个历元之后，它会计算损失函数，因此，如果后续两个历元的损失函数之差小于公差值，则该过程将停止，最后的精度将成为结果。我们还需要定义从每个视频文件中获取的帧数。在我们的实验中，我们将这个序列长度设置为20。无论视频文件的大小如何，都会考虑相同的跳过帧间隔，将每个视频文件划分为20帧。

4.3. 评价

在我们的实验中，我们使用了不同的评估。在第一步中，我们用keras库中的几种CNN模型（VGG19、InceptionV3、ResNet50、ResNet 101和ResNet 152）测试了我们的模型。表4显示了比较。因此，我们选择了ResNet50作为我们的实验，因为它具有良好的精度和较简单的结构。

我们通过测量值将我们提出的方法与三维卷积网络进行了比较；准确度（Acc）和曲线下面积（AUC）。由于UCF-Crime数据集是一个相对较新的数据集，目前还没有太多的工作。表5比较了我们提出的方法（ResNet50ConvLSTM）和其他七种异常检测模型（如SVM、MIL）在UCF-Crime数据集上用于二进制分类的AUC值[30]，C3D[29]和TSN[64]. 我们只将所有提到的异常事件类别视为一个类别，即“异常”，将没有异常事件的其他数据视为“正常”。测试分类器显示了异常事件正确分类的概率。因此，如所示表5，我们的模型优于以前的方法。

图5描述了二进制分类在精度和损失值方面的训练曲线。

在准确性方面，我们还通过考虑所有14个类别（13个异常事件加上一个正常事件），将我们的模型与C3D进行了比较。为了说明所提出的模型如何在UCF-Crime数据集上工作，我们通过计算精度,回忆，以及F1芯可以在中看到表6此外，中提供的混淆矩阵图6显示了分类详细信息。

在这种情况下，由于Ucfcrimes在不同光线和角度的真实情况下有许多日常动作，因此很难以突出的准确性值来区分它们。所提出的方法相对而言与C3D一样好。然而，这种复杂的数据集结构可能需要更复杂的特征提取设计。这可以通过使用更多的卷积层来访问更多的高级特征来实现。在这种情况下，我们在建议的模型中使用ResNet101而不是ResNet50，这提高了分类精度。因此，通过使用我们的模型ResNet101，我们在实验中取得了比C3D模型稍好的精度。表7显示了此比较。

由于我们无法在Ucfcrimes数据集中对所有类型的异常进行准确分类，因此我们将其分为四大类：盗窃、蓄意破坏、暴力和正常行为。

这四个主要类别的准确度和AUC计算结果如下所示表8因此，正如我们所看到的，我们对4MajCat数据集的结果要好得多，与对所有类别进行分类的准确度相比，准确度约为40%。表8也表示NREF（正常、道路事故、爆炸和战斗）的结果。实验表明，考虑到这种视频剪辑，分类的改进显著提高。

5.结论、局限性和未来工作

本文定义了一种结合ResNet50和ConvLSTM的新结构，用于检测UCF-Crime数据集中的异常行为。在实现此模型时，我们面临几个限制。我们使用的数据集在不同的照明、速度和对象中。例如，视频中出现了一些异常情况，而我们在一些视频中看不到任何人（例如，车祸）。此外，我们需要处理数据集的另一个限制。异常事件可能只需要一两秒钟就可以发生，即使在10秒钟的视频中，80%以上的视频长度也表明这是正常行为。尽管存在上述所有限制，但我们提出的方法在UCF-Crime数据集上优于其他方法。除了使用UCF-Crime的所有14个类别，二元分类，并划分为四个主要类别之外，我们还对三个不同异常事件的原始视频进行了裁剪。我们有背景和对象相同的异常事件和正常事件。我们实现了最流行的CNN之一ResNet50，以从每个输入视频帧中提取最关键的特征。然后，每个ResNet的输出通过ConvLSTM结构来探索一系列帧中的异常事件。最后，我们对每个数据集使用分类器，以确定模型如何准确识别每个输入视频的正确类别。尽管实验结果表明，我们的方法比其他现有模型做得更好，但我们正在寻求改进UCF-Crime数据集中所有13种异常的分类。其中一种方法是在我们将来要处理的结构中添加注意层。因此，该注意层可以添加到CNN结构和/或ConvLSTM中。因此，该模型可以更准确地关注视频文件中发生的异常。

作者贡献

概念化、S.V.和K.-C.Y。；方法、S.V.和K.-C.Y。；软件，S.V。；验证，S.V。；形式分析，S.V。；调查，S.V。；资源，S.V。；数据管理，S.V。；编写初稿，S.V。；写作审查和编辑，S.V。；可视化，S.V。；监督，K.-C.Y。；项目管理，K.-C.Y。；资金收购，K.C.Y.所有作者都已阅读并同意手稿的出版版本。

基金

我们感谢加拿大自然科学与工程研究委员会（NSERC）的支持，资金参考号为DDG-2020-00034。加拿大自然科学研究理事会（CRSNG），加拿大自然科学基金会DDG-2020-00034。

数据可用性声明

UCF-Crimes数据集包括1900个监控摄像机拍摄的长视频，其中一半包含真实世界中的异常事件，其余为正常视频。它涵盖了13种异常情况，包括虐待、逮捕、纵火、袭击、道路事故、盗窃、爆炸、斗殴、抢劫、枪击、盗窃、商店盗窃和故意破坏。本研究中提供的数据见[30].

利益冲突

作者声明没有利益冲突。

定义

本文使用了以下评估指标的定义：

AUC：ROC（接收器工作特性；默认）或PR（精确回忆）曲线的AUC（曲线下面积）是二进制分类器的质量度量。此类使用黎曼和近似AUC。在度量累加阶段，预测按值累加在预定义的存储桶中。然后通过插值每个桶的平均值来计算AUC。这些桶定义了评估的操作点。
准确性：计算预测等于标签的频率。此度量创建两个局部变量，total和count，用于计算频率 $年_对第页 e（电子） d日$ 比赛 $年_t吨第页 u个 e（电子）$ 此频率最终以二进制精度返回：一个幂等运算，只需将总数除以计数。
$P（P）第页 e（电子） c（c）我秒我 o个 n个$ ：计算依据 $\frac{T型 P（P）}{(T型 P（P） + F类 P（P）)}$ 哪里 $T型 P（P）$ 表示真阳性数， $F类 P（P）$ 假阳性数。
$R（右） e（电子） c（c）一我我$ ：计算依据 $\frac{T型 P（P）}{(T型 P（P） + F类 N个)}$ 哪里 $T型 P（P）$ 表示真阳性数， $F类 P（P）$ 假阴性的数量。
F1芯：该F1芯是精确度和召回率的调和平均值。其中，当接近1时，它显示的值更好，而0表示的值最差F1芯。此指标的计算依据为 $对第页 e（电子） c（c）我秒我 o个 n个$ 和 $第页 e（电子） c（c）一我我$ 值如下：

$F类 1 = \frac{2 \times (对第页 e（电子） c（c）我秒我 o个 n个 \times 第页 e（电子） c（c）一我我)}{(对第页 e（电子） c（c）我秒我 o个 n个 + 第页 e（电子） c（c）一我我)}$
混淆矩阵：提供分类问题的预测结果摘要，并以矩阵形式显示，以描述正确和错误预测的数量。

工具书类

Hospedales，T。；龚，S。；Xiang，T.使用动态主题模型进行视频行为挖掘。国际期刊计算。视觉。 2012,98, 303–323. [谷歌学者] [交叉参考]
苏尔曼，N。；萨诺基，T。；Goldgof，D。；Kasturi，R.人类视频监控性能的有效性如何？《2008年IEEE第19届模式识别国际会议论文集》，ICPR，美国佛罗里达州坦帕，2008年12月8-11日；第1-3页。[谷歌学者]
Nguyen，T.N。；Meunier，J.视频序列中的异常检测与外观-运动对应。2019年IEEE/CVF国际计算机视觉会议记录，ICCV，韩国首尔，2019年10月27日-11月2日；第1273-1283页。[谷歌学者]
田，B。；莫里斯，B.T。；唐，M。；刘，Y。；姚，Y。；郭台铭。；沈，D。；Tang，S.《分层和网络车辆监控：一项调查》。IEEE传输。智力。运输。系统。 2017,18, 25–48. [谷歌学者] [交叉参考]
Yu，J。；Yow，K.C。；Jeon，M.异常事件检测中外观和运动的联合表示学习。机器。愿景应用。 2018,29, 1157–1170. [谷歌学者] [交叉参考]
Varadarajan，J。；Odobez，J.M.场景分析和异常检测的主题模型。2009年9月27日至10月4日在日本京都举行的2009 IEEE第12届国际计算机视觉研讨会论文集，ICCV研讨会；第1338-1345页。[谷歌学者]
Sodemann，A.A。；医学博士Ross。；Borghetti，B.J.自动化监测中异常检测的综述。IEEE传输。系统。天啊，赛博。C部分（申请版本） 2012,42, 1257–1272. [谷歌学者] [交叉参考]
Zweng，A。；Kampel，M.使用多个特征在图像序列中进行意外的人类行为识别。2010年8月23日至26日在土耳其伊斯坦布尔举行的2010年第20届国际模式识别会议记录；第368-371页。[谷歌学者]
Jodoin，P.M。；Konrad，J。；Saligrama，V.为行为减法建模背景活动。《2008年第二届ACM/IEEE分布式智能相机国际会议论文集》，意大利特伦托，2008年9月9日至11日；第1-10页。[谷歌学者]
董，Q。；Wu，Y。；Hu，Z.指向运动图像（PMI）：一种新的运动表示及其在异常检测和行为识别中的应用。IEEE传输。电路系统。视频技术。 2009,19, 407–416. [谷歌学者] [交叉参考] [绿色版本]
Mecocci，A。；Pannozzo，M。；Fumarola，A.为高级实时视频监控自动检测异常行为事件。2003年7月31日在瑞士卢加诺举行的第三届科学使用海底电缆及相关技术国际研讨会会议记录；第187-192页。[谷歌学者]
H.P.李。；胡志勇。；Wu，Y.H。；Wu，F.C.基于半监督学习方法的行为建模和异常检测。阮健雪宝（软性杂志） 2007,18, 527–537. [谷歌学者] [交叉参考] [绿色版本]
姚，B。；王，L。；Zhu，S.C.学习用于跟踪和异常检测的场景上下文模型。2008年6月23日至28日，美国阿拉斯加州安克雷奇，IEEE计算机学会计算机视觉和模式识别研讨会会议记录；第1-8页。[谷歌学者]
尹，J。；杨琼。；Pan，J.J.基于传感器的异常人类活动检测。IEEE传输。知识。数据工程。 2008,20, 1082–1090. [谷歌学者] [交叉参考]
Benezeth，Y。；Jodoin，P.M。；Saligrama，V。；Rosenberger，C.基于时空共生的异常事件检测。2009年6月20日至25日，美国佛罗里达州迈阿密，IEEE计算机视觉和模式识别会议论文集；第2458–2465页。[谷歌学者]
Dong，N。；贾，Z。；邵，J。；熊，Z。；李，Z。；刘，F。；赵，J。；Peng，P.通过方向运动行为图检测交通异常。2010年8月29日至9月1日在美国马萨诸塞州波士顿举行的2010年第七届IEEE高级视频和信号监控国际会议记录；第80-84页。[谷歌学者]
罗伊，C.C。；Xiang，T。；Gong，S.检测和辨别行为异常。模式识别。 2011,44, 117–132. [谷歌学者] [交叉参考]
张，J。；刘，Z。检测视频中行人的异常运动。《2008年信息与自动化国际会议论文集》，中国长沙，2008年6月20日至23日；第81–85页。[谷歌学者]
鲁夫，L。；Vandermeulen，R.A。；哥尼茨，N。；粘合剂A。；穆勒，E。；米勒，K.R。；Kloft，M.Deep半监督异常检测。arXiv公司 2019，arXiv:1906.02694。[谷歌学者]
Tang，Y.P。；王晓杰。；Lu，H.F.用于计算机视觉中电梯轿厢异常检测的智能视频分析技术。2009年11月24日至26日在韩国首尔举行的2009年第四届计算机科学和融合信息技术国际会议记录；第1252–1258页。[谷歌学者]
冯，J。；张，C。；Hao，P.使用自组织地图在线学习，用于人群场景中的异常检测。2010年8月23日至26日，土耳其伊斯坦布尔，2010年第20届模式识别国际会议论文集；第3599–3602页。[谷歌学者]
谢里夫，M.H。；Uyaver，S。；Djeraba，C.使用Bhattacharyya距离度量进行人群行为监测。在2010年5月5日至7日于美国纽约州布法罗举行的国际专题讨论会《图像中物体的计算建模》会议记录中；施普林格：德国柏林/海德堡，2010年；第311-323页。[谷歌学者]
向，G。；Min，W.应用半监督聚类算法进行异常检测。2010年10月15日至17日，中国青岛，2010年第三届信息处理国际研讨会论文集；第43-45页。[谷歌学者]
Wang，J。；内斯科维奇，P。；Cooper，法律公告：通过单个球体进行图案分类。《第八届发现科学国际会议论文集》，新加坡，2005年10月8日至11日；施普林格：柏林/海德堡，德国，2005年；第241-252页。[谷歌学者]
刘伟。；罗，W。；Lian，D。；Gao，S.异常检测的未来帧预测——一个新的基线。2018年6月18日至23日，美国犹他州盐湖城，CVPR，IEEE计算机视觉和模式识别会议记录；第6536-6545页。[谷歌学者]
Ergen，T。；A.H.米尔扎。；Kozat，S.S.利用LSTM神经网络进行无监督和半监督异常检测。arXiv公司 2017，arXiv：1710.09207。[谷歌学者]
在线可用：https://visionlab.uncc.edu/download/summary/60-data/477-ucf-anomaly-detection-dataset（2018年1月12日访问）。
哥尼茨，N。；Kloft，M。；Rieck，K。；Brefeld，U。走向监督异常检测。J.阿蒂夫。智力。物件。 2013,46, 235–262. [谷歌学者] [交叉参考]
Tran，D。；Boudev，L。；弗格斯，R。；托雷萨尼，L。；Paluri，M.使用三维卷积网络学习时空特征。2015年12月7日至13日，在智利圣地亚哥举行的IEEE国际计算机视觉会议论文集；第4489–4497页。[谷歌学者]
西苏丹。；陈，C。；Shah，M.监控视频中的现实世界异常检测。2018年IEEE计算机视觉和模式识别会议记录，CVPR，美国犹他州盐湖城，2018年6月18-23日；第6479–6488页。[谷歌学者]
Chalapathy，R。；Chawla，S.异常检测的深度学习：一项调查。arXiv公司 2019，arXiv:1901.03407。[谷歌学者]
克里日夫斯基，A。；Sutskever，I。；Hinton，G.E.用深度卷积神经网络进行Imagenet分类。《神经信息处理系统进展会议录》，美国内华达州塔霍湖，2012年12月3日至6日；第1097-1105页。[谷歌学者]
O.Gorokhov。；彼得罗夫斯基，M。；Mashechkin，I.用于文本数据中无监督异常检测的卷积神经网络。2017年10月30日至11月1日在中国桂林举行的第18届智能数据工程和自动学习国际会议论文集；施普林格：瑞士查姆，2017年；第500–507页。[谷歌学者]
Kim，Y.句子分类的卷积神经网络。arXiv公司 2014，arXiv:1408.5882。[谷歌学者]
Varga，D.无参考图像质量评估的多池初始特征。申请。科学。 2020,10, 2186. [谷歌学者] [交叉参考] [绿色版本]
Kawahara，J。；BenTaieb，A。；Hamarneh，G.皮肤损伤分类的深层特征。2016年IEEE第13届国际生物医学成像研讨会（ISBI）会议记录，2016年4月13日至16日，捷克共和国布拉格；第1397-1400页。[谷歌学者]
白，X。；杨，M。；黄，T。；窦，Z。；Yu，R。；Xu，Y.Deep-person：学习辨别性深层特征以重新识别人。模式识别。 2020,98, 107036. [谷歌学者] [交叉参考] [绿色版本]
Alzubaidi，L。；张，J。；胡迈迪，A.J。；Al-Dujali，A。；Duan，Y。；Al-Shamma，O。；桑塔马利亚，J。；法德尔，文学硕士。；阿尔·阿米迪，M。；Farhan，L.深度学习回顾：概念、CNN架构、挑战、应用、未来方向。J.大数据 2021,8, 53. [谷歌学者] [交叉参考]
克里斯蒂安森，P。；尼尔森，法律公告。；Steen，K.A.公司。；约根森，R.N。；Karstoft，H.DeepAnomaly：结合背景减法和深度学习来检测农业领域中的障碍物和异常。传感器 2016,16, 1904. [谷歌学者] [交叉参考] [绿色版本]
Dong，L。；Zhang，Y。；温，C。；Wu，H.基于形态学分析和深度学习的摄像机异常检测。2016年IEEE数字信号处理（DSP）国际会议论文集，2016年10月16日至18日，中国北京；第266-270页。[谷歌学者]
徐，D。；里奇，E。；严，Y。；宋，J。；Sebe，N.学习用于异常事件检测的外观和运动的深度表示。arXiv公司 2015，arXiv:1510.01553。[谷歌学者]
哈桑，M。；Choi，J。；Neumann，J。；Roy-Chowdhury，A.K。；学习视频序列中的时间规律。2016年6月27日至30日，美国内华达州拉斯维加斯，IEEE计算机视觉和模式识别会议记录；第733–742页。[谷歌学者]
Nguyen，V。；Phung，D。；Pham，D.S。；视频监控中异常检测的贝叶斯非参数方法。数据科学年鉴。 2015,2, 21–41. [谷歌学者] [交叉参考]
Wang，H。；Schmid，C.改进轨迹的动作识别。2013年12月1日至8日，澳大利亚悉尼，IEEE计算机视觉国际会议论文集；第3551–3558页。[谷歌学者]
Yun，K。；Yoo，Y。；Choi，J.Y.检测异常交互的运动交互场。机器。视觉。申请。 2017,28, 157–171. [谷歌学者] [交叉参考]
Fu，J。；Rui，Y.图像标注深度学习方法的进展。APSIPA事务处理。信号信息处理。 2017,6，E11。[谷歌学者] [交叉参考] [绿色版本]
He，K。；张，X。；Ren，S。；Sun，J.图像识别的深度残差学习。2016年6月27日至30日，美国内华达州拉斯维加斯，IEEE计算机视觉和模式识别会议记录；第770-778页。[谷歌学者]
易卜拉希米·卡胡，S。；Michaelski，V。；Konda，K。；梅米塞维奇，R。；Pal，C.视频中情感识别的递归神经网络。2015年11月9日至13日在美国华盛顿州西雅图举行的2015年第17届ACM多式联运国际会议记录；第467–474页。[谷歌学者]
卡里姆，F。；马朱姆达尔，S。；Darabi，H。；Chen，S.LSTM完全卷积网络用于时间序列分类。IEEE接入 2017,6, 1662–1669. [谷歌学者] [交叉参考]
梅德尔，J.R。；Savakis，A.使用预测卷积长短记忆网络检测视频中的异常。arXiv公司 2016，arXiv:1612.00390。[谷歌学者]
Singh，A.使用长短期存储器（LSTM）对时间数据进行异常检测。2017年瑞典斯德哥尔摩KTH皇家理工学院硕士论文。[谷歌学者]
北斯利瓦斯塔瓦。；Mansimov，E。；Salakhudinov，R.使用lstms进行视频表征的无监督学习。第32届机器学习国际会议（ICML）会议记录，2015年6月6日至11日，法国里尔；第843-852页。[谷歌学者]
张，H。；郑毅。；Yu，Y.使用多个时空数据源检测城市异常。程序。Acm互动。移动可穿戴无所不在技术。 2018,2, 1–18. [谷歌学者] [交叉参考]
东，Z。；秦，J。；Wang，Y.视频中人对人暴力检测的多流深度网络。2016年11月5日至7日，中国成都，第七届中国模式识别会议论文集；施普林格：新加坡，2016年；第517–531页。[谷歌学者]
周，S。；沈伟（Shen，W.）。；曾博士。；方，M。；魏毅。；Zhang，Z.用于拥挤场景中异常检测和定位的时空卷积神经网络。信号处理。图像通信。 2016,47, 358–368. [谷歌学者] [交叉参考]
Sudhakaran，S。；Lanz，O。学习使用卷积长短期记忆检测暴力视频。2017年8月29日至9月1日在意大利莱切举行的2017年IEEE第14届先进视频和信号监控（AVSS）国际会议记录；第1-6页。[谷歌学者]
兴建，S.H.I。；陈，Z。；Wang，H。；Yeung，D.Y。；Wong，W.K。；Woo，W.C.卷积LSTM网络：降水预报的机器学习方法。《神经信息处理系统进展会议录》，加拿大魁北克省蒙特利尔，2015年12月7-12日；第802-810页。[谷歌学者]
邓，J。；Dong，W。；Socher，R。；李，L.J。；李凯。；Fei-Fei，L.Imagenet：大型分层图像数据库。2009年IEEE计算机视觉和模式识别会议论文集，2009年6月20日至25日，美国佛罗里达州迈阿密；第248-255页。[谷歌学者]
Alzubaidi，L。；法德尔，文学硕士。；Al-Shamma，O。；张，J。；桑塔马利亚，J。；Duan，Y。；R Oleiwi，S.更好地理解医学成像的转移学习：一项案例研究。申请。科学。 2020,10, 4523. [谷歌学者] [交叉参考]
马哈茂德，A。；奥斯皮纳，A.G。；Bennamoun，M。；安，S。；Sohel，F。；Boussaid，F。；霍维，R。；R.B.费希尔。；Kendrick，G.A.使用深度残留特征对海带进行自动分级分类。传感器 2020,20, 447. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
艾哈迈迪，S。；Rezghi，M.基于多重变换对的矩阵的广义低阶近似。模式识别。 2020,108, 107545. [谷歌学者] [交叉参考]
Zapata-Impata，理学学士。；吉尔·P。；Torres，F.使用ConvLSTM学习时空触觉特征，用于滑动检测方向。传感器 2019,19, 523. [谷歌学者] [交叉参考] [绿色版本]
莫雷拉，D。；Barandas，M。；罗查，T。；阿尔维斯，P。；桑托斯，R。；莱昂纳多，R。；维埃里亚，P。；Gamboa，H.使用智能手机惯性传感器进行室内定位的人类活动识别。传感器 2021,21, 6316. [谷歌学者] [交叉参考]
钟J.X。；李，N。；W·孔。；刘，S。；李，T.H。；Li，G.图卷积标签噪声清洁器：训练一个用于异常检测的即插即用动作分类器。2019年6月15日至20日在美国加利福尼亚州长滩举行的IEEE/CVF计算机视觉和模式识别（CVPR）会议记录；第1237-1246页。[谷歌学者]
卢，C。；史J。；Jia，J.在matlab中以每秒150帧的速度检测异常事件。2013年12月1日至8日，澳大利亚悉尼，IEEE计算机视觉国际会议论文集；第2720–2727页。[谷歌学者]

图1。ResNet50ConvLSTM结构。

图2。ResNet50结构。

图3。ConvLSTM结构[63].

图4。UCF-Crime数据集示例。

图5。二进制分类的训练曲线。

图6。UCF-Crime数据集上14类分类的混淆矩阵。

表1。Binary和Ucfcrimes数据集的视频数量。

表1。二进制和未成年人犯罪数据集的视频数。

二元的	没有视频	未成年人犯罪	没有视频
虐待	50	虐待	50
逮捕	50	逮捕	50
纵火	50	纵火	50
袭击	50	袭击	50
盗窃	100	盗窃	50
爆炸	50	爆炸	50
战斗	50	战斗	50
道路事故	150	道路交通事故	50
抢劫	150	抢劫	50
射击	50	射击	50
入店行窃	50	入店行窃	50
偷窃	100	偷窃	50
故意破坏	50	故意破坏	50
正常	950	正常	50
总计	1900	总计	700

表2。4MajCat和NREF数据集的视频数。

4主要类别	没有视频	自然资源足迹	没有视频
盗窃	150	道路交通事故	30
（盗窃、抢劫、，
购物、偷窃）
故意破坏	150	爆炸	50
（纵火、爆炸、，
道路事故、故意破坏）
暴力行为	150	战斗	70
（虐待、逮捕、袭击、，
战斗、射击）
正常	150	正常	150
总计	600	总计	300

表3。调整UCF-Crime数据集上二进制分类的超参数。

表3。在UCF犯罪数据集上调整二进制分类的超参数。

超参数	调谐	科目（%）
数据增强	真的	54.18
数据增强	False（错误）	53.82
初始重量	glorot_制服	63.88
初始重量	随机一致	54.17
初始重量	统一（_U）	54.17
优化器	RMS公司	63.88
优化器	亚当	61.34

表4。比较不同类型的CNN在keras中的二进制分类。

模型	科目（%）
ResNet50ConvLSTM公司	62.5
InceptionV3ConvLSTM公司	62.5
VGG19ConvLSTM	59.32
ResNet101ConvLSTM公司	63.75
ResNet152ConvLSTM公司	56.25

表5。UCF-Crime数据集上二进制分类的AUC。

模型	AUC（%）
SVM基线	50
Hasan等人[42]	50.6
Lu等人[65]	65.51
Sultani等人（无限制损失）[30]	74.44
Sultani等人（有限制的损失）[30]	75.41
Zhong等人（C3D）[64]	81.08
Zhong等人( $T型 S公司 {N个}^{O（运行）对 t吨我 c（c）一我（f）我 o个 w个}$ ) [64]	78.08
我们提出的模型	81.71

表6。对UCF-Crime数据集上的14个类别进行评估。

评估指标	（值%）
精密度	22.93
召回	24.31
F1芯	23.60
准确性	22.72

表7。UCF-Crime数据集上14个类别分类的准确性。

模型	科目（%）
ResNet50ConvLSTM公司	22.72
ResNet101ConvLSTM公司	23.75
C3D公司[29]	23

表8。所有四个数据集变量的准确性和AUC。

数据集	AUC（%）	科目（%）
自然资源足迹	79.04	65.38
4主要类别	73.88	62.22
未成年人犯罪	53.88	22.72
二元的	81.71	62.5

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Vosta，S。；你，K.-C。一种用于监控摄像机中现实世界暴力检测的CNN-RNN组合结构。申请。科学。 2022,12, 1021.https://doi.org/10.3390/app12031021

AMA风格

Vosta S、Yow K-C。一种用于监控摄像机中现实世界暴力检测的CNN-RNN组合结构。应用科学. 2022; 12(3):1021.https://doi.org/10.3390/app12031021

芝加哥/图拉宾风格

Vosta、Soheil和Kin-Choong Yow。2022.“用于监控摄像头中真实世界暴力检测的CNN-RNN组合结构”应用科学12，编号3:1021。https://doi.org/10.3390/app12031021

请注意，从2016年第一期开始，本期刊使用文章编号，而不是页码。请参阅更多详细信息在这里.

文章菜单