A New Image Classification Approach via Improved MobileNet Models with Local Receptive Field Expansion in Shallow Layers

Wei Wang; Yiyang Hu; Ting Zou; Hongmei Liu; Jin Wang; Xin Wang

doi:10.1155/2020/8817849

计算机智能神经科学。2020; 2020: 8817849.

2020年8月1日在线发布。数字对象标识：10.1155/2020/8817849

预防性维修识别码：PMC7416240

PMID：32802028

一种新的图像分类方法——基于改进的具有浅层局部接收场扩展的MobileNet模型

王伟（音译）,¹ 胡一阳,¹ 邹婷,² 刘红梅,^三金旺（Jin Wang）,^1,⁴和王欣（Xin Wang）¹

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

数据可用性声明: 本文中的所有数据集都是公共数据集，可以在公共网站上找到。

摘要

由于深度神经网络是内存密集型和计算密集型的，它们很难应用于硬件资源有限的嵌入式系统。因此，需要对DNN模型进行压缩和加速。通过应用深度可分卷积，MobileNet可以在降低分类精度损失的同时减少参数数量和计算复杂度。在MobileNet的基础上，提出了3种改进的浅层局部感受野扩展的MobileNet-模型，也称为扩张卷积MobileNet/扩张卷积模型。在不增加参数数量的情况下，使用扩展卷积来增加卷积滤波器的接收场，以获得更好的分类精度。分别使用属性数据集对Caltech-101、Caltech-256和Tubingen动物进行实验。结果表明，与MobileNet相比，扩展MobileNets可以获得高达2%的分类准确率。

1.简介

计算机图像分类是计算机视觉领域的研究热点之一。通过分析图像并将其分类为几个类别中的一个，它可以在一定程度上取代人类的视觉解释。图像分类研究主要集中在图像特征提取和分类算法上。这些特征对图像分类非常关键，但传统的图像特征如SIFT[1]，HOG公司[2]和NSCT[三]通常是手动设计的。因此，传统的方法很难满足设计者的要求。相反，卷积神经网络（CNN）可以利用已知图像样本的先验知识自动提取特征。它可以避免传统图像分类方法中复杂的特征提取过程，提取的特征具有较强的表达能力和较高的分类效率。

深度学习技术[4,5]在图像分类中的应用日益广泛[6]，目标跟踪[7]，目标检测[8]，图像分割[9,10]等等，都取得了良好的效果。Russakovsky等人[11]使用具有约6000万个参数、5个卷积层和3个完全连接层的AlexNet赢得了2012年ImageNet大型视觉识别挑战赛冠军。然后，为了获得更高的分类精度，深度神经网络（DNN）的结构变得更加深入和复杂。例如，VGG[12]将网络深化到19层，GoogleNet[13]使用inception作为基本结构（网络达到22层），ResNet[14]引入剩余网络结构来解决梯度消失问题。然而，复杂的DNN具有大量的参数和大量的计算，这需要大量的内存访问和CPU/GPU资源。一些实时应用程序和低内存便携式设备仍然无法完全满足DNN模型的资源需求。

为了解决上述问题，越来越多的研究集中在轻量级网络上，轻量级网络在保持高精度的同时，具有较少的参数和计算量。在分析网络参数的数量时，Denil等人[15]发现深层网络中的参数有很多冗余。在处理过程中，这些参数并不能提高分类精度，但会影响处理效率。Hinton等人[16]通过提取模型的集成知识，显著改进了压缩模型。这种简单网络的分类精度几乎与复杂网络的分类精度相同。在网络压缩方面，Iandola等人[17]2016年提出了一个名为SqueezeNet的小型CNN结构，大大减少了网络参数的数量。通过使用深度可分离过滤器，Howard等人[18]基于深度卷积滤波器和点卷积滤波器，设计了一种称为MobileNet的流线型体系结构。MobileNet使用了两个全局超参数来平衡效率和准确性。作为一种计算效率极高的CNN架构，ShuffleNet[19]采用了两种新的操作：逐点群卷积和信道洗牌。这种网络可以应用于计算能力非常有限的移动设备。

尽管轻量级网络的参数或计算量减少，但分类的准确性也相应降低。因此，通过在MobileNet中引入扩展卷积滤波器，提出了一种基于局部感受野扩展的扩展MobileNets方法。在不增加参数的情况下，扩展卷积滤波器可以使网络获得更大的局部感受野，提高分类精度。

2.基本框架

2.1. CNN结构

卷积神经网络通常由卷积层、池层和全连接层组成[20]，如所示图1首先，通过一个或多个卷积层和池层提取特征。然后，将最后一个卷积层的所有特征映射转换为一维向量进行全连接。最后，输出层对输入图像进行分类。该网络通过反向传播和最小化分类结果与预期输出之间的平方差来调整权重参数。每个层中的神经元按三个维度排列：宽度、高度和深度，其中宽度和高度是神经元的大小，深度是指输入图片的通道数或输入特征映射的数量。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.001.jpg

在单独的窗口中打开

图1

卷积神经网络的基本结构[21].

卷积层包含多个卷积滤波器，通过卷积运算从图像中提取不同的特征。当前层的卷积滤波器对输入特征映射进行卷积，提取局部特征，得到输出特征映射。然后，利用激活函数得到非线性特征映射。

池层，也称为子采样层，位于卷积层的后面。它使用特定值作为特定子区域中的输出，执行下采样操作。通过从特征映射中删除不重要的采样点，减少了后续层输入特征映射的大小，降低了计算复杂度。同时，网络对图像平移和旋转变化的适应性增强。最常见的池操作是最大池和平均池。

基于卷积层和池层的结构可以提高网络模型的鲁棒性。卷积神经网络可以通过多层卷积得到更深的层次。随着层数的增加，通过学习获得的特征变得更加全球化。最后将学习到的全局特征映射转化为一个向量来连接整个连接层。网络模型中的大多数参数位于全连接层。

2.2. MobileNet结构

MobileNet，如所示图2，结构更小，计算量更小，精度更高，可用于移动终端和嵌入式设备。基于深度可分卷积，MobileNets使用两个全局超参数来平衡效率和准确性。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.002.jpg

在单独的窗口中打开

图2

MobileNet的体系结构。

MobileNet的核心思想是卷积核的分解。通过使用深度可分卷积，标准卷积可以分解为深度卷积和带有1×1卷积核的点卷积，如所示图3深度卷积滤波器对每个通道执行卷积，并且1×1卷积用于组合深度卷积层的输出。这样，N个标准卷积核(图3（a）)可以替换为M（M）深度卷积核(图3（b）)和N个逐点卷积核(图3（c）). 标准卷积滤波器将输入组合成一组新的输出，而深度可分离卷积将输入分为两层，一层用于滤波，另一层用于合并。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.003.jpg

在单独的窗口中打开

图3

（a）标准卷积滤波器、（b）深度卷积滤波器和（c）点卷积滤波器。

3.扩展MobileNet结构

MobileNet公司(图2)主要使用3×3卷积滤波器。虽然该网络可以降低计算成本，但在特征图分辨率较高的情况下，小卷积滤波器的局部接收场太小，无法捕获更好的特征。然而，使用大型卷积滤波器将增加参数数量和计算负载。因此，在一些第一浅卷积层中，我们使用膨胀率为2的膨胀卷积来代替标准卷积。我们将此网络称为膨胀卷积移动网络（Explated-MobileNet）。

3.1. 扩张卷积

扩张卷积滤波器[22]首先应用于图像分割的是一种卷积滤波器，它在特征图中相邻的非零值之间插入0个值。图像分割需要与原始输入图像大小相同的图像，但传统DNN中的池层会降低特征地图的空间分辨率。为了生成有效的密集特征图并获得相同大小的感受野，Chen等人[10]删除了完整CNN最后几层中的最大池层，并添加了扩展卷积。该方法不仅避免了汇集层特征图空间分辨率的降低，而且与汇集层一样增加了感受野。

扩张卷积滤波器通过在非零值之间插入0值来扩展感受野，如所示图4.图4（a）表示3×3卷积滤波器的感受野。图4（b）表示感受野，当膨胀率为2时，3×3卷积核变为5×5。图4（c）显示感受野，而当膨胀率为3时，3×3卷积核变为7×7。因此，扩展卷积可以在不增加卷积滤波器参数的情况下扩展卷积滤波器的接收场。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.004.jpg

在单独的窗口中打开

图4

扩展卷积核的示意图。

3.2. 扩展的MobileNet

感受野是指映射在输入图像上的每一层输出的特征图中每个元素的大小，因此该层在靠近网络底部时会有更大的感受野，其感受野大约等于全局感受野。在我们的研究中，扩大局部感受野是为了提高MobileNet的分类精度，因此需要增加感受野的层靠近MobileNet的输入。根据扩展卷积滤波器的位置，我们提出了3种新的网络模型，分别命名为D1-MobileNet、D2-MobileNet和D3-MobileNet。

3.2.1. 扩展的1-MobileNet

D1-MobileNet在第一层中将卷积步长设置为1，并用扩展率为2的扩展卷积滤波器取代标准卷积滤波器。同时，为了抑制计算成本的增加，将第二层深度可分卷积的步长设置为2，其他层保持不变。与跨距为1的第一个卷积层MobileNet相比，第一个卷曲层的输出特征图的大小从112×112变为224×224，如所示图5.

保存图片、插图等的外部文件。对象名为CIN2020-8817849.005.jpg

在单独的窗口中打开

图5

Dilated1-MobileNet的体系结构。

3.2.2. 扩展的2-MobileNet

在DWD2（深度可分离）层中，深度卷积滤波器由扩展率为2的扩展卷积滤波器扩展，而其他层保持不变。此方法不会增加计算量和参数，也不会更改任何层的输出特征图的大小，如所示图6.

保存图片、插图等的外部文件。对象名为CIN2020-8817849.006.jpg

在单独的窗口中打开

图6

扩展的2-MobileNet体系结构。

3.2.3. 扩展的3-MobileNet

D3-MobileNet将第一个卷积层中的卷积步长设置为1，并使用扩展率2将标准卷积滤波器替换为扩展卷积滤波器。在第一个卷积层中进行卷积操作后，通过批归一化层对其进行归一化[23]. 然后，步幅为2的最大池层位于批处理规范化层的后面，其他层保持不变，如所示图7.

保存图片、插图等的外部文件。对象名为CIN2020-8817849.007.jpg

在单独的窗口中打开

图7

扩展的3-MobileNet架构。

在感受野扩展方面，也有不同的扩展方式。例如，Sun W将扩展卷积和深度可分卷积结合起来，形成网络构建的标准块[21]. 他们的方法是在每个深度可分离卷积之前添加一个扩张卷积层。与他们的方法不同的是，在Dilated1-MobileNet中，我们使用扩展卷积来代替Mobile Net第一层中的标准卷积，而不在所有后续的深度可分离卷积块之前添加扩展卷积，因为这会增加参数的数量。Dilated2-MobileNet中的差异更大，因为我们在深度卷积层中扩展了感受野，而不是在深度可分离卷积层之前添加了一个扩展卷积层。类似地，Dilated3-MobileNet在第一层用扩展卷积替换标准卷积，并在其后添加池层，而不是在所有深度可分离卷积块之前添加扩展卷积。

3.3. 计算分析

在标准卷积层中，假设输入特征映射的高度、宽度和输入通道数我是小时,w个、和米，卷积滤波器K（K）是秒×秒，输出通道号为n个和输出功能图O（运行）=K（K）×我可以通过卷积得到我和K（K）没有填充零和步幅1，如下式所示：

\begin{matrix} O（运行） (年, x个, j个) = \sum_{我 = 1}^{米} \sum_{u个, v（v） = 1}^{秒} K（K） (u个, v（v）, 我, j个) 我 (年 + u个 - 1, x个 + v（v） - 1, 我), \end{matrix}

(1)

哪里O（运行）(年,x个,j个)表示点的值(年,x个)英寸j个第th个输出特征图，K（K）(u个,v（v）,我,j个)表示点的值(u个,v（v）)在频道上我在里面j个第个卷积滤波器，以及我(年,x个,我)表示点的值(年,x个)上的我输入特征图。来自公式(1)，众所周知，输出值需要秒×秒×米乘以乘法，计算总量为秒×秒×米× (小时−秒+1) × (w个−秒+1) ×n个参数的数量为秒×秒×米×n个.

当Dilated-MobileNet在标准卷积层中引入扩展卷积时，利用特征映射I，利用卷积核在不填充零点的情况下执行扩展卷积K（K）相同的尺寸和膨胀率为2。因此，我们可以得到输出特征图O（运行）_d日通过以下公式：

\begin{matrix} {O（运行）}_{d日} (年, x个, j个) = \sum_{我 = 1}^{米} \sum_{u个, v（v） = 1}^{秒} K（K） (u个, v（v）, 我, j个) 我 (年 + u个 + (u个 - 1) (第页 - 1) - 1, x个 + v（v） + (v（v） - 1) (第页 - 1) - 1, 我) . \end{matrix}

(2)

因此，扩展卷积层的总计算量为(秒×秒×米) × (小时−秒− (秒− 1)(第页− 1)+1) × (w个−秒− (秒− 1)(第页− 1)+1) ×n个，参数个数为秒×秒×米×n个.在没有填充零的情况下，用扩展率计算扩展卷积第页 > 1小于标准卷积，参数数量相同，但扩张卷积的感受野大于标准卷积的感受野。在填充零的卷积操作下，扩展卷积的映射大小与标准卷积的大小相同，两者都是小时×w个×n个计算结果与参数个数相同。

在深度卷积中引入扩展卷积滤波器时，上述特征映射我首先使用深度卷积滤波器K进行卷积，然后输出特征图O（运行）_直流电通过以下公式得出：

\begin{matrix} {O（运行）}_{d日 c} (年, x个, j个) = \sum_{u个, v（v） = 1}^{秒} K（K） (u个, v（v）, j个) 我 (年 + u个 + (u个 - 1) (第页 - 1) - 1, x个 + v（v） + (v（v） - 1) (第页 - 1) - 1, j个), \end{matrix}

(3)

哪里O（运行）_直流(年,x个,j个)表示点的值(年,x个)英寸j个第个功能图。由于深度卷积滤波器只有一个信道，K（K）(u个,v（v）,j个)表示点的值(u个,v（v）)上的j个第个卷积滤波器和我(年,x个,j个)表示点的值(年,x个)上的j个第个输入通道。

深度可分卷积的总计算为(秒×秒×n个) × (小时−秒− (秒− 1)(第页− 1)+1) × (w个−秒− (秒− 1)(第页− 1)+1) ×米，参数总数为秒×秒×米+米×n个可以看出，与标准卷积相比，深度可分卷积的参数减少了：

\begin{matrix} \frac{秒 \times 秒 \times 米 + 米 \times n个}{秒 \times 秒 \times 米 \times n个} = \frac{1}{n个} + \frac{1}{秒^{2}} . \end{matrix}

(4)

计算比率为

\begin{matrix} \frac{(秒 \times 秒 + n个) \times (小时 - 秒 - (秒 - 1) (第页 - 1) + 1) \times (w个 - 秒 - (秒 - 1) (第页 - 1) + 1) \times 米}{秒 \times 秒 \times 米 \times n个 \times (小时 - 秒 + 1) \times (w个 - 秒 + 1)} = \frac{1}{n个} + \frac{1}{秒^{2}} . \end{matrix}

(5)

类似地，在进行带补零的深度卷积时，参数的缩减率为

\begin{matrix} \frac{(秒 \times 秒 + n个) \times 米 \times 小时 \times w个}{秒 \times 秒 \times 米 \times n个 \times 小时 \times w个} = \frac{1}{n个} + \frac{1}{秒^{2}} . \end{matrix}

(6)

从上面的分析可以看出，深卷积核的感受野随着膨胀率的增大而增大第页和卷积核大小秒×秒等效于卷积核(第页×秒−第页+1) × (w个×秒−第页+1）从而可以在不增加参数数量和计算量的情况下扩展感受野。

3.4. 接受域

在许多任务中，特别是语义图像分割和光流估计等密集型预测任务中，需要预测输入图像中每个像素的值，而每个输出像素的值需要一个较大的接收场来保留重要信息。局部感受野是指上层输入特征图中区域的大小，该区域由输出特征图中的像素映射。在本文中，扩张卷积被用来放大某一层的局部感受野，以捕捉更好的特征，并进一步影响后面卷积层的感受野大小。每层感受野的大小如下式所示：

\begin{matrix} {第页}_{k个} = \{\begin{matrix} {（f）}_{k个}, & k个 = 1, \\ {第页}_{k个 - 1} + (({（f）}_{k个} - 1) \times \prod_{我 = 1}^{k个 - 1} 秒_{我}), & k个 > 1, \end{matrix} \end{matrix}

(7)

哪里第页_k个表示的感受野大小k个第层，（f）_k个表示过滤器的尺寸，以及秒_我表示我第层。第一层的感受野等于过滤器的大小。通过使用公式(7)，我们可以得到MobileNet和Explated-MobileNets每层的感受野大小，如所示表1.

表1

每层的感受野大小。

	MobileNet公司	扩展的1-MobileNet	扩展的2-MobileNet	扩展的3-MobileNet
转换1	三	5	三	5
游泳池	—	6	—	—
转换2 ds	7	10	11	7
转换3 ds	11	14	15	11
转换4 ds	19	22	23	19
转换5 ds	27	30	31	27
转换6 ds	43	46	47	43
转换7 ds	59	62	63	59
转换8 ds	91	94	95	91
转换9 ds	123	126	127	123
转换10 ds	155	158	159	155
转换11 ds	187	190	191	187
转换12 ds	219	222	223	219
转换13 ds	251	254	255	251
转换14 ds	315	318	319	315

在单独的窗口中打开

中的“ds”表1图中显示了深度可分卷积，并且点式卷积与深度可分褶积中的深度卷积具有相同的感受野，因此统一给出感受野。D1-MobileNet和Explated3-MobileNet中第一个卷积层的感受野大小表明，当扩展率为2时，3×3卷积核的感受野变为5×5。总之，扩大卷积可以扩大局部感受野的大小。此外，Dilated1-MobileNet和Dilated2-Mobile Net也略微增加了底层的感受野大小。可以从中看到表1也就是说，对于扩张的MobileNet网络，虽然后一个卷积层的感受野的扩张比变小了，但其前几层的感受场要比Mobile Net的感受野大。这样，更容易提取更详细的信息，有利于提高分类精度。

4.实验与结果分析

在实验中，我们比较了6个网络的分类结果：SqueezeNet[17]、MobileNet[18]、Dense1-移动网络[24]、Dense2-MobileNet[24]Caltech-101上的D1-MobileNet、D2-MobileNet和D3-MobileNet[25]和Catech-256[26]数据集和具有属性的图宾根动物[27].

Caltech-101数据集是一个图像对象识别数据集，共由9146张图像组成，分为101个不同的对象类别和一个额外的背景/杂波类别。每个对象类平均包含40到800个图像。在对数据集中的图片进行标记后，随机选择1500张图片作为测试图片，其余图片作为训练图片。一些示例如所示图8.

保存图片、插图等的外部文件。对象名为CIN2020-8817849.008.jpg

在单独的窗口中打开

图8

Caltech-101数据集中的图片实例。

Caltech-256数据集基于Caltech-101数据集，添加了图像类和每个类中的图像数。该数据集包含257个类中的30607个图像，其中包括256个对象类和一个背景类。每堂课至少有80张图片，背景课最多有827张。图9显示了Caltech-256数据集中的图像示例。数据集中的每张图片都会被标记和洗牌。随机选取3060张图片作为测试图像，其余图片作为训练图像。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.009.jpg

在单独的窗口中打开

图9

Caltech-256数据集中的图片实例。

我们还在Animals with Attributes（AwA）数据集上验证了我们的方法，如图10。数据库中共有50个动物类别，共有30475张图片。在实验中，我们选择了21种动物类别作为实验数据集，它们是最大的类别，图片数量几乎相同。这21个动物班共有22742张图片，每个班的图片数量在850-1600张之间。在对数据集中的图片进行标记后，随机选择2000张图片作为测试图片，其余图片作为训练图片。

保存图片、插图等的外部文件。对象名为CIN2020-8817849.010.jpg

在单独的窗口中打开

图10

Tuebingen Animals（21）数据集中的图片实例。

实验是在TensorFlow框架下进行的，编程语言是Python。实验服务器配备了NVIDIA TITAN GPU。实验中使用了RMSprop优化算法。RMSprop是一种自适应学习速率方法，可以调整学习速率。在实验中，初始学习率为0.1。由于Xavier初始化方法可以根据每个层的输入和输出数量确定参数的随机初始化分布范围，因此我们使用它来初始化权重系数。实验中使用ReLU作为激活函数，总共训练了50000个批次，每个批次有64个样本。

在接下来的实验中，所有结果都是10次实验的平均值，表中的最佳分类准确率以粗体显示。表2显示了Caltech-101数据集上7个网络模型的分类精度。

表2

Caltech-101数据集上的分类准确率（%）。

迭代次数	30000	35000	40000	45000	50000
SqueezeNet公司	53.60	53.60	53.47	53.40	53.47
移动网络	76.73	76.60	76.60	76.80	76.60
Dense1-移动网络	76.60	76.53	76.47	76.40	76.47
Dense2-移动网络	77.60	77.67	77.87	77.80	77.80
扩展的1-MobileNet	77.40	77.47	77.53	77.40	77.47
扩展的2-MobileNet	77.67	77.80	77.73	77.67	77.73
扩展的3-MobileNet	78.60	78.60	78.53	78.53	78.73

在单独的窗口中打开

从中可以看出表2经过30000次迭代，7个网络模型的准确率达到了平衡，我们改进的3个Dilated-MobileNets模型的准确度比MobileNet模型高出约0.8%～2%。其中，Dilated1-MobileNet模型的分类准确率提高了0.87%，而Dilated2-MobileNets模型的分类正确率提高了1.13%。Dilated3-MobileNet模型效果最好，准确率提高了2.13%，最终分类准确率为78.73%。

表3是Caltech-256数据集上7个网络模型的分类准确率的比较。如所示表3经过30000次迭代，7个网络模型的准确率也达到了平衡，我们改进的3个模型的准确度比MobileNet模型提高了0.5%～1.5%。其中，Dilated-MobileNet模型的准确率提高了1.35%，Dilated3-MobileNet模型的正确率提高了0.64%，其中Dilated-MobileNet的准确率最高，提高了1.42%，最终达到65.94%。

表3

Caltech-256数据集上的分类准确率（%）。

迭代次数	30000	35000	40000	45000	50000
SqueezeNet公司	41.48	43.06	43.39	43.58	44.03
移动网络	64.48	64.58	64.55	64.67	64.52
Dense1-移动网络	64.61	64.53	64.45	64.44	64.47
Dense2-移动网络	65.62	65.67	65.84	65.78	65.79
扩展的1-MobileNet	65.77	65.74	65.87	65.90	65.87
稀释的2移动网络	66.10	66.06	65.94	65.84	65.94
扩展的3-MobileNet	64.97	64.9	64.87	65.19	65.16

在单独的窗口中打开

我们也在具有属性的动物（AwA）数据集上验证了我们的方法[28]. 分类准确率如所示表4.

可以从中看到表4MobileNets和Dilated-MobileNet模型的准确率在30000次迭代后达到平衡，但SqueezeNet的准确率仍在增加，最终在50000次迭代之后达到73.85%的平衡。与前2个实验一样，MobileNet、Dense-MobileNets和我们的3个改进模型的准确率远高于SqueezeNet。3种改进的Dilated-MobileNet模型的准确率比MobileNets模型高约0.5%～1.2%。其中，Dilated-MobileNet模型的分类准确率最终提高了0.8%，Dilated2-MobileNet的分类准确度最终提高了0.4%，而Dilated3-MobileNets的分类准确程度最高，达到92.8%。

表4

AwA（21）数据集上的分类准确率（%）。

迭代次数	30000	35000	40000	45000	50000
SqueezeNet公司	72.65	72.10	73.30	73.40	73.85
移动网络	91.60	91.60	91.60	91.55	91.60
Dense1-移动网络	90.65	90.60	90.60	90.60	90.65
密度2移动网络	92.10	92.05	92.10	92.05	92.05
扩展的1-MobileNet	92.45	92.45	92.50	92.35	92.40
扩展的2-MobileNet	92	92.05	92.05	92	92
扩展的3-MobileNet	92.85	92.75	92.80	92.70	92.80

在单独的窗口中打开

在上述三种实验中，基于稠密连接的Dense1-MobileNet和Dense1-MobileNetwork也取得了良好的分类效果。在caltech-256数据集上的实验结果略好于Dilated3-MobileNet，略差于Dilated-1-MobileNets和Dilated-2-MobileNet。密集移动网的设计思想不同于扩展移动网，网络结构也不同，因此这两种方法可以在实际应用中结合使用

5.结论

深度学习方法的内存密集型和高度计算密集型特性限制了其在便携式设备中的应用。同时，网络模型的压缩和加速会降低分类精度。因此，本文在不增加网络参数的情况下，利用轻量级神经网络（MobileNet）中的扩张卷积来提高分类精度，并提出了三种扩张MobileNets模型。实验结果表明，扩展MobileNets在Caltech-101、Catech-256和AWA数据集上具有更好的分类精度。

近年来，新的轻量级网络，如mobilenetv2[29]和mobilenetv3[28]，已经出现。如何降低参数，提高分类效果仍是研究热点之一。同时，一些深度学习方法与传统方法相结合，在目标识别和分类方面取得了良好的效果[30]. 另一方面，根据分类对象的特征设计特定的深度学习网络是一种非常有效的分类方法[31,32]. 因此，如何充分利用不同方法的优势也值得进一步研究。

致谢

我们要感谢中国国防预研基金会（7301506）；国家自然科学基金项目（61070040）；湖南省教育厅（17C0043）；湖南省自然科学基金资助项目（2019JJ80105）。

数据可用性

本文中的所有数据集都是公共数据集，可以在公共网站上找到。

利益冲突

作者声明没有利益冲突。

作者的贡献

W.W.和H.L.参与了概念化；T.Z.和Y.H.负责方法学；T.Z.和X.W.负责软件；J.W.进行了形式分析；H.L.调查了该研究；W.W.和X.W.编写了原始草稿。

工具书类

1Lowe D.G.不同尺度关键点的独特图像特征。国际计算机视觉杂志.2004;60(2):91–110. [谷歌学者]

2.Dalal N.，Triggs B.人体检测定向梯度直方图。IEEE计算机视觉和模式识别会议；2005年6月；美国加利福尼亚州圣地亚哥IEEE；第886–893页。[交叉参考][谷歌学者]

三。Xin W.，Can T.，Wei W.，Ji L.通过遥感检测水资源变化：L-V-NSCT方法。应用科学.2019;9（6）：第1223页。doi:10.3390/app9061223。[交叉参考][谷歌学者]

4王伟，杨勇，王霞。卷积神经网络的发展及其在图像分类中的应用：综述。光学工程.2019;58（4）：第1页。doi:10.1117/1.oe.58.4.040901。040901 [交叉参考][谷歌学者]

5王伟，胡毅，罗毅，张毅。基于深度学习方法的单幅图像超分辨率重建概述。传感和成像.2020;21（1） doi:10.1007/s11220-020-00285-4。[交叉参考][谷歌学者]

6.Krizhevsky A.、Sutskever I.、Hinton G.E.使用深度卷积神经网络进行Imagenet分类。神经信息处理系统研究进展；2012年12月；内华达州塔霍湖。第1097-1105页。[谷歌学者]

7Wang N.，Yeung D.Y.学习用于视觉跟踪的深度紧凑图像表示。神经信息处理系统进展；2013年12月；内华达州塔霍湖。第809-817页。[谷歌学者]

8Wan J.，Wang D.，Hoi S.C.H.，等。基于内容的图像检索的深度学习：综合研究。第22届ACM多媒体国际会议记录；2014年11月；美国佛罗里达州奥兰多市ACM；第157-166页。[谷歌学者]

9Long J.，Shelhamer E.，Darrell T.语义分割的完全卷积网络。IEEE计算机视觉和模式识别会议论文集；2015年6月；美国马萨诸塞州波士顿IEEE；第3431–3440页。[公共医学] [交叉参考][谷歌学者]

10Chen L.C.、Papandreou G.、Kokkinos I.Deeplab：使用深度卷积网络、反褶积和完全连接的CRF进行语义图像分割。IEEE模式分析和机器智能汇刊.2017;40(4):834–848.[公共医学][谷歌学者]

11Russakovsky O.、Deng J.、Su H.等。ImageNet大规模视觉识别挑战。国际计算机视觉杂志.2015;115(3):211–252. doi:10.1007/s11263-015-0816-y。[交叉参考][谷歌学者]

12Simonyan K.，Zisserman A.用于大规模图像识别的深度卷积网络。2014https://arxiv.org/abs/1409.1556.

13谢格迪·C、刘伟、贾瑜等。卷积的深入研究。IEEE计算机视觉和模式识别会议论文集；2015年6月；美国马萨诸塞州波士顿IEEE；第1-9页。[交叉参考][谷歌学者]

14何凯，张欣，任S.，孙J.图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集；2016年6月；美国内华达州拉斯维加斯IEEE；第770-778页。[交叉参考][谷歌学者]

15Denil M.、Shakibi B.、Dinh L.预测深度学习中的参数。神经信息处理系统研究进展；2013年12月；内华达州塔霍湖。第2148-2156页。[谷歌学者]

16Hinton G.，Vinyals O.，Dean J.在神经网络中提取知识。2015。https://arxiv.org/abs/11503.02531.

17Iandola F.N.、Han S.、Moskewicz M.W.SqueezeNet：AlexNet级精度，参数减少50倍，模型大小小于0.5 MB。2016https://arxiv.org/abs/1602.07360.

18Howard A.G.、Zhu M.、Chen B.Mobilenets：移动视觉应用的高效卷积神经网络。2017https://arxiv.org/abs/1704.04861.

19Zhang X.，Zhou X.，Lin M.，Sun J.Shufflenet：一种用于移动设备的非常有效的卷积神经网络。IEEE计算机视觉和模式识别会议论文集；2018年6月；美国犹他州盐湖城IEEE；第6848–6856页。[交叉参考][谷歌学者]

20.LeCun Y.、Bottou L.、Bengio Y.、Haffner P.基于梯度的学习应用于文档识别。IEEE会议记录.1998;86(11):2278–2324. doi:10.1109/5.726791。[交叉参考][谷歌学者]

21孙伟，周旭，张旭，何旭。一种结合扩张卷积和深度可分离卷积的轻量级神经网络。联系人：张欣、刘刚、邱明、向伟、黄涛，编辑。云计算、智能电网和电信创新前沿。CloudComp 2019，SmartGift 2019。计算机科学、社会信息学和电信工程研究所讲稿.第322卷。瑞士查姆：施普林格；2020[谷歌学者]

22Yu F.，Koltun V.通过扩张卷积进行多尺度上下文聚合。2015https://arxiv.org/abs/1511.07122.

23Ioffe S.，Szegedy C.批量规范化：通过减少内部协变量偏移来加速深层网络训练。国际机器学习会议；2015年7月；法国里尔。第448–456页。[谷歌学者]

24Wang W.，Li Y.，Zou T.，Wang X.，You J.，Luo Y.一种基于密集移动网络模型的新型图像分类方法。移动信息系统.2020;2020：8.网址：10.1155/2020/7602384。7602384 [交叉参考][谷歌学者]

25Fei Fei L.，Fergus R.，Perona P.从几个训练例子中学习生成视觉模型：在101个对象类别上测试的增量贝叶斯方法。计算机视觉与图像理解.2007;106(1):59–70. doi:10.1016/j.cviu.2005.09.012。[交叉参考][谷歌学者]

26Griffin G.，Holub A.，Perona P.Caltech，美国加利福尼亚州帕萨迪纳市：2007年。Caltech-256对象类别数据集。技术代表CNS-TR-2007-001。[谷歌学者]

27Lampert C.H.，Nickisch H.，Harmeling S.学习通过类间属性转移来检测看不见的对象类。IEEE计算机视觉和模式识别会议；2009年6月；美国佛罗里达州迈阿密IEEE；第951-958页。[交叉参考][谷歌学者]

28Howard A.、Sandler M.、Chu G.搜索mobilenetV3。2019https://arxiv.org/abs/1905.02244.

29Sandler M.、Howard A.、Zhu M.、Zhmoginov A.、Chen L.-C.MobileNetv2：反向残差和线性瓶颈。IEEE计算机视觉和模式识别会议论文集；2018年6月；美国犹他州盐湖城IEEE；第4510–4520页。[谷歌学者]

30王伟，唐C.，王欣，颜红L.，永乐H.，纪L.基于深度特征的自适应联合稀疏表示的图像目标识别。计算智能与神经科学.2019;2019：9.网址：10.1155/2019/8258275。8258275[PMC免费文章][公共医学] [交叉参考][谷歌学者]

31Wang W.，Zhang C.，Tian J.，Qu J.，Li J.一种基于新型SSF-net模型的SAR图像目标识别方法。计算智能与神经科学.2020;2020:9.8859172[PMC免费文章][公共医学][谷歌学者]

32Wang W.，Zhang C.，Tian J.基于接收的VGG（IVGG）网络的高分辨率雷达目标识别。计算智能与神经科学.2020;2020:11.8893419[PMC免费文章][公共医学][谷歌学者]

文章来自计算智能与神经科学由以下人员提供威利

一种新的图像分类方法——基于改进的具有浅层局部接收场扩展的MobileNet模型

王伟（音译）

胡益阳

邹婷

刘红梅

金旺（Jin Wang）

王欣（Xin Wang）

关联数据

摘要

1.简介

2.基本框架

2.1. CNN结构

2.2. MobileNet结构

3.扩展MobileNet结构

3.1. 扩张卷积

3.2. 扩展的MobileNet

3.2.1. 扩展的1-MobileNet

3.2.2. 扩展的2-MobileNet

3.2.3. 扩展的3-MobileNet

3.3. 计算分析

3.4. 接受域

表1

4.实验与结果分析

表2

表3

表4

5.结论

致谢

数据可用性

利益冲突

作者的贡献

工具书类