Object Detection for UAV Aerial Scenarios Based on Vectorized IOU

Lu, Shun; Lu, Hanyu; Dong, Jun; Wu, Shuang

doi:10.3390/s23063061

开放式访问第条

基于矢量IOU的无人机空中场景目标检测

通过

顺路

¹,

韩愈路

^1,2,

Jun Dong先生

^3,4,*

和

吴爽（音）

^三

¹

贵州大学大数据与信息工程学院，贵阳550025

²

贵州工程科技大学毕节5G创新应用研究院，毕节551700，中国

^三

中国科学院合肥物理研究所，合肥230031

⁴

安徽中科德基智能科技有限公司，中国合肥230045

^*

信件应寄给的作者。

传感器 2023,23(6), 3061;https://doi.org/10.3390/s23063061

收到的提交文件：2023年1月10日/修订日期：2023年3月2日/接受日期：2023年3月10日/发布日期：2023年3月13日

（本文属于特刊无人机传感与成像技术进展)

下载

浏览地物

版本注释

摘要

:

无人机（UAV）图像中的目标检测是一项极具挑战性的任务，涉及到多尺度目标、小目标比例高以及目标之间高度重叠等问题。为了解决这些问题，首先，我们设计了一个基于YOLOv5的矢量交叉口（VIOU）损失。此损失使用边界框的宽度和高度作为向量来构造与框的大小和纵横比相对应的余弦函数，并直接比较框的中心点值以提高边界框回归的准确性。其次，我们提出了一种渐进特征融合网络（PFFN），解决了Panet对浅层特征语义提取不足的问题。这使得网络的每个节点能够将深层的语义信息与当前层的特征融合在一起，从而显著提高多尺度场景中小对象的检测能力。最后，我们提出了一个非对称解耦（AD）头，它将分类网络与回归网络分开，并提高了网络的分类和回归能力。与YOLOv5相比，我们提出的方法在两个基准数据集上取得了显著的改进。在VisDrone 2019数据集上，性能从34.9%增加到44.6%，增加了9.7%，在DOTA数据集上性能增加了2.1%。

关键词：

物体探测;无人机航空图像;VIOU损失;YOLOv5公司;多尺度特征融合网络

1.简介

目前，航空图像中使用的两种目标检测方法都是基于深度学习技术的。第一种方法基于候选区域，包括R-CNN等方法[1]，快速R-CNN[2]和更快的R-CNN[三]. 第二种方法基于回归，包括YOLO系列等方法[4,5,6,7,8,9,10,11]，固态硬盘[12]、RetinaNet[13]和Centernet[14]以及其他各种改进算法[15,16,17,18,19,20,21,22,23,24]. 目标检测在无人机（UAV）图像中提出了许多挑战，如所示图1无人机航空数据集包含大量小目标，主干网的降采样操作忽略了许多有用信息。使用YOLOv5 P3中的功能[7]导致太多细节特征被丢弃，这直接影响到小目标的检测。数据集中存在大量具有高度相似特征的对象，重叠对象对检测头的分类能力提出了额外的挑战。原始网络使用CIOU损失[25]，它考虑了边界框的纵横比和实际框中心与预测框之间的距离；然而，它只把纵横比作为一个影响因素，对宽度和高度的描述是模糊的。当两个长方体的中心点一致且纵横比相同但宽度和高度不同时，CIOU损失可能无法准确反映实际对象长方体。此外，计算中使用的反三角函数可能会增加计算复杂性。

为了解决上述问题，在本文中，我们提出了一种基于联合的矢量交集（VIOU）损失来提高边界盒的回归精度。此损失使用了几个额外的惩罚项来澄清边界框回归中涉及的相关因素，例如中心点的位置（x，y）和边界框的大小和形状，这些都有利于相关参数的直接回归。对于多尺度对象，我们探索了如何融合深层语义特征和浅层细节特征以获得最佳检测结果。通过四个对比实验，我们探索了浅层特征和深层特征的融合顺序以及融合方法（增量式或递减式），并提出了一种渐进式特征融合网络（PFFN）。最后，结合YOLOv1的解耦思想[4]和YOLO X[26]，我们提出了一种非对称解耦（AD）磁头。我们将回归任务与分类任务完全解耦，并使用不同尺度的卷积核为分类网络提供多尺度特征信息。

关于VisDrone 2019数据集[27]与原算法相比，性能提高了9.7%，从34.9%提高到44.6%。关于DOTA数据集[15,28,29]与原算法相比，性能提高了2.1%。在本文中，我们的贡献如下：

我们提出了VIOU损失，它简化了计算并提高了边界框的回归精度。
我们提出了一种新的特征融合网络（PFFN），它充分融合了浅层特征和深层特征，解决了多尺度目标的问题，提高了小目标的检测能力。
我们提出了一种非对称解耦头，它提高了网络分类和定位相似和重叠对象的能力。

2.相关工作

2.1. 回归损失函数

在目标检测中，通常需要测量预测框和实际框之间的重叠。在[30]引入了交集-over-nion（IOU）比的概念，它将两个盒子的并集除以预测盒子和实际盒子的交集。GIOU损失[31]引入最小边界框作为基于IOU损失的惩罚项，促进了两个框之间的距离越来越近，并解决了IOU为0时的问题。DIOU损失[25,32]引入两个盒子中心点之间的欧氏距离和最小包围盒的对角线作为指标，提高了GIOU损失的收敛速度，解决了两个盒子相互包围时无法有效测量的问题。基于上述方法，DIOU损耗考虑了两个盒子中心点的重合，并将框架的纵横比因子作为测量指标，以便预测盒子能够更好地完成回归。CIOU损耗增加了检测箱刻度的损耗以及基于DIOU损耗的长度和宽度的损耗。然而，纵横比描述的是相对值，这可能会导致歧义。EIOU损失[33]根据CIOU损耗计算宽度和高度之间的差异，以替代纵横比，并引入焦距损耗[13]解决样本难易不平衡的问题。SIOU损失[34]通过考虑所需回归之间的矢量角，重新定义惩罚度量。alpha-IOU损失[35]是基于IOU损失的现有损失函数的统一指数。

2.2. 颈部

颈部设计用于有效利用主干以不同分辨率提取的特征地图。常见的目标检测方法，如Faster R-CNN、Mask R-CNN[36]、YOLOv3[5]、RetinaNet[13]，级联R-CNN[37]等，使用自上而下的单向融合FPN[38]构建一个具有水平连接的架构。通过使用低层高分辨率细节特征信息和高层语义特征信息，它们旨在实现更好的预测。窗格[39]是第一个提出自下而上的二次融合的模型，它基于Faster/Master/CCascade R-CNN中的FPN，只需添加自下而上的融合路径。Huang（黄）[40]提出了多层金字塔网络（CF2PN）的跨尺度特征融合。DFF-面板[41]可以重用主干中的特征映射，以增强中小型实例的检测能力。希拉·塔亚拉[42]提出了一种密集连接的特征金字塔网络，通过该网络可以绘制高质量信息的高层次多尺度语义特征图，用于目标检测。洪田[43]升级了现有的FPN网络输出，提高了小目标检测的鲁棒性。在[44]，作者基于YOLOv3的FPN研究了每个阶段重新融合三个阶段特征的效果[5]. 不同阶段特征的融合采用注意机制，以控制其他阶段对特征的贡献。NAS-FPN公司[45]由自上而下和自下而上的连接组成，可以跨尺度融合特征。Bi-FPN的理念[46]与NAS-FPN相同，即在FPN中找到一个有效块，然后重复叠加，以便FPN的大小可以自由控制。递归-FPN[47]将传统FPN的融合输出输入主干，以进行二次特征循环。

2.3. 检测头

Mask R-CNN引入了一个额外的检测头用于实例分割。IoU网络[48]提出了一个单独的分支来预测盒子和真实盒子之间的IOU损失，并通过额外的任务学习边界盒预测的不确定性，以改进定位结果。YOLO X提出了一种解耦头，它分别使用两个并行分支（每个分支包括两个3×3卷积层）进行回归和分类，并在回归分支中添加一个IOU分支。Song等人[46,49,50]提出了在目标检测的定位和分类任务中，两个任务的重点和兴趣是不同的。Wu等人[51,52,53]重新解释了检测任务中的分类和定位两个子任务，发现fc-head更适合分类任务，conv-head更适合定位任务。因此，将回归和分类任务集成到一个网络中是不合适的。我们提出了一种新的非对称解耦检测头，将分类和回归任务分开，提高了网络的分类和定位能力。

3.方法

根据无人机航空图像的特点，构造了一种新的回归损失函数VIOU。在充分研究了特征融合的特点后，采用了一种新的特征融合网络，即中虚线框的“颈部”部分图2。我们将非对称解耦头应用于网络，这是中虚线框的“预测头”部分图2.

3.1. VIOU损失

我们继续使用基于IOU的路由，并提出一种更有效的损失函数版本，即VIOU损失，其定义如下：

我 o个 秒 秒_{V（V） - 我 哦 U型} = 1 - 我 哦 U型 + \frac{{(x个 - {x个}_{克 t吨})}^{2}}{{({c（c）}_{w个})}^{2}} + \frac{{(年 - 年_{克 t吨})}^{2}}{{({c（c）}_{小时})}^{2}} + {e（电子）}^{- 一 * c（c） o个 秒 θ}

(1)

哪里

{c（c）}_{w个}

和

{c（c）}_{小时}

是预测框和实际框的最小封闭框的宽度和高度。

\frac{{(x个 - {x个}_{克 t吨})}^{2}}{{({c（c）}_{w个})}^{2}} + \frac{{(年 - 年_{克 t吨})}^{2}}{{({c（c）}_{小时})}^{2}}

表示水平坐标和垂直坐标之差与最小封闭边界框的宽度和高度之比，一表示惩罚项宽度和高度的可调整系数，指数函数的斜率可以使用参数进行调整一.

c（c） o个 秒 θ = \frac{对^{2} + {对^{克 t吨}}^{2} - {d日}^{2}}{2 \times 对 \times 对^{克 t吨}}

(2)

哪里对和

对^{克 t吨}

表示两个边界框的范数，如所示图3根据余弦定理，d日表示两个矢量端点之间的距离。

我们将损失函数分为三部分：IOU损失、中心点位置损失和宽度和高度的矢量损失，如公式（1）所示。由于图像中小对象的覆盖面积较小，因此其边界框的回归比大/中型对象更具挑战性。在预测过程中，预测边界框偏移一个像素，并且对小对象的误差影响远高于对大/中型对象的误差影响。VIOU损失直接计算x个和年边界盒中心点的坐标而不是两点之间的距离损失，使其不同于电流损失函数。VIOU损失直接将中心点位置之间的差异降至最低(x个,年)预测盒和真实盒的回归更加直接，从而获得更好的定位性能。同时，我们使用边界框的宽度和高度作为向量，并利用平移不变性使其共享坐标原点来构造三角形。三角形两侧的长度是由宽度和高度值构成的向量的范数，如所示图3。余弦函数可以表达三角形、范数和两个向量末端距离的相关特征，这些特征将它们直接约束在一个公式中，并防止发散。将其与指数函数结合，构造一个带参数的复合函数一宽度和高度损失的比例可以调整。通过余弦，范数对应于边界框的大小，向量的角度对应于边界盒的纵横比。因此，我们可以使用向量角度和向量范数来约束边界框的宽度和高度。这对于多尺度场景中的小对象回归非常有用。VIOU损失可以使用一个非常简单的公式来指导边界框的位置、形状、大小和其他属性的回归。

3.2. 渐进式特征融合网络

为了探索最佳的特征融合方法，我们设计了四个新的特征融合网络，如所示图3。由于小对象在数据集中的比例相对较高，像素尺寸较小，我们从骨干网络的P2中提取特征地图，以丰富细节特征的利用，同时，添加一个分辨率为160×160的P2检测头，该检测头将负责小对象。

当使用卷积网络提取图像特征时，主干网络的前几层可以从图像中提取浅层特征，并且随着网络的加深，可以提取深层特征。浅层特征具有较高的分辨率；包含更多位置信息、本地信息和详细信息；并且减少了采样操作。此外，它们对小物体更友好。由于卷积较少，它们具有较低的语义和较多的噪声。深度特征具有较强的语义信息，但分辨率低，对细节的感知能力差。如果两者通过取长补短有效地结合在一起，则模型可以得到改进。为了使用上述网络进行验证，探索浅层特征和深层特征的最佳融合顺序，并探索增减融合方法，如所示图4在我们的网络中，随着卷积的加深，每个节点将不断地将其自身层的特征与深层或浅层的特征融合。在融合过程中，浅层网络的语义深度不断加深，使得深度和浅层特征能够有效地结合，从而获得最佳的特征融合性能。每个检测头使用分治从局部角度检测对应尺度的对象，也可以从全局角度最大限度地覆盖不同尺度的对象来完成多尺度对象的检测任务。

通过实验，从上述四组网络中，我们最终选择了版本4作为我们的特征融合网络，我们将其命名为渐进特征融合网络。该网络可以在特征融合过程中不断地将深层特征传输到浅层，同时避免因下采样而导致的细节特征丢失。浅细节特征与深层语义特征充分结合，达到优势互补的目的。

3.3. 非对称解耦磁头

我们改进了YOLOv5的检测头，并将分类和回归这两个任务解耦，如所示图5解耦头具有非对称结构，使用基本卷积操作调整信道数后，将骨干网络的特征映射划分为两个预测分支。在分类分支中，特征映射首先通过卷积核大小为1×1、3×3和5×5的卷积运算，然后拼接通道。该分支的卷积层为输入特征图提供不同大小的接受域，为后续的分类和预测任务提供丰富的特征信息。在回归分支中，通过1×1卷积提取特征图后，将其分为两个分支，并通过3×3卷积进行置信预测和盒回归。与分类分支相比，其回归分支使用更少的卷积模块，从而减少了计算。分类分支专注于确定与对象类别最相似的提取特征的类别，而定位分支专注于细化框的中心点坐标、宽度和高度信息，以校正边界框参数。这使得分类更加关注中心内容，回归更加关注边缘信息。

4.实验

我们选择了VisDrone 2019-DET系列[27]作为我们的培训集和VisDrone 2019-DET-val[27]作为我们的验证集。如图所示图6，该数据集包含10个类别，包括“汽车”、“行人”和“汽车”。它包含了许多令人困惑的目标，如“行人”和“人”、“自行车”和“电动机”、“三轮车”和“遮阳篷三轮车”。这些大多是小物体，大多数位于图片中间下方。在培训期间，我们将模型的conf-thres设置为0.5，IOU-thres设为0.45，批量大小设为8。为了避免过拟合或欠拟合，我们使用了马赛克增强和标签平滑，并使用300个时期进行训练。我们使用SGD优化器进行训练，并使用0.001的初始学习率和余弦lr调度。所有车型均在NVIDIA RTX 3090 GPU上接受培训。我们选择YOLOv5作为基线，并使用其相应的权重进行预训练。

4.1. VIOU性能比较实验

为了获得最佳性能，参数一以0.25到1.75之间的7个值进行测试。如所示图7，mAP0.5随着一.何时一等于1，mAP0.5达到峰值0.364，然后逐渐降低。可以得出结论，对于此数据集一为1。

我们将当前的一些主要回归损失函数应用于VisDrone 2019数据集上的YOLOv5，并保留了所有超参数和其他条件。如图所示表1当我们使用我们提出的VIOU作为回归损失函数时，mAP0.5获得的最佳结果为36.4，与基线（CIOU）相比增加了1.5%，与其他最佳损失函数（alpha-IOU）比较增加了0.7%。

4.2. 颈部网络特征融合特性的比较实验

设计了四个网络来比较Panet的mAP0.5，特别是探索特征融合网络的工作特性表2将骨干网P2的特征引入网络后，四种特征融合网络均表现良好。在添加P2高分辨率探测头后，网络可以专注于小对象并保留大量详细特征。其中，版本1网络的性能最差，因为它采用了从浅层到深层的增量融合。由于浅层特征信息挖掘不足，在与深层合并时，它继续进行降采样，导致浅层特征细节丢失。此外，深层包含了相对丰富的语义信息，使得融合难以弥补浅层和深层的优势。版本2网络采用了从浅层到深层的递减融合方法。以与版本1相同的方式，浅层特征被连续下采样，深层特征被融合。因此，由于降采样，优势没有得到补充。然而，该网络对于浅层信息的挖掘非常有用，因此小对象信息在高分辨率层中具有相对充足的语义信息。第三版网络从深度融合下降到浅层融合。此方法与版本2中使用的方法类似。虽然它的浅层保持了与版本1相同的卷积深度，但它没有进行下采样以保留特征细节，同时，它还从深层引入了丰富的语义深度。在这些网络中，版本4网络的性能最好，它采用了从深层到浅层的增量融合。它采用了加深浅层特征图的卷积深度，并从深层转移到浅层的方法来融合语义信息。这使得每个节点能够持续集成来自深度网络的丰富语义信息，避免了由于下采样而导致的细节特征的丢失，并保留了浅层的几何细节。

4.3. 烧蚀实验

我们在VisDrone 2019数据集上对每种方法进行了实验，结果如所示表3主要评价指标为准确度、召回率、mAP0.5和mAP0.5:0.95。

视频：VIOU（a=1）在回归边界框时考虑了IOU、中心点距离以及框的形状和大小，降低了回归框收敛的难度和训练时的徘徊情况。当我们将网络的原始损失函数改为VIOU时，其mAP0.5增加了1.5%，这对训练期间的边界盒回归有很好的帮助。

PFFN：从数据可以看出，当PFFN应用于网络时，上述四项指标都得到了显著改善。这表明，原始特征融合网络没有充分挖掘和提取骨干网络的特征，特别是当我们对浅层结构进行了较大的改变时，取得了良好的效果。原始网络对具有大规模更改的对象不友好。通过重新设计的特征融合网络，在不同分辨率级别添加一定数量的融合卷积节点进行语义挖掘，并保留了细节特征。来自深层的丰富语义信息不断融合，并得到充分补偿。消除了浅层语义信息不足的问题，减少了深层特征图中上下文信息的丢失。

AD头：将AD头应用于网络后，所有四个评估指标都有所改善。因此，分类网络和回归网络的分离提高了检测性能。实验结构表明，分类和回归两个任务的关注点和兴趣点不同，因此如果使用相同的网络进行分类和定位，性能会很差。我们的AD主管值得改进检测的分类和回归能力。

4.4. 不同探测器的比较

为了验证本文方法的有效性，我们在VisDrone 2019数据集上选择了一些检测器进行检测，并训练了300个epoch。实验结果如所示表4可以看出，目前最先进的探测器都没有高mAP，这表明它们在无人机空中目标探测方面表现不佳。因此，基于VIOU损失、PFFN和AD头的拟议YOLOv5比SSD、RetinaNet、YOLOv 3-v8和Faster R-CNN（设计用于检测无人机空中目标）取得了更好的结果。

为了更好地评估所提方法的检测有效性，我们在DOTA数据集上进行了一些比较实验。该数据集中有15749个训练集和5297个验证集。它包含15类远程探测对象，包括“飞机”、“船舶”、“储罐”、“棒球钻石”、“tennis-court”、“篮球场”、“地面跑道”、“港口、桥梁”、“大型车辆”、“小型车辆”、《直升机》、“环形交叉口”、“足球场”、，还有“游泳池”。如图所示表5，我们的方法分别优于YOLOv5和最新的YOLOv 8 2.1%和1.3%。与其他目标检测方法相比，我们的方法也具有更多的优势。

4.5. 目视分析

图8显示PFFN不断融合来自深层的特征信息。该网络通过使用具有不同分辨率层的节点来实现这一点，这些节点允许保留浅层的大量详细特征。此外，PFFN增加了每个特征层的卷积深度，避免了因下采样而导致的小目标特征丢失。添加的高分辨率检测头使该算法能够更好地完成多尺度检测任务。AD头可以将分类和回归任务分开，使分类网络更加关注每个对象类别的预测，提高网络的分类能力。单独的回归网络使其“关注点”更加关注对象中心点的坐标以及每个对象的宽度和高度，从而使边界回归更加精确。

从第一组的右热图中可以看出，我们检测到了更多重叠的小对象，这解决了小对象之间高度重叠导致细节特征丢失的问题，并改进了对大对象尺度变化的检测。在第二组的右侧热图中，每个“人”的热辐射更集中，从而获得更准确的物框位置，并提高了回归预测的准确性。

图9显示存在一些检测困难，这在无人机航空图像中很常见。在第一组图片中，有许多“人”骑着“摩托车”，物体很小，高度重叠。在第二组图片中，图片中心的“公交车”和“行人”所占区域的比例差别很大，物体比例的范围太大。在第三组图片中一些物体，例如“汽车”和“自行车”，由于光线或遮挡，两侧的绿化带无法检测到，特征不清楚或不完整。从比较中可以看出，我们的方法取得了更好的性能。

VisDrone 2019数据集有10个不同类别。在验证集上应用VIOU、PFFN和AD磁头后，与基线相比，每个类别的mAP0.5如所示图10可以看出，mAP0.5在不同尺寸的所有类别中都有所改进，这表明我们的方法适用于各种尺度的对象。

5.结论

本文中，我们的方法解决了无人机航空图像中多尺度目标、小目标比例高和重叠高的问题。VIOU损失有助于在训练期间回归边界框，使边界框的定位更加精确。提出的PFFN和AD头用于使模型更好地适应无人机航空图像数据的特征，以达到最佳检测性能。PFFN减少了因下采样导致的小目标特征丢失，同时加深了浅层特征的语义深度，大大提高了小目标的检测能力，提高了模型检测多尺度对象的能力。该AD头用于提高网络对象盒的回归能力和重叠对象的对象分类能力。实验结果表明，该模型的准确率为44.6%，比基线高9.7%，比其他检测器高。在DOTA数据集上，与YOLOv5相比，性能提高了2.1%。此外，我们的方法易于实现，便于在实际场景中应用。

作者贡献

概念化，S.L.、H.L.和J.D。；方法，S.L。；软件有限公司。；验证、S.L.、H.L.、J.D.和S.W。；书面原稿，S.L。；监督、H.L.、J.D.和S.W。；项目管理，H.L.和J.D。；资源、H.L.和J.D.所有作者均已阅读并同意手稿的出版版本。

基金

这项工作得到了中央政府地方科技发展专项（编号：S202107d08050071，编号：202107d080050031）和贵州省科学技术基金（编号：（2020）4001，（2020）1Y155）的部分支持。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

该代码可在https://github.com/jijiehao123/aerial-detection.git，并于2023年1月10日访问。

利益冲突

作者声明没有利益冲突。

工具书类

Girshick，R。；Donahue，J。；Darrell，T。；Malik，J.丰富的特征层次用于准确的对象检测和语义分割。arXiv公司 2013，arXiv:1311.2524。[谷歌学者] [交叉参考]
吉尔西克，R·法斯特R-CNN。2015年12月7-13日，智利圣地亚哥，IEEE计算机视觉国际会议（ICCV）会议记录。[谷歌学者]
任，S。；He，K。；Girshick，R。；Sun，J.Faster R-CNN：利用区域建议网络实现实时目标检测。arXiv公司 2015，arXiv:1506.01497。[谷歌学者] [交叉参考] [绿色版本]
雷德蒙，J。；迪瓦拉，S。；吉尔希克，R。；Farhadi，A.你只看一次：统一的实时目标检测。2016年6月27日至30日在美国内华达州拉斯维加斯举行的2016 IEEE计算机视觉和模式识别会议（CVPR）会议记录；第779–788页。[谷歌学者] [交叉参考] [绿色版本]
雷德蒙，J。；Farhadi，A.YOLOv3：增量改进。arXiv公司 2018，arXiv:1804.02767。[谷歌学者]
Bochkovskiy，A。；王，C.Y。；Liao，H.Y.M.YOLOv4：目标检测的最佳速度和准确性。arXiv公司 2020，arXiv:2004.10934。[谷歌学者]
Jocher，G.Stoken Yolo第5版。在线可用：https://github.com/ultralytics/yolov5/releases/tag/v6.0（2021年10月12日访问）。
李，C。；李，L。；姜浩。；翁，K。；耿毅。；李，L。；Ke，Z。；李强。；Cheng，M。；聂，W。；等。YOLOv6：工业应用的单阶段对象检测框架。arXiv公司 2022，arXiv:2209.02976。[谷歌学者]
雷德蒙，J。；Farhadi，A.YOLO9000：更好、更快、更强。2017年7月21日至26日在美国夏威夷州火奴鲁鲁举行的2017 IEEE计算机视觉和模式识别会议（CVPR）会议记录；第6517–6525页。[谷歌学者] [交叉参考] [绿色版本]
Wang，C.Y。；Bochkovskiy，A。；Liao，H.Y.M.YOLOv7：可训练的免费袋装食品为实时目标探测器创造了新的技术水平。arXiv公司 2022，arXiv:2207.02696。[谷歌学者]
Ultralytics，G.J.Yolo v8。在线可用：https://github.com/ultralytics/ultralytics.git（2023年1月9日访问）。
刘伟。；安格洛夫，D。；Erhan，D。；塞格迪，C。；里德，S。；Fu，C.Y。；Berg，A.C.Ssd：单发多盒探测器。2016年10月11日至14日，荷兰阿姆斯特丹，欧洲计算机视觉会议记录；第21-37页。[谷歌学者]
Lin，T。；戈亚尔，P。；吉尔希克，R。；He，K。；Dollár，P.密集目标检测的焦距损失。2017年IEEE国际计算机视觉会议（ICCV）会议记录，意大利威尼斯，2017年10月22日至29日；第2999–3007页。[谷歌学者] [交叉参考] [绿色版本]
Duan，K。；Bai，S。；谢林。；齐，H。；黄，Q。；Tian，Q.中心网：用于物体检测的关键点三元组。2019年10月27日至11月2日在韩国首尔举行的IEEE/CVF计算机视觉国际会议记录；第6569–6578页。[谷歌学者]
丁，J。；薛，N。；夏，G.S。；Bai，X。；杨伟（Yang，W.）。；Yang，M.Y。；Belongie，S。；罗，J。；达特库，M。；佩利略，M。；等，《航空图像中的目标检测：大尺度基准和挑战》。arXiv公司 2021，arXiv:2102.12219。[谷歌学者] [交叉参考]
Shadab Malik，H。；索比罗夫，I。；Mohamed，A.航空图像中的目标检测：是什么提高了准确性？arXiv公司 2022，arXiv:2201.08763。[谷歌学者]
科云，O.C。；Keser，R.K。；伊利诺伊州阿克卡亚。B。；Töreyin，B.U.Focus-and-Detect：用于航空图像的小目标检测框架。信号处理。图像通信。 2022,104, 116675. [谷歌学者] [交叉参考]
李，C。；Yang，T。；朱，S。；陈，C。；Guan，S.密度图引导航空图像中的目标检测。IEEE/CVF计算机视觉和模式识别研讨会会议记录，美国华盛顿州西雅图，2020年6月14日至19日；第190-191页。[谷歌学者]
Duan，C。；魏，Z。；张，C。；Qu，S。；Wang，H.粗粒度密度图引导的航空图像目标检测。2021年10月11日至17日，加拿大不列颠哥伦比亚省蒙特利尔，IEEE/CVF国际计算机视觉会议记录；第2789–2798页。[谷歌学者]
朱，X。；柳，S。；王，X。；Zhao，Q.TPH-YOLOv5：基于变压器预测头的改进YOLOv5，用于无人机捕获场景中的目标检测。arXiv公司 2021，arXiv:2108.11539。[谷歌学者]
罗，X。；Wu，Y。；Zhao，L.YOLOD：无人机航空图像的目标检测方法。远程传感器。 2022,14, 3240. [谷歌学者] [交叉参考]
刘，H。；Mu，C。；Yang，R。；他，Y。；Wu，N.基于UVA航空图像的目标检测算法研究。2021年11月17日至19日，中国北京，2021年第七届IEEE网络智能与数字内容国际会议（IC-NIDC）论文集；第122–127页。[谷歌学者] [交叉参考]
李，Z。；孙，S。；李毅。；Sun，B。；田，K。；乔·L。；Lu，X.基于自适应ClusDet网络的航空图像目标检测方法。2021年IEEE第21届国际通信技术会议论文集，中国天津，2021年10月13-16日；第1091–1096页。[谷歌学者] [交叉参考]
曹，C。；吴杰。；曾，X。；Z.Feng。；王，T。；严，X。；吴，Z。；吴琼。；黄，Z。基于卷积神经网络的航空遥感图像飞机和船舶检测研究。传感器 2020,20, 4696. [谷歌学者] [交叉参考] [公共医学]
郑，Z。；王，P。；刘伟。；李，J。；Ye，R。；Ren，D.Distance-IoU损失：更快更好地学习边界盒回归。美国纽约州纽约市AAAI人工智能会议记录，2020年2月7日至12日；第34卷，第12993–13000页。[谷歌学者]
Ge，Z。；刘，S。；Wang，F。；李，Z。；Sun，J.YOLOX：2021年超越YOLO系列。arXiv公司 2021，arXiv:2107.08430。[谷歌学者]
朱，P。；Wen，L。；杜，D。；边，X。；风扇，H。；胡，Q。；Ling，H.探测和跟踪迎接无人机挑战。IEEE传输。模式分析。机器。智力。 2021,44, 7380–7399. [谷歌学者] [交叉参考]
夏，G.S。；Bai，X。；丁，J。；朱，Z。；Belongie，S。；罗，J。；达特库，M。；佩利略，M。；Zhang，L.DOTA：航空图像中目标检测的大尺度数据集。2018年6月18日至22日，美国犹他州盐湖城，IEEE计算机视觉和模式识别（CVPR）会议记录。[谷歌学者]
丁，J。；薛，N。；Long，Y。；夏，G.S。；Lu，Q.学习用于检测航空图像中定向对象的RoI变换器。2019年6月16日至20日，美国加利福尼亚州长滩，IEEE计算机视觉和模式识别会议（CVPR）会议记录。[谷歌学者]
周，D。；方，J。；宋，X。；关，C。；尹，J。；戴，Y。；Yang，R.用于2D/3D对象检测的IoU损失。2019年9月16日至19日，在加拿大魁北克市举行的2019年国际3D视觉会议记录中；第85-94页。[谷歌学者]
Rezatofighi，H。；佐伊，N。；Gwak，J。；Sadeghian，A。；里德，I。；Savarese，S.并集上的广义交集：边界盒回归的度量和损失。2019年6月15日至20日在美国加利福尼亚州长滩举行的IEEE/CVF计算机视觉和模式识别会议记录；第658–666页。[谷歌学者]
徐，C。；Wang，J。；杨伟（Yang，W.）。；Yu，L.航空图像中微小目标检测的点距离。《IEEE/CVF计算机视觉和模式识别会议论文集》，虚拟，2021年6月19-25日；第1192-1201页。[谷歌学者]
杨，Z。；王，X。；Li，J.EIoU：基于VehicleNet神经网络的改进车辆检测算法。《物理学杂志》。Conf.序列号。 2021,1924, 012001. [谷歌学者] [交叉参考]
Gevorgyan，Z.SIoU Loss:边界盒回归的更强大学习。arXiv公司 2022，arXiv:2205.12740。[谷歌学者]
He，J。；埃尔法尼，S。；马，X。；Bailey，J。；Chi，Y。；Hua，X.S.Alpha-IoU：边界盒回归中联盟损失的权力交叉家族。arXiv公司 2021，arXiv:2110.13675。[谷歌学者]
He，K。；Gkioxari，G。；美元，P。；Girshick，R.Mask R-CNN。2017年10月22日至29日，意大利威尼斯，IEEE计算机视觉国际会议（ICCV）会议记录。[谷歌学者]
蔡，Z。；Vasconcelos，N.Cascade R-CNN：深入研究高质量物体检测。2018年IEEE/CVF计算机视觉和模式识别会议记录，美国犹他州盐湖城，2018年6月18日至22日；第6154–6162页。[谷歌学者] [交叉参考] [绿色版本]
Lin，T。；多拉，P。；Girshick，R。；He，K。；哈里哈兰，B。；Belongie，S.特征金字塔网络用于目标检测。2017年7月21日至26日在美国夏威夷州火奴鲁鲁举行的2017 IEEE计算机视觉和模式识别会议（CVPR）会议记录；第936-944页。[谷歌学者] [交叉参考] [绿色版本]
王凯。；Liew，J.H。；邹毅。；周，D。；Feng，J.PANet：使用原型对齐的少镜头图像语义分割。在2019年10月27日至11月2日于大韩民国首尔举行的IEEE/CFF国际计算机视觉会议（ICCV）上。[谷歌学者]
黄，W。；李·G。；陈，Q。；Ju，M。；Qu，J.CF2PN：基于遥感目标检测的跨尺度特征融合金字塔网络。远程。传感器。 2021,13, 847. [谷歌学者] [交叉参考]
周，L。；Rao，X。；李毅。；左，X。；乔，B。；Lin，Y.一种基于密集特征融合路径聚合网络的航空图像轻型目标检测方法。Isprs国际地理信息杂志。 2022,11, 189. [谷歌学者] [交叉参考]
塔亚拉，H。；Chong，K.T.使用一级密集连接特征金字塔网络检测超高分辨率航空图像中的目标。传感器 2018,18, 3341. [谷歌学者] [交叉参考] [绿色版本]
Tian，H。；郑毅。；Jin，Z.改进的RetinaNet模型在航空图像小目标检测中的应用。《IOP会议系列会议记录：地球与环境科学》，中国长沙，2020年9月18日至20日。[谷歌学者]
Hamoda，M.充气浸没式固定膜（ASFF）生物反应器的动力学分析。水资源。 1989,23, 1147–1154. [谷歌学者] [交叉参考]
Ghiasi，G。；林，T.Y。；Le，Q.V.NAS-FPN：学习用于对象检测的可伸缩特征金字塔体系结构。2019年6月15日至20日，美国加利福尼亚州长滩，IEEE/CVF计算机视觉和模式识别（CVPR）会议记录。[谷歌学者]
Tan，M。；庞，R。；Le，Q.V.Efficientdet：可扩展且高效的对象检测。《IEEE/CVF计算机视觉和模式识别会议论文集》，美国华盛顿州西雅图，2020年6月13日至19日；第10781–10790页。[谷歌学者]
乔·S。；Chen，L.C.（法律顾问）。；Yuille，A.Detectors：使用递归特征金字塔和可切换的atrous卷积检测对象。2021年6月20日至25日在美国田纳西州纳什维尔举行的IEEE/CVF计算机视觉和模式识别会议记录；第10213–10224页。[谷歌学者]
江，B。；罗，R。；毛，J。；肖，T。；Jiang，Y.准确目标检测的定位置信度获取。2018年9月8日至14日，德国慕尼黑，《欧洲计算机视觉会议记录》。[谷歌学者]
Song，G。；刘，Y。；Wang，X.重访目标探测器中的兄弟头。《IEEE/CVF计算机视觉和模式识别（CVPR）会议记录》，美国华盛顿州西雅图，2020年6月13日至19日。[谷歌学者]
Wang，C.Y。；博奇科夫斯基，A。；Liao，H.Y.M.Scaled-YOLOv4：缩放跨阶段部分网络。在美国田纳西州纳什维尔举行的IEEE/CFF计算机视觉和模式识别会议（CVPR）上，2021年6月20-25日；第13029–13038页。[谷歌学者]
Wu，Y。；陈，Y。；袁，L。；刘，Z。；Wang，L。；李，H。；Fu，Y.重新思考目标检测的分类和定位。《IEEE/CVF计算机视觉和模式识别（CVPR）会议记录》，美国华盛顿州西雅图，2020年6月13日至19日。[谷歌学者]
Wang，J。；宋，L。；李，Z。；Sun，H。；Sun，J。；Zheng，N.使用全卷积网络进行端到端目标检测。IEEE/CVF计算机视觉和模式识别会议论文集，美国田纳西州纳什维尔，2021年6月20日至25日；第15849–15858页。[谷歌学者]
陈，Q。；Wang，Y。；Yang，T。；张，X。；程，J。；Sun，J.你看起来只是一个级别的特征。2021年6月20日至25日在美国田纳西州纳什维尔举行的IEEE/CVF计算机视觉和模式识别（CVPR）会议记录；第13039–13048页。[谷歌学者]

图1。无人机航空图像中的目标检测问题：小目标比例高、多尺度目标、目标之间高度重叠以及复杂背景。

图2。网络结构：（1）主干采用Cspdarknet53，（2）颈部采用PFFN，（3）预测头采用AD头。网络中每个模块的具体结构如下所述。

图3。VIOU损失。损失函数分为三部分：IOU损失、中心点位置损失和宽度和高度的矢量损失。

图4。比较四组融合网络的结构图。具体模块如所示图2.

图5。不对称解耦封头的结构。具体细节用不同的颜色表示。

图6。有关数据集中各种类型对象的信息。

图7。VIOU图-一：水平轴表示一垂直轴表示相应的mAP0.5。

图8。图像检测比较热图（左边的图片是YOLOv5s直接检测的结果，右边的图片是我们改进模型检测的结果）。红色越深，值越大。蓝色越深，值越小。通过Grad-CAM，将待可视化输出类别的概率值映射到特征地图的最后一层，并获得特征地图每个像素的梯度值，以确定每个区域对模型预测的影响程度。

图9。图片检测效果对比图（左边的图片是YOLOv5s直接检测的结果，右边的图片是我们改进模型检测的结果）。

图10。VisDrone 2019验证集上每个类别的AP。

表1。对比VisDrone 2019数据集的不同指标。（粗体表示最佳结果）。

韵律学	$精密度$	$召回$	${AP公司}_{0.5}$	${AP公司}_{0.5 : 0.95}$
国际单位[30]	48.2	34.6	35	19.3
焦乌[31]	46.4	34.4	34.3	19.1
DIOU公司[25]	47.1	34	34.6	19.2
首席信息官[25]	48.4	34.6	34.9	20.5
SIOU公司[34]	46.9	34.4	34.5	19
EIOU公司[33]	46.7	35.5	35.5	19.5
字母-IOU	48.1	35.8	35.7	20.5
VIOU（我们的）	50.9	34.9	36.4	20.7

表2。五种特征融合网络的性能比较。（粗体表示最佳结果。

P（P） 对 e（电子）

：精度；

R（右） e（电子） c（c）

：召回；

t吨 我 米 e（电子）

：推理时间（ms）；

米 e（电子） 米 o个 对 年

：GPU内存（MiB））。

表2。五种特征融合网络的性能比较。（粗体表示最佳结果。

P（P） 对 e（电子）

：精度；

R（右） e（电子） c（c）

：召回；

t吨 我 米 e（电子）

：推理时间（ms）；

米 e（电子） 米 o个 对 年

：GPU内存（MiB））。

颈部	$之前$	$可采收水平$	${最大允许偏差}_{0.5}$	${最大允许偏差}_{0.5 : 0.95}$	$时间$	$存储器$	$参数$
窗格[39]	46	26.9	34.9	20.5	1.5	2387	7,037,095
版本1	48.6	38.3	38.8	22.2	2.1	2693	9,751,892
版本2	50.5	39.3	40	23.1	2.4	2727	7,681,236
版本3	52.1	40	40.5	22.9	2	2743	8,603,028
版本4	53.9	40.7	42.3	24.6	2.2	2679	7,408,532

表3。消融研究。(

P（P） 对 e（电子）

：精度；

R（右） e（电子） c（c）

：召回；

t吨 我 米 e（电子）

：推理时间（ms）；

米 e（电子） 米 o个 对 年

：GPU内存（MiB））。

表3。烧蚀研究。(

P（P） 对 e（电子）

：精度；

R（右） e（电子） c（c）

：召回；

t吨 我 米 e（电子）

：推断时间（ms）；

米 e（电子） 米 o个 对 年

：GPU内存（MiB））。

版本	$之前$	$可采收水平$	${最大允许偏差}_{0.5}$	${最大允许偏差}_{0.5 : 0.95}$	$时间$	$存储器$	$参数$
基线	48.1	34.6	34.9	19.1	1.5	2387	7,037,095
+VIOU公司	50.7	34.6	36.4	20.7	1.5	2387	7,037,095
+VIOU+PFFN	55.2	41.1	43.2	25.2	2.5	2657	7,408,532
+VIOU+PFFN+AD头	55.8	42.7	44.6	26.6	7.1	3805	19,258,068

表4。VisDrone 2019数据集性能比较。（粗体表示最佳结果）。

方法	骨干	${最大允许偏差}_{0.5}$	${最大允许偏差}_{0.5 : 0.95}$
固态硬盘[12]	ResNet-50公司	10.6	5
效率检测[46]	效率Det-D1	21.2	12.9
RetinaNet公司[13]	ResNet-50-FPN公司	25.5	15.1
中心网[14]	ResNet-50公司	29	14
更快的R-CNN[三]	ResNet-50-FPN公司	35.8	19.7
YOLOv3-SPP公司[5]	暗网53	18.9	10.6
YOLOv5公司	CSP暗网	34.9	19.1
YOLOv6型[8]	效率代表	28.8	19
YOLOv7公司[10]	ELAN公司	37.5	23.8
YOLOv8公司[11]	CSPDarkNet（C2f）	41.4	24.9
我们的	CSPDarkNet公司	44.6	26.6

表5。DOTA数据集性能比较。（粗体表示最佳结果）。

方法	骨干	${最大允许偏差}_{0.5}$	${最大允许偏差}_{0.5 : 0.95}$
SDD系统开发	VGG公司	42.7	23.1
效率检测	效率检测-D1	58.9	33.7
中心网	ResNet-50公司	56.7	30.8
更快的R-CNN	ResNet-50-FPN公司	62.9	30.4
YOLOv5公司	CSPDarkNet公司	71.4	45.9
YOLOv8公司	CSPDarkNet（C2f）	72.2	49
我们的	CSPDarkNet公司	73.5	49.2

免责声明/出版商注释：所有出版物中包含的声明、意见和数据仅为个人作者和贡献者的声明、观点和数据，而非MDPI和/或编辑的声明、看法和数据。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品造成的任何人员或财产伤害不承担任何责任。

分享和引用

MDPI和ACS样式

卢，S。；卢，H。；Dong，J。；吴，S。基于矢量IOU的无人机空中场景目标检测。传感器 2023,23, 3061.https://doi.org/10.3390/s23063061

AMA风格

卢S，卢H，董J，吴S。基于矢量IOU的无人机空中场景目标检测。传感器. 2023; 23(6):3061.https://doi.org/10.3390/s23063061

芝加哥/图拉宾风格

鲁、舜、韩愈鲁、董军和吴双。2023.“基于矢量IOU的无人机空中场景目标检测”传感器23，编号6:3061。https://doi.org/10.3390/s23063061

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

基于矢量IOU的无人机空中场景目标检测

摘要

1.简介

2.相关工作

2.1. 回归损失函数

2.2. 颈部

2.3. 检测头

3.方法

3.1. VIOU损失

3.2. 渐进式特征融合网络

3.3. 非对称解耦磁头

4.实验

4.1. VIOU性能比较实验

4.2. 颈部网络特征融合特性的比较实验

4.3. 烧蚀实验

4.4. 不同探测器的比较

4.5. 目视分析

5.结论

作者贡献

基金

机构审查委员会声明

知情同意书

数据可用性声明

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI