期刊上的下一篇文章
西南太平洋热带气旋影响与森林恢复
下一篇特刊文章
LSNet:从点云中检测三维物体的学习采样网络
期刊上的上一篇文章
基于无人机获取的光学图像和高清视频的线性基础设施桥梁检测新方法
特刊上一篇文章
基于联合描述神经网络的光学卫星与无人机多视点图像匹配
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

基于无锚定向区域建议网络的遥感图像定向目标检测

华中科技大学电子信息与通信学院,武汉430074
*
信件应寄给的作者。
远程传感器。 2022,14(5), 1246;https://doi.org/10.3390/rs14051246
收到的提交文件:2022年1月19日/修订日期:2022年2月20日/接受日期:2022年3月1日/发布日期:2022年3月3日

摘要

:
面向对象检测是近年来备受关注的遥感图像分析中的一项基础性和挑战性任务。目前,主流的面向对象检测器基于密集放置的预定义锚。然而,锚的数量过多加剧了正负样本不平衡问题,这可能导致重复检测或漏检。为了解决这个问题,本文提出了一种新型的无锚点两级面向对象检测器。我们提出了无锚定向区域提案网络(AFO-RPN),以在没有大量预定义锚的情况下生成高质量的定向提案。为了处理旋转问题,我们还提出了一种基于极坐标系的定向框的新表示法。为了解决无锚点方法面临的严重外观模糊问题,我们使用交叉注意特征金字塔网络(CCA-FPN)来利用每个像素及其邻域的上下文信息来增强特征表示。在三个公共遥感基准(DOTA、DIOR-R和HRSC2016)上的广泛实验表明,我们的方法可以实现非常有希望的检测性能,在基准上的平均精度(mAP)分别为80.68%、67.15%和90.45%。

图形摘要

1.简介

目标检测是计算机视觉中的一项基本而富有挑战性的任务。遥感图像中的目标检测[1,2,,4,5,6,7,8,9]识别并定位感兴趣的对象,如车辆[4,5],艘船[6,7]、和飞机[8,9]在地面上,已在交通规划和土地测量等领域实现应用。
传统的目标检测方法[10]如基于对象的图像分析(OBIA)[11]通常需要两步来完成目标检测:首先提取可能包含潜在目标的区域,然后提取手绘特征并应用分类器获取类别信息。然而,它们的检测性能并不令人满意,因为手工特征的表征能力有限,语义信息不足。
得益于深度卷积神经网络(DCNNs)的快速发展[12]以及公开可用的大规模基准测试、通用对象检测[13,14,15,16,17,18,19]在自然场景方面取得了广泛的进展,这也促进了RSI中目标检测的进一步发展。通用目标检测器使用一个轴对齐的边界框(也称为水平边界框(HBB))来定位图像中的目标。然而,检测带有HBB的RSI中的物体仍然是一项挑战。由于RSI是从鸟瞰图拍摄的,因此RSI中的物体通常具有较大的纵横比和密集的排列,例如停靠在港口的船只。因此,定向包围盒(OBB)最近被用来描述RSI中任意状态对象的位置。
目前,主流的面向对象探测器[20,21,22,23]基于密集放置的预定义锚。一些早期的旋转检测器使用基于水平锚点的区域建议网络(RPN)生成水平感兴趣区域(RoIs),然后设计新的网络模块将水平RoIs转换为OBB。例如,Ding等人[20]构建一个旋转RoI学习器,将水平RoI转换为旋转RoI(RRoI),然后对RRoI进行回归以获得最终结果。然而,由于对象的任意方向和密集分布,水平RoI通常包含大量地面像素和其他对象,如所示图1a.水平锚和旋转对象之间的不匹配导致网络训练困难,并进一步降低性能[21].
为了解决这个问题,一些探测器使用基于旋转锚点的RPN(RRPN)[23]生成RRoI。然而,联邦交叉口(IoU)对角度高度敏感。为了确保高召回率,RRPN为特征图上的每个采样点放置54个旋转锚(六个方向、三个纵横比和三个比例),如所示图1b.然而,大量的锚增加了计算负担,并加剧了正负样本之间的不平衡。此外,密集锚可能导致重复检测同一物体和漏检[21]非最大值抑制(NMS)后。
由于上述问题,无锚点定向目标探测器的使用越来越多。无锚探测器直接定位物体,无需手动定义锚。特别是,基于关键点的方法使用多个点,例如角点[24],极端点[25]和中心[26]表示正样本,并根据关键点的特征直接回归对象的类别和位置。例如,CenterNet[26]使用一个中心点表示对象,并直接从中心位置的特征回归其他属性,例如对象大小、尺寸和姿势。大多数无锚点的面向对象检测器是CenterNet固有的,具有高效性和通用性,其性能与基于锚点的检测器相比具有竞争力。例如,Pan等人[27]通过添加分支以回归OBB的方向来扩展CenterNet,与基线方法相比,拟议的DRN在多个数据集上取得了一致的收益。
然而,基于关键点的无锚点目标检测器面临着严重的背景或其他类别的外观模糊问题。如所示图2,对象的中心区域与背景相似,一些属于不同类别的对象甚至共享相同的中心部分。这主要是因为常用的完全卷积网络没有足够的上下文信息[28]因为固定的DCNN结构限制了局部感受野。此外,几乎所有无锚点探测器都是单级探测器,通常会出现严重的失准[29]在DCNN提取的轴对齐卷积特征和旋转边界框之间。然而,两级检测器的特征扭曲模块,如RRoI池[23]或RRoI对齐[20],可以缓解这个问题。
基于上述讨论,我们按照从粗到细的检测范式,提出了一种新的两阶段面向对象检测器。我们的方法由四个部分组成:主干、交叉注意特征金字塔网络(CCA-FPN)、无锚定向区域建议网络(AFO-RPN)和定向RCNN头。
首先,我们使用提议的AFO-RPN生成高质量的面向建议书,而不会在特征地图上放置过多固定形状的锚。为了增强特征图中每个像素的特征表示,我们采用CCA-FPN从完整的图像补丁中挖掘上下文信息。为了处理旋转问题,我们提出了一种基于极坐标系的OBB新表示。最后,我们使用AlignConv对特征进行对齐,然后使用定向RCNN头预测分类分数并回归最终的OBB。为了证明我们的方法的有效性,我们在三个面向RSI的公共对象检测数据集DOTA上进行了广泛的实验[30],DIOR-R[31]和HRSC2016[7].
本文的贡献概括如下:(1)根据两阶段粗到精检测范式,提出了一种新的无锚点目标检测器。具体来说,我们提出了AFO-RPN来生成高质量的提案,而无需使用大量预定义锚和一种新的OBB在极坐标系中的表示方法,可以更好地处理旋转问题;(2) 我们将CCA模块应用于FPN中,通过从完整的补丁图像中捕获上下文信息来增强每个像素的特征表示;(3)在三个公开数据集上的实验结果表明,我们的方法取得了很好的结果,并且优于以前的最新方法。
本文的其余部分组织如下。第2节回顾了相关工作并详细解释了我们的方法。第3节在不同的数据集上比较了所提出的方法和最新的方法。第4节讨论了该方法的烧蚀实验。第5节提供了我们的结论。

2.材料和方法

2.1. 相关工作

2.1.1. 通用对象检测

随着深度学习技术的最新进展,基于DCNN的通用对象检测器的性能显著提高。通用目标检测器的目标是用HBB检测自然场景中的一般目标以定位目标。主流的通用目标检测方法可以根据以下标准大致划分为:两级或单级目标检测,无锚点或基于锚点的目标检测。
两级物体探测器,如Faster RCNN[13]和屏蔽RCNN[14]首先生成RoI,可以将其作为粗类识别检测结果处理,然后在第二阶段提取RoI特征以进行精细分类和定位。两级目标检测器可以达到较高的检测精度,但其推理速度较慢。一级目标探测器,如YOLO系列[15,16,17],固态硬盘[18]和RetinaNet[19],通过一步预测直接回归完整的检测结果。一级检测器速度快,可以实现实时推理,但其精度低于两级检测器。Faster R-CNN在其RPN中推广了锚的设计,并已成为许多现代目标探测器的惯例。
虽然基于锚点的检测器目前在目标检测领域占据主导地位,但它们需要在特征地图的每个位置放置一组密集的预定义锚点,这大大增加了计算成本。因此,无锚探测器[24,25,26,32,33,34]直接定位对象而无需手动定义锚点的方法已经流行起来。例如,CornerNet[24]直接回归左上角点和右下角点,然后将它们分组以形成最终的HBB。ExtremeNet公司[25]预测四个极端点(最顶部、最左侧、最右侧和最底部)和一个中心点,然后将它们分组到HBB中。中心网[26]将对象建模为一个单点,并直接回归HBB的中心点。基于关键点的无锚点检测器将对象的多个关键点视为正样本,与此不同,基于像素的无锚链检测器尝试以逐像素预测的方式解决此问题。RepPoints(复制点)[32]引入了一组代表点,这些代表点可以自适应地学习在对象上定位自己。Tian等人[33]将对象HBB内的所有像素视为阳性样本。受到人眼系统的激励,Kong等人[34]将物体HBB中心凹区域内的像素视为阳性样本。它们都预测了从正像素到HBB四边的四个距离,以形成HBB。无锚点检测方法推理速度快,而且与基于锚点的检测方法相比,检测结果具有竞争力。

2.1.2. 面向对象检测

定向对象检测在遥感图像和自然场景文本等领域受到了极大的关注。定向对象检测器使用OBB来定位除HBB以外的任意状态的对象,因为这些场景中的对象通常具有较大的纵横比,并且密集排列。
定向目标检测器通常使用通用目标检测器作为基线,然后添加专门设计的模块以从HBB回归OBB。基于Faster-RCNN[13]、RRPN[23]使用旋转RPN和旋转RoI池进行任意方向的文本检测。RoI变压器[20]利用可学习模块将水平RoI转换为RRoI。Xu等人[22]建议在HBB的四个对应边上滑动每个顶点来表示OBB,Ye等人[35]引入特征融合和特征过滤模块,利用多级上下文信息。
基于RetinaNet[19]、ADT-Det[36]使用特征金字塔变换器,通过与多个尺度和层的特征交互来增强特征。S公司 2 A-Net公司[29]利用特征对齐模块进行全特征对齐,利用面向检测模块缓解分类和回归之间的不一致性。R(右) Det公司[37]使用特征细化模块对位置信息进行重新编码,然后通过像素级插值重建整个特征地图。
一些研究已经采用了基于语义分割网络的OBB,例如Mask RCNN[14]. 屏蔽OBB[38]是第一个将面向对象检测作为实例分割问题来处理的。Wang等人[39]提出一种中心概率图OBB,通过减少OBB内背景像素的影响,获得更高的检测性能,从而提供更好的OBB表示。
除了上述基于锚点的探测器外,一些旋转目标探测器使用无锚点方法。基于CenterNet[26],Pan等人[27]通过添加分支来回归OBB的方向,提出DRN,Shi等人[40]开发一个多任务学习程序,在训练过程中对多任务损失函数进行加权。其他无锚点探测器使用新的OBB表示法。Xiao等人[41]采用FCOS[33]作为基线,提出轴学习,通过预测目标的轴来检测有方向的目标。Guo等人[42]建议使用RepPoints的CFA[32]并为每个定向对象构造一个凸包集。

2.1.3. 语境信息与注意机制

大量研究表明,使用上下文信息和注意机制可以提高场景分类、对象检测和实例分割等视觉任务的性能。
例如,Wang等人[43]使用一种新的局部和结构正则化低秩表示方法来表征超光谱图像分类任务的全局和局部结构。ARCnet公司[44]利用一种新颖的重复注意结构,迫使场景分类器学习关注高分辨率RSI的一些关键区域,这些区域通常包含复杂对象。AGMFA-Net公司[45]使用注意力引导的多层特征聚合网络捕获更完整的语义区域,以实现更强大的场景表示。
上下文信息聚合在语义分割网络中得到了广泛的应用。为了增强网络区分小规模物体的能力,CFEM[46]使用基于上下文的特征增强模块来增强区分小对象的辨别能力。人力资源网[47]利用轻量级的高分辨率上下文提取网络来获取全局上下文信息并识别边界。
语境信息的有用性已被许多研究所证实[35,48,49]在空中目标检测中,尤其是当目标因尺寸小、遮挡或复杂背景而外观不足时。CAD网[48]融合了全局和局部上下文信息,并具有空间和尺度感知注意模块,用于RSI中的对象检测。Wu等人[49]提出一个局部上下文模块,该模块建立提案与其周围区域像素之间的位置关系,以帮助检测对象。 F类 3-净值[35]使用特征融合模块提取不同尺度的上下文信息。
注意机制通过将处理过程引导到信息量更大、更相关的区域,在面向对象的检测中也显示出了良好的前景。ROSD公司[50]使用方向注意模块来增强方向敏感性,以实现精确的旋转对象回归。CFC-净[51]利用极化注意力构建特定任务的关键特征。Li等人[52]使用中心-边界双重注意模块提取面向对象中心和边界区域的注意特征。雷达天线[53]使用一个同时关注物体空间位置和特征的多层注意网络。SCRDet公司[54]使用由像素注意力网络和通道注意力网络组成的监督多维注意力网络来抑制噪声并突出前景。

2.1.4. OBB表示方法

最广泛使用的两种OBB表示方法是基于角度的五参数表示方法和基于顶点的八参数表示方法。更常用的五参数表示直接添加角度参数 θ HBB代表 x个 , , w个 , 小时 ,以及角度的定义 θ 是由矩形长边和X轴确定的锐角。八参数表示直接采用OBB的四个角,例如。, x个 1 , 1 , x个 2 , 2 , x个 , , x个 4 , 4 .
尽管两种OBB表示形式的定向目标检测器都表现出了良好的性能,但这两种表示形式的固有缺陷阻碍了检测结果的进一步改进[55]. 五参数表示中嵌入的角度参数遇到了角度周期性问题,导致学习过程中的困难。相比之下,八参数表示要求地面实况和预测的点顺序完全相同,否则会导致训练过程不稳定。
为了解决这些问题,一些检测器引入了新的表示以及无锚模型。Axis学习[41]通过预测物体的轴线和宽度来定位物体,后者与轴线垂直。O(运行) 2 D网络[56]将对象视为一对中线。合成孔径雷达[57]使用了一个全新的圆形切割水平矩形表示。Wu等人[58]提出了一种新的基于投影的OBB描述方法。Yi等人[59]提出BBAVectors回归对应边的一个中心点和四个中点以形成OBB。X-LineNet公司[9]使用成对的基于外观的相交线段来表示飞机。
上述表示都是基于笛卡尔坐标的,最近,基于极坐标的表示被用于旋转对象检测和实例分割。极光面膜[60]模型实例在极坐标系中屏蔽为一个中心和n条射线,以更简单、更灵活的方式实现了具有竞争力的性能。基于极坐标的表示法已被证明对旋转和方向相关问题有帮助。在Polar Mask之后,一些旋转目标探测器[61,62]也采用极性表示,显示出巨大的潜力。PolarDet公司[61]用多个角度和短极径比表示OBB。然而,PolarDet的OBB表示需要13个参数,其中一些是冗余的。相比之下,我们提出了一种类似但更有效的表示方法,只需七个参数。P-RSDet公司[62]回归极坐标中的三个参数,其中包括极半径 ρ 以及前两个角度,形成OBB并提出了一种新的极环面积损失来提高预测精度。

2.2. 方法

2.2.1. 总体架构

如所示图3该检测器遵循两阶段检测范式,包含四个模块:用于特征提取的主干,用于增强具有上下文信息的特征表示的CCA-FPN,用于生成RRoI的AFO-RPN,以及用于旋转对象最终类别和位置的定向RCNN头。作为主干,我们采用了ResNet[12]通常用于许多定向探测器。

2.2.2. 交叉关注FPN

上下文信息在许多计算机视觉任务中都有帮助,例如场景分类、对象检测和语义分割。通常,视觉中的上下文信息描述像素与其周围像素之间的关系。
RSI的一个特点是,相同类别的对象通常分布在特定区域,例如停车场中的车辆或港口中的船舶。另一个特征是物体与场景密切相关,例如飞机与机场密切相关,船只与水密切相关。
基于上述观察和分析,我们提出了一种交叉注意FPN,以充分利用每个像素及其邻域的上下文信息,增强对象的特征表示。具体来说,我们将级联的交叉注意模块嵌入FPN中,以增强像素表示。CC-Net中首次使用的交叉注意模块[28]设计用于收集十字交叉路径中的上下文信息,以便通过对局部特征的全补丁图像依赖性建模来增强像素的表示能力。
给定特征图 H(H) R(右) C类 × W公司 × H(H) ,我们首先应用三个 1 × 1 卷积层 H(H) 获取三个要素地图:查询地图 ,键映射 K(K) 、和值映射 V(V) 。请注意 K(K) 具有相同的尺寸,其中 , K(K)   R(右) C类 × W公司 × H(H) 、和 V(V) 尺寸与 H(H) .我们设置 C类 小于C类为了减少尺寸。
接下来,我们得到一个向量 u个 在每个空间位置 u个 属于 和套装 Ω u个 其中向量是从具有空间位置的同一行和列中提取的 u个 从键映射 K(K) .相关向量 D类 u个 通过对查询向量应用亲和操作来计算 u个 和键向量集 Ω u个 如下:
D类 u个 = u个 Ω u个 T型 ,
哪里 D类 u个 R(右) W公司 + H(H) 1 接下来,我们计算注意力向量 A类 u个 通过在上应用softmax函数 D类 u个 在通道尺寸上,如下所示:
A类 u个 = o(o) (f) t吨 x个 D类 u个 .
然后,我们得到值向量集 Φ u个 ,其中值向量是从具有位置的同一行和列中提取的 u个 属于 V(V) 。上下文信息由定义为以下内容的聚合操作收集:
H(H) u个 = = 0 W公司 + H(H) 1 A类 , u个 Φ , u个 + H(H) u个 ,
哪里 H(H) R(右) C类 × W公司 × H(H) 是十字关注模块的输出,它将上下文信息与每个像素聚合在一起。单个十字交叉注意模块只能捕获水平和垂直方向像素的上下文信息。然而,对于面向对象检测问题,仅仅关注交叉路径信息是不够的。为了从其他方向捕获上下文信息,我们使用了两个级联交叉注意模块,遵循CC-Net[28].

2.2.3. 面向无锚点的区域建议网络

如所示图3,CCA-FPN生成五级特征地图{ P(P) 2 , P(P) , P(P) 4 , P(P) 5 , P(P) 6 }他们的步伐{ 2 , , 4 , 5 , 6 }分别为4、8、16、32和64。建议的AFO-RPN采用特征图 P(P) 作为输入和输出的一组面向对象的建议,如图4.我们介绍了OBB的极性表示方法,然后介绍了AFO-RPN的细节。

2.2.4. OBB的极性表示

在本文中,我们使用基于极性的OBB表示,而不是常用的基于笛卡尔的OBB表达,如所示图5具体来说,每个对象的质心用作极坐标的原点,我们使用 c(c) x个 , c(c) , ρ , γ , φ 代表OBB,其中 c(c) x个 , c(c) 是OBB的质心,也是极坐标的极点。 ρ 是半径,用于计算质心到顶点的距离,以及 γ 是与OBB短边相对应的中心角。该表示比使用的表示更健壮w个小时以表示矩形框的长边和短边。原因是使用w个小时表示矩形框容易出现混淆的问题w个小时当矩形框靠近正方形时[55]. 然而,通过使用 ρ γ 为了表示矩形w个小时可以避免。 φ 表示OBB的旋转角度,在极坐标系中定义。我们定义起始角度 0 与正y轴重合,并逆时针增加角度。

2.2.5. 极点回归

遵循之前的工作,如CenterNet[26],我们使用极点(OBB的中心点)热图来表示对象的位置和对象性。CenterNet使用带对角相关矩阵的二维高斯核将关键点映射到热图,与此不同,我们使用带相关矩阵的旋转高斯核,相关矩阵与地面真值框的旋转角度相关。
具体来说,对于OBB基本事实 c(c) x个 , c(c) , w个 , 小时 , θ ,我们放置一个二维高斯分布 N个 , Σ 在训练阶段形成地面实况热图。在这里, = c(c) x个 , c(c) 表示映射到特征映射的高斯分布的中心,其中是每个要素图的下采样步幅。相关矩阵 Σ 计算如下:
Σ 1 2 = R(右) θ S公司 R(右) T型 θ ,
其中旋转矩阵 R(右) θ 定义为:
R(右) θ = 余弦 θ θ θ 余弦 θ .
S公司 = d日 σ x个 , σ 是标准偏差矩阵,其中 σ x个 = w个 × σ 第页 , σ = 小时 × σ 第页 、和 σ 第页 是对象大小自适应标准偏差[26].
在训练阶段,只有高斯峰被视为阳性样本;所有其他点都是负数。为了处理阳性和阴性样本之间的不平衡,我们使用了一个像素逻辑回归,并将可变焦损作为CenterNet[26]:
L(左) k个 = 1 N个 x个 1 Y(Y) ^ x个 α 日志 Y(Y) ^ x个 , 如果 Y(Y) ^ x个 = 1 1 Y(Y) x个 β 日志 Y(Y) ^ x个 α 日志 1 Y(Y) ^ x个 , 否则 ,
哪里 Y(Y) ^ x个 Y(Y) x个 参考地面实况和预测的热图值, α β 是控制每个点贡献的焦损超参数,以及N个是输入图像中的对象数。
此外,为了补偿由输出步幅引起的量化误差,我们还预测了局部偏移图 O(运行) R(右) 2 × H(H) × W公司 ,稍微调整中心点位置,然后将其重新映射到输入分辨率,OBB中心点的偏移定义为 o(o) = c(c) x个 c(c) x个 , c(c) c(c) .
偏移通过平滑 L(左) 1 损失[13]:
L(左) O(运行) = 1 N个 k个 S公司 o(o) o(o) t吨 小时 L(左) 1 o(o) k个 o(o) ^ k个 ,
哪里 o(o) k个 ^ o(o) k个 参考地面真实情况和预测的局部偏移k个第个对象。光滑的 L(左) 1 损失定义为:
S公司 o(o) o(o) t吨 小时 L(左) 1 = 0.5 x个 2 , 如果 x个 < 1 x个 0.5 , 否则 .

2.2.6. 盒参数回归

框参数定义为 b条 = ρ , γ , φ ,其中 ρ 是计算从质心到顶点的距离的半径, γ 是与OBB短边相对应的中心角,以及 φ 表示OBB的旋转角度,如图5.我们预测了盒子参数图 B类 R(右) × W公司 × H(H) 具有平稳的L1损耗:
L(左) B类 = 1 N个 k个 S公司 o(o) o(o) t吨 小时 L(左) 1 b条 k个 b条 ^ k个 ,
哪里 b条 ^ k个 b条 k个 参考地面实况和预测的盒子参数k个第个对象。
AFO-RPN的总体培训损失为:
L(左) A类 F类 O(运行) R(右) P(P) N个 = L(左) k个 + λ O(运行) L(左) O(运行) + λ B类 L(左) B类 ,
哪里 λ O(运行) λ B类 是控制每个项目贡献的加权因子,我们设置 λ O(运行) = 1 λ B类 = 0.1 在我们的实验中。

2.2.7. 定向RCNN头

如所示图6RoI特征提取器以一组特征图{P2、P3、P4、P5、P6}和一组定向建议作为输入。我们使用align conv模块从相应的特征图中提取固定大小的RoI特征。有关校准转换的详细信息,请参阅S 2 A-Net公司[29]. 然后,我们使用两个完全连接的层和两个同级完全连接层来预测分类分数并回归最终的定向边界框,如所示图3RCNN头的损失与[20]. RCNN水头损失由以下公式给出:
L(左) 小时 e(电子) d日 = 1 N个 c(c) L(左) c(c) + 1 N个 第页 e(电子) 第页 🟉 L(左) 第页 e(电子) ,
哪里 N个 c(c) N个 第页 e(电子) 分别是AFO-RPN生成的提案数量和小批量的积极提案数量。 第页 🟉 是索引,何时建议是肯定的,它是1,否则是0。
该方法的总损失函数遵循多任务学习方式,定义为:
L(左) t吨 o(o) t吨 = λ A类 F类 O(运行) R(右) P(P) N个 L(左) A类 F类 O(运行) R(右) P(P) N个 + λ 小时 e(电子) d日 L(左) 小时 e(电子) d日 ,
哪里 λ A类 F类 O(运行) R(右) P(P) N个 λ 小时 e(电子) d日 是加权因子,我们设置 λ A类 F类 O(运行) R(右) P(P) N个 = 1 λ 小时 e(电子) d日 = 1 .

3.结果

3.1. 数据集集合

3.1.1. DOTA公司

DOTA公司[30]是最大的公共航空图像检测数据集之一。它包含2806幅800×800至4000×4000像素的图像和188282个实例,这些实例由任意方向的四边形标记,分为15类:平面(PL)、棒球场(BD)、桥梁(BR)、地面田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储罐(ST)、,足球场(SBF)、环岛(RA)、港口(HA)、游泳池(SP)和直升机(HC)。整个数据集分为训练集(1411张图像)、验证集(458张图像)和测试集(937张图像)。我们将训练集用于网络训练,将验证集用于消融实验中的评估。与最先进的目标探测器相比,训练集和验证集均用于网络训练,测试集的相应结果被提交给官方评估服务器,网址为https://captain-whu.github.io/DOTA/evaluation.html(2022年1月27日访问)。以下[20],我们将原始图像裁剪为 1024 × 1024 训练和测试时步幅为200的补丁。对于多尺度训练和测试,我们首先以经验选择的三个尺度(0.5、1.0和1.5)调整原始图像的大小,然后将其裁剪为 1024 × 1024 步幅为512的补丁。

3.1.2. 二极管-R

二氧化二氮[31]是DIOR的修订数据集[1],这是地球观测界另一个公开可用的面向任意方向的目标检测数据集。它包含23463幅固定大小为800×800像素的图像和192518个带注释的实例,涵盖了广泛的场景。空间分辨率从0.5米到30米不等。该数据集的对象分为20类:飞机(APL)、机场(APO)、棒球场(BF)、篮球场(BC)、桥梁(BR)、烟囱(CH)、高速公路服务区(ESA)、高速公路收费站(ETS)、大坝(dam)、高尔夫球场(GF)、田径场(GTF)、港口(HA)、立交桥(OP)、,船舶(SH)、体育场(STA)、储罐(STO)、网球场(TC)、火车站(TS)、车辆(VE)和风车(WM)。数据集分为训练集(5862张图像)、验证集(5863张图像)和测试集(11738张图像)。为了与其他方法进行公平比较,建议的检测器在序列+val集上进行训练,并在测试集上进行评估。

3.1.3. HRSC2016年

HRSC2016年[7]是一个面向船舶检测的数据集,包含1061张大长宽比旋转船舶的图像,这些图像来自六个著名港口,包括海上船舶和近岸船舶。图像范围从300×300到1500×900像素,地面采样距离在2米到0.4米之间。数据集被随机分为训练集、验证集和测试集,分别包含436幅图像,包括1207个实例、181幅图像,其中541个实例和444幅图像,共1228个实例。在我们的实验中,我们使用训练集和验证集进行训练,使用测试集进行评估。在不改变纵横比的情况下,将所有图像的大小调整为800×1333。

3.2. 实施详细信息

我们使用了ResNet 101[12]作为骨干网络,与最先进的方法进行比较。我们的模型是在mmdetection上实现的[20]库。我们使用SGD算法对模型进行了优化,初始学习率设置为0.005。动量和重量衰减分别为0.9和0.0001。DOTA和DIOR-R数据集共训练了12个时相,学习率在8个时相和11个时相分别除以10。HRSC2016数据集共训练了36个epoch,衰减步长分别为24和33个epochs。我们在所有实验中都使用了一台Nvidia Titan XP GPU。
在本文中,我们采用平均精度(mAP)度量来评估所有实验的多类检测精度。mAP是所有类别AP值的平均值:
最大允许偏差 = = 1 N个 AP公司 N个 ,
哪里N个是类数。AP指标是通过精确再调用曲线下的面积来测量的。mAP值越高,性能越好,反之亦然。

3.3. 与最新方法的比较

3.3.1. DOTA结果

为了验证该方法的有效性,我们将其与DOTA数据集测试集上的几种最新方法进行了比较。结果由DOTA官方评估服务器进行评估。如所示表1,我们的模型实现了76.57%的mAP,这高于许多先进的方法。通过多尺度训练和测试策略,我们的模型实现了80.68%的mAP。一些检测结果如所示图7.

3.3.2. DIOR-R结果

DIOR-R是一种新的面向对象检测数据集,因此我们重新培训并测试了几种高级方法,以进行公平的性能比较。如所示表2,更快的RCNN OBB[30],作为基线两阶段导向方法,以及RetinaNet OBB[19]作为基线单阶段定向方法,mAP分别达到57.14%和55.92%。作为先进的方法,RoI变压器[20]和滑动顶点[22]mAP分别达到65.93%和61.81%。AOPG公司[31]作为DIOR-R数据集中的基线方法,获得了64.41%的mAP。我们的模型达到65.80%mAP,ResNet 50[12]作为主干,使用ResNet 101实现67.15%的mAP[12]作为骨干。检测结果如所示图8.

3.3.3. HRSC2016结果

HRSC2016数据集包含许多密集的船舶实例,具有任意方向和大纵横比。表3显示了我们将提出的方法与几种最先进的方法进行比较的结果。我们的模型以ResNet 50为主干实现了89.96%的mAP,以ResNet101为主干实现90.45%的mAP。这表明了处理此类对象的有效性。如所示图9,我们的模型可以在复杂的遥感图像中准确地检测到船舶。

4.讨论

4.1. 烧蚀研究

为了验证该方法的有效性,我们在DOTA数据集测试集上进行了消融研究。我们使用了RoI变压器[20]使用ResNet 101[12]作为实验的基线。从中的第一行可以看到表4基线方法达到了69.56%的mAP,从第四行开始,使用CCA-FPN和AFO-RPN模块的拟议方法实现了7.01%的mAP的显著改进。一些视觉比较示例如所示图10.

4.1.1. 拟议AFO-RPN的影响

第三排表4显示AFO-RPN模块的mAP增加了4.49%。拟议的AFO-RPN旨在生成高质量的面向建议书,而不会在特征地图上放置过多的固定形状锚。就mAP而言,BD、BR、LV、BC和HC等硬实例类别的准确性分别提高了5.54%、8.69%、2.91%、9.96%和16.53%。然而,就mAP而言,GTF、SH、SBF等类别的准确度分别下降了6.37%、4.07%和2.25%。原因是AFO-RPN是基于关键点的无锚点方法,它可能会面临与背景或其他类别的严重外观模糊问题,如所示图2.结果证明了无锚方法的弱点

4.1.2. CCA-FPN的影响

第二排表4显示CCA-FPN模块的mAP增加了4.07%。CCA-FPN旨在通过捕获上下文信息来增强每个像素的特征表示。就mAP而言,某些硬实例类别(如BR、SV、SH、BC和RA)的准确性分别提高了8.83%、9.21%、3.05%、5.7%和11.84%。从中的最后两行可以看到表4以mAP计,GTF、SH、SBF的性能分别提高了7.38%、7.88%、8.26%。它表明上下文信息有助于增强特征地图上每个点的表示。
我们还将所提出的方法的模型参数(Params)和计算(FLOP)与基线进行了比较。输入图像的大小为800×800像素。参数和FLOP越小,检测器的效率越高,推理时间越短。第二排表5结果表明,采用AFO-RPN模块的方法参数少,计算复杂度低。然而,第三排表5表明CCA-FPN模块带来了巨大的参数和较高的计算负担。

4.1.3. OBB的拟议极性表示的影响

为了探讨不同OBB表示方法的影响,我们将所提出的极坐标表示方法与两种常用的笛卡尔系统表示方法(基于角度的表示)进行了比较 x个 , , w个 , 小时 , θ 和基于顶点的表示 x个 1 , 1 , x个 2 , 2 , x个 , , x个 4 , 4 -DOTA、DIOR-R和HRSC2016数据集。如所示表6在所有三个数据集中,所提出的极坐标表示方法比笛卡尔系统表示方法有了显著的提高。

4.2. 限制

如所示表4,所提出的AFO-RPN模块的使用提高了许多类别的性能,但降低了几个类别的性能。为了解决这个问题,我们将注意力模块Cris-Cross attention应用到FPN中,通过利用上下文信息来增强特征表示。使用CCA-FPN和AFO-RPN模块提出的方法取得了显著改进,同时遇到了另一个计算复杂性问题,如所示表5这是一个需要在未来工作中解决的问题。

5.结论

本文分析了主流锚定方法的缺点,发现水平锚定和定向锚定都会阻碍定向对象检测结果的进一步改进。为了解决这个问题,我们提出了一种两级粗-精定向检测器。该方法具有以下新特点:(1)所提出的AFO-RPN,无需大量预定义锚即可生成面向高质量的提案;(2) CCA-FPN,通过捕获上下文信息增强每个像素的特征表示;(3)一种新的OBB在极坐标系中的表示方法,略微提高了检测性能。广泛的消融研究表明了所提出模块的优越性。我们在DOTA数据集上获得了80.68%的mAP,在DIOR-R数据集上达到了67.15%,在HRSC2016数据集上实现了90.45%,这表明与最先进的方法相比,我们的方法可以实现良好的性能。
然而,尽管性能良好,我们的方法增加了参数和计算成本。在今后的工作中,我们将重点改进该方法并减少计算负担。

作者贡献

概念化,J.L.和Y.T。;方法论,J.L。;软件,J.L。;验证,J.L.、Y.X.和Z.Z。;形式分析,J.L.和Y.T。;调查,Y.X.和Z.Z。;资源、Y.T.和Y.X。;数据管理,J.L.、Y.X.和Z.Z。;书面原稿编制,J.L。;写作与编辑,Y.T。;可视化,J.L.和Z.Z。;监督,Y.T。;项目管理,J.L.。所有作者均已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

本研究中使用的数据集可应通讯作者的要求提供。

利益冲突

作者声明没有利益冲突。

缩写

本手稿中使用了以下缩写:
RSI公司遥感图像
DCNN公司深度卷积神经网络
RSI公司遥感图像
乙型肝炎病毒水平边界框
OBB公司方向包围盒
注册零售编号区域提案网络
投资回报率关注地区
FPN公司特征金字塔网络
最大允许偏差平均平均精度
AFO-RPN公司面向无锚点的区域建议网络
CCA-FPN公司危机交叉关注特征金字塔网络

工具书类

  1. 李凯。;万·G。;Cheng,G。;孟,L。;Han,J.《光学遥感图像中的目标检测:调查和新基准》。ISPRS J.摄影。远程传感器。 2020,159, 296–307. [谷歌学者] [交叉参考]
  2. Cheng,G。;周,P。;Han,J.学习用于VHR光学遥感图像目标检测的旋转变换卷积神经网络。IEEE传输。地质科学。远程传感器。 2016,54, 7405–7415. [谷歌学者] [交叉参考]
  3. Han,J。;张博士。;程,G。;Guo,L。;基于弱监督学习和高级特征学习的光学遥感图像目标检测。IEEE传输。地质科学。远程传感器。 2015,53, 3325–3337. [谷歌学者] [交叉参考] [绿色版本]
  4. 奥德伯特,N。;勒索,B。;Lefèvre,S.Segment-be-fore-Detect:通过航空图像的语义分割进行车辆检测和分类。远程传感器。 2017,9, 368. [谷歌学者] [交叉参考] [绿色版本]
  5. 李,J。;张,Z。;田,Y。;Xu,Y。;温,Y。;Wang,S.遥感图像中用于车辆检测的目标引导特征超分辨率。IEEE地质科学。遥感快报。 2021,19, 1–5. [谷歌学者] [交叉参考]
  6. 邹,Z。;Shi,Z.基于SVD网络的星载光学图像舰船检测。IEEE传输。地质科学。远程传感器。 2016,54, 5832–5845. [谷歌学者] [交叉参考]
  7. 刘,Z。;袁,L。;翁·L。;Yang,Y.用于船舶识别的高分辨率光学卫星图像数据集和一些新基线。第六届模式识别应用与方法国际会议论文集,葡萄牙波尔图,2017年2月24日至26日;第2卷,第324-331页。[谷歌学者]
  8. 周,M。;邹,Z。;施,Z。;曾伟杰。;Gui,J.遥感图像中阻塞飞机检测的局部注意网络。IEEE地质科学。遥感快报。 2020,17, 381–385. [谷歌学者] [交叉参考]
  9. 魏,H。;Zhang,Y。;王,B。;Yang,Y。;李,H。;Wang,H.X-LineNet:通过一对相交线段在遥感图像中检测飞机。IEEE传输。地质科学。远程传感器。 2021,59, 1645–1659. [谷歌学者] [交叉参考]
  10. Cheng,G。;Han,J.光学遥感图像中目标检测的调查。ISPRS J.摄影。远程传感器。 2016,117, 11–28. [谷歌学者] [交叉参考] [绿色版本]
  11. Blaschke,T.遥感的基于对象的图像分析。ISPRS J.摄影。远程传感器。 2010,65, 2–16. [谷歌学者] [交叉参考] [绿色版本]
  12. He,K。;张,X。;任,S。;Sun,J.用于图像识别的深度残差学习。2016年6月26日至7月1日在美国内华达州拉斯维加斯举行的2016 IEEE计算机视觉和模式识别会议(CVPR)会议记录;第770-778页。[谷歌学者]
  13. 任,S。;He,K。;Girshick,R。;Sun,J.Faster R-CNN:利用区域建议网络实现实时目标检测。IEEE传输。模式分析。机器。智力。 2016,39, 1137–1149. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  14. He,K。;Gkioxari,G。;美元,P。;Girshick,R.Mask R-CNN。2017年IEEE国际计算机视觉会议(ICCV)会议记录,意大利威尼斯,2017年10月22日至29日;第2980-2988页。[谷歌学者]
  15. 雷德蒙,J。;迪瓦拉,S。;Girshick,R。;Farhadi,A.你只看一次:统一的实时目标检测。2016年6月26日至7月1日在美国内华达州拉斯维加斯举行的2016 IEEE计算机视觉和模式识别会议(CVPR)会议记录;第779–788页。[谷歌学者]
  16. 雷德蒙,J。;Farhadi,A.YOLO9000:更好、更快、更强。2017年7月21日至26日在美国夏威夷州火奴鲁鲁举行的2017 IEEE/CVF计算机视觉和模式识别(CVPR)会议记录;第6517–6525页。[谷歌学者]
  17. 雷德蒙,J。;Farhadi,A.YOLOv3:增量改进。arXiv公司 2018,arXiv:1804.02767。[谷歌学者]
  18. 刘伟。;安格洛夫,D。;Erhan,D。;塞格迪,C。;里德,S。;Fu,C.Y。;Berg,A.C.SSD:单发多盒探测器。2016年10月11日至14日,荷兰阿姆斯特丹,欧洲计算机视觉会议(ECCV)会议记录;第21-37页。[谷歌学者]
  19. 林,T.Y。;戈亚尔,P。;吉尔希克,R。;He,K。;Dollar,P.密集目标探测的焦点损失。2017年IEEE国际计算机视觉会议(ICCV)会议记录,意大利威尼斯,2017年10月22日至29日;第2999–3007页。[谷歌学者]
  20. 丁,J。;薛,N。;Long,Y。;夏,G.S。;Lu,Q.用于航空图像中定向对象检测的学习RoI变换器。2019年IEEE/CVF计算机视觉和模式识别(CVPR)会议记录,2019年6月16日至20日,美国加利福尼亚州长滩;第2844–2853页。[谷歌学者]
  21. Q.Ming。;苗,L。;Zhou,Z。;宋,J。;Yang,X.航空图像中面向目标检测的稀疏标签分配。远程传感器。 2021,13, 2664. [谷歌学者] [交叉参考]
  22. Xu,Y。;Fu,M。;王,Q。;Wang,Y。;Chen,K。;夏,G.S。;Bai,X.用于多方向目标检测的水平边界框上的滑动顶点。IEEE传输。模式分析。机器。智力。 2021,43, 1452–1459. [谷歌学者] [交叉参考] [绿色版本]
  23. 马,J。;邵伟(Shao,W.)。;Ye,H。;Wang,L。;Wang,H。;郑毅。;Xue,X.基于旋转方案的任意方向场景文本检测。IEEE传输。多媒体 2018,20, 3111–3122. [谷歌学者] [交叉参考] [绿色版本]
  24. 法律,H。;Deng,J.CornerNet:将物体检测为成对的关键点。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议(ECCV)会议记录;第734-750页。[谷歌学者]
  25. 周,X。;卓,J。;Krahenbuhl,P.通过极值点和中心点分组的自底向上目标检测。2019年IEEE/CVF计算机视觉和模式识别(CVPR)会议记录,2019年6月16日至20日,美国加利福尼亚州长滩;第850-859页。[谷歌学者]
  26. 周,X。;王,D。;Krähenbühl,P.对象作为点。arXiv公司 2019,arXiv:1904.07850。[谷歌学者]
  27. 潘,X。;任,Y。;Sheng,K。;Dong,W。;袁,H。;郭,X。;马,C。;Xu,C.面向密集封装目标检测的动态优化网络。2020年IEEE/CVF计算机视觉和模式识别(CVPR)会议记录,美国华盛顿州西雅图,2020年6月14日至19日;第11204-11213页。[谷歌学者]
  28. 黄,Z。;王,X。;Huang,L.等人。;黄,C。;魏毅。;Liu,W.CCNet:语义分割的交叉注意危机。2019年IEEE/CVF国际计算机视觉会议(ICCV)会议记录,2019年10月20日至26日,韩国首尔;第603-612页。[谷歌学者]
  29. Han,J。;丁,J。;李,J。;Xia,G.S.对齐深层特征以进行定向对象检测。IEEE传输。地质科学。远程传感器。2021,认可的. [交叉参考]
  30. 夏,G.S。;Bai,X。;丁,J。;朱,Z。;Belongie,S。;罗,J。;达特库,M。;佩利略,M。;Zhang,L.DOTA:航空图像中目标检测的大尺度数据集。2018年6月18日至22日在美国犹他州盐湖城举行的2018 IEEE/CVF计算机视觉和模式识别(CVPR)会议记录;第3974-3983页。[谷歌学者]
  31. Cheng,G。;Wang,J。;李凯。;谢,X。;Lang,C。;姚,Y。;Han,J.面向对象检测的无锚点建议生成器。arXiv公司 2021,arXiv:2110.01931。[谷歌学者]
  32. 杨,Z。;刘,S。;胡,H。;Wang,L。;Lin,S.RepPoints:用于对象检测的点集表示法。2019年IEEE/CVF国际计算机视觉会议(ICCV)会议记录,2019年10月20日至26日,韩国首尔;第9656–9665页。[谷歌学者]
  33. 田,Z。;沈,C。;陈,H。;He,T.FCOS:完全卷积一阶段目标检测。2019年IEEE/CVF国际计算机视觉会议(ICCV)会议记录,2019年10月20日至26日,韩国首尔;第9626–9635页。[谷歌学者]
  34. Kong,T。;Sun,F。;刘,H。;姜瑜。;李,L。;Shi,J.FoveaBox:基于Beyond锚点的对象检测。IEEE传输。图像处理。 2020,29, 7389–7398. [谷歌学者] [交叉参考]
  35. 叶,X。;熊,F。;Lu,J。;周,J。;钱,Y。3-Net:光学遥感图像中目标检测的特征融合和过滤网络。远程传感器。 2020,12, 4027. [谷歌学者] [交叉参考]
  36. 郑毅。;Sun,P。;Zhou,Z。;徐伟(Xu,W.)。;Ren,Q.ADT-Det:卫星光学图像中用于任意方向目标检测的自适应动态细化单级变压器检测器。远程传感器。 2021,13, 2623. [谷歌学者] [交叉参考]
  37. 杨,X。;严J.C。;Feng,Z.M。;Hen,T.R3Det:具有旋转物体特征优化的改进型单级探测器。2021年2月2日至9日,美国加利福尼亚州帕洛阿尔托,AAAI人工智能会议记录。[谷歌学者]
  38. Wang,J。;丁,J。;郭,H。;Cheng,W。;潘·T。;Yang,W.Mask OBB:一种基于语义注意的面向掩码的边界框表示法,用于航空图像中的多类别目标检测。远程传感器。 2019,11, 2930. [谷歌学者] [交叉参考] [绿色版本]
  39. Wang,J。;杨伟(Yang,W.)。;H.C.李。;张,H。;Xia,G.S.学习中心探测航空图像中物体的概率图。IEEE传输。地质科学。远程传感器。 2021,59, 4307–4323. [谷歌学者] [交叉参考]
  40. Shi,F。;张,T。;Zhang,T.定向-通过无锚目标检测方法在航空图像中检测车辆。IEEE传输。地质科学。远程传感器。 2021,59, 5221–5233. [谷歌学者] [交叉参考]
  41. 肖,Z。;钱,L。;邵伟(Shao,W.)。;Tan,X。;Wang,K.航空图像中定向物体检测的轴学习。远程传感器。 2020,12, 908. [谷歌学者] [交叉参考] [绿色版本]
  42. 郭,Z。;刘,C。;张,X。;焦,J。;纪,X。;Ye,Q.超越边界盒:面向密集封装目标检测的凸包特征自适应。2021年6月19日至25日在美国田纳西州纳什维尔举行的2021年IEEE/CVF计算机视觉和模式识别会议记录;第8788–8797页。[谷歌学者]
  43. 王,Q。;何,X。;Li,X.高光谱图像分类的位置和结构正则化低秩表示。IEEE传输。地质科学。远程传感器。 2019,57, 911–923. [谷歌学者] [交叉参考] [绿色版本]
  44. 王,Q。;刘,S。;查努索,J。;Li,X.VHR遥感图像的重复注意场景分类。IEEE传输。地质科学。远程传感器。 2019,57, 1155–1167. [谷歌学者] [交叉参考]
  45. 李,M。;Lei,L。;Tang,Y。;孙,Y。;Kuang,G.遥感图像场景分类的注意力引导多层特征聚合网络。远程传感器。 2021,13, 3113. [谷歌学者] [交叉参考]
  46. Chong,Y。;陈,X。;Pan,S.超高分辨率遥感图像中小尺度对象语义分割的上下文联合边缘网络。IEEE地质科学。遥感快报。 2020,19, 6000305. [谷歌学者] [交叉参考]
  47. 徐,Z。;张伟。;张,T。;Li,J.HRCNet:遥感图像语义分割的高分辨率上下文提取网络。远程传感器。 2020,13, 71. [谷歌学者] [交叉参考]
  48. 张,G。;卢,S。;Zhang,W.CAD-Net:遥感图像中物体的上下文检测网络。IEEE传输。地质科学。远程传感器。 2019,57, 10015–10024. [谷歌学者] [交叉参考] [绿色版本]
  49. Wu,Y。;张凯。;Wang,J。;Wang,Y。;王,Q。;Li,Q.CDD-Net:用于多类对象检测的上下文驱动检测网络。IEEE地质科学。遥感快报。 2020,19, 8004905. [谷歌学者] [交叉参考]
  50. 张凯。;曾强。;Yu,X.ROSD:用于航空图像中目标检测的精细定向分级检测器。IEEE接入 2021,9, 66560–66569. [谷歌学者] [交叉参考]
  51. Q.Ming。;苗,L。;Zhou,Z。;Dong,Y.CFC-Net:遥感图像中任意方向目标检测的关键特征捕获网络。IEEE传输。地质科学。远程传感器。 2021,60, 5605814. [谷歌学者] [交叉参考]
  52. 刘,S。;张,L。;卢,H。;He,Y.遥感图像中面向对象检测的中心边界双重注意。IEEE传输。地质科学。远程传感器。 2021,60, 5603914. [谷歌学者] [交叉参考]
  53. 李,Y。;黄,Q。;裴,X。;Jiao,L。;Shang,R.RADet:遥感图像任意方向目标检测的细化特征金字塔网络和多层注意网络。远程传感器。 2020,12, 389. [谷歌学者] [交叉参考] [绿色版本]
  54. 杨,X。;杨,J。;严,J。;Zhang,Y。;张,T。;Guo,Z。;太阳,X。;Fu,K.SCRDet:对小的、杂乱的和旋转的物体进行更稳健的检测。2019年IEEE/CVF国际计算机视觉会议(ICCV)会议记录,2019年10月20日至26日,韩国首尔;第8231–8240页。[谷歌学者]
  55. 杨,X。;Yan,J.用圆形平滑标签检测任意方向的物体。《欧洲计算机视觉会议论文集》,虚拟版,2020年8月23日至28日;第677-694页。[谷歌学者]
  56. 魏,H。;Zhang,Y。;Chang,Z。;李,H。;Wang,H。;Sun,X。将对象作为一对中线。ISPRS J.摄影。远程传感器。 2020,169, 268–279. [谷歌学者] [交叉参考]
  57. 卢,J。;李·T。;马,J。;李,Z。;Jia,H.SAR:单级无锚旋转物体检测。IEEE接入 2020,8, 205902–205912. [谷歌学者] [交叉参考]
  58. 吴琼。;Xiang,W。;唐·R。;Zhu,J.面向对象检测中回归不确定性的边界框投影。IEEE接入 2021,9, 58768–58779. [谷歌学者] [交叉参考]
  59. Yi,J。;吴,P。;刘,B。;黄,Q。;Qu,H。;使用方框边界软件矢量在航空图像中进行Metaxas,D.定向目标检测。《2021年IEEE计算机视觉应用冬季会议(WACV)会议记录》,美国HI威科洛,2021年1月5日至9日;第2149–2158页。[谷歌学者]
  60. 谢,E。;Sun,P。;宋,X。;Wang,W。;刘,X。;Liang博士。;沈,C。;Luo,P.PolarMask:使用极坐标表示的单镜头实例分割。2020年IEEE/CVF计算机视觉和模式识别(CVPR)会议记录,美国华盛顿州西雅图,2020年6月14日至19日;第12190–12199页。[谷歌学者]
  61. 赵,P。;曲,Z。;Bu,Y。;Tan,W。;Guan,Q.PolarDet:一种用于航空图像中旋转目标的快速、更精确的探测器。《国际遥感杂志》。 2021,42, 5831–5861. [谷歌学者] [交叉参考]
  62. 周,L。;魏,H。;李,H。;赵伟。;Zhang,Y。;Zhang,Y.基于极坐标的遥感图像任意方向目标检测。IEEE接入 2020,8, 223373–223384. [谷歌学者] [交叉参考]
  63. Q.Ming。;Zhou,Z。;苗,L。;张,H。;Li,L.用于任意方向目标检测的动态锚学习。2021年2月2日至9日,美国加利福尼亚州帕洛阿尔托,AAAI人工智能会议记录。[谷歌学者]
  64. 钱,W。;杨,X。;彭,S。;严,J。;Guo,Y.学习旋转物体检测的调制损失。2021年2月2日至9日,美国加利福尼亚州帕洛阿尔托,AAAI人工智能会议记录。[谷歌学者]
  65. 钟,B。;Ao,K.定向物体的单级旋转解耦检测器。远程传感器。 2020,12, 3262. [谷歌学者] [交叉参考]
  66. Fu,K。;Chang,Z。;Zhang,Y。;徐,G。;张凯。;Sun,X.遥感图像中目标检测的旋转软件和多尺度卷积神经网络。ISPRS J.摄影。远程传感器。 2020,161, 294–308. [谷歌学者] [交叉参考]
  67. Zhu,Y。;杜,J。;Wu,X.自适应周期嵌入在航空图像中表示定向对象。IEEE传输。地质科学。远程传感器。 2020,58, 7247–7257. [谷歌学者] [交叉参考] [绿色版本]
  68. Han,J。;丁,J。;薛,N。;Xia,G.S.ReDet:一种用于空中物体探测的旋转等变探测器。2021年6月19日至25日在美国田纳西州纳什维尔举行的2021年IEEE/CVF计算机视觉和模式识别会议记录;第2785–2794页。[谷歌学者]
  69. 宋,Q。;杨,F。;Yang,L。;刘,C。;胡,M。;Xia,L.学习用于遥感图像检测的点引导定位。IEEE J.选择。顶部。申请。地球目标遥感。 2021,14, 1084–1094. [谷歌学者] [交叉参考]
  70. 徐,C。;李,C。;崔,Z。;张,T。;Yang,J.遥感图像中目标检测的层次语义传播。IEEE传输。地质科学。远程传感器。 2020,58, 4353–4364. [谷歌学者] [交叉参考]
图1。基于锚的探测器的缺点。蓝色矩形表示地面实况,橙色矩形表示锚定框。()水平锚点包含大量地面像素和其他对象。(b条)RRPN经常放置太多定向锚,以确保较高的召回率。
图1。基于锚的探测器的缺点。蓝色矩形表示地面实况,橙色矩形表示锚定框。()水平锚点包含大量地面像素和其他对象。(b条)RRPN经常放置太多定向锚,以确保较高的召回率。
远程调校14 01246 g001
图2。基于关键点的无锚点目标检测器的外观模糊问题。()对象的中心区域与背景相似。(b条)一些不同类别的对象共享相同的中心部分。
图2。基于关键点的无锚点目标检测器的外观模糊问题。()对象的中心区域与背景相似。(b条)一些不同类别的对象共享相同的中心部分。
远程定位14 01246 g002
图3。建议方法的总体架构。有四个模块:主干、Criss-Cross Attention FPN、无主持人定向RPN和定向RCNN头。
图3。建议方法的总体架构。有四个模块:主干、Criss-Cross Attention FPN、无主持人定向RPN和定向RCNN头。
遥感14 01246 g003
图4。拟议AFO-RPN的详细信息。
图4。拟议AFO-RPN的详细信息。
远程定位14 01246 g004
图5。建议的OBB极坐标表示。
图5。OBB的拟议极坐标表示法。
远程定位14 01246 g005
图6。RoI功能提取器模块的详细信息。
图6。RoI功能提取器模块的详细信息。
远程定位14 01246 g006
图7。DOTA数据集测试集上的检测结果描述。我们使用不同颜色的边界框来表示不同的类别。
图7。DOTA数据集测试集上的检测结果描述。我们使用不同颜色的边界框来表示不同的类别。
远程定位14 01246 g007
图8。DIOR-R数据集测试集上的检测结果描述。我们使用不同颜色的边界框来表示不同的类别。
图8。DIOR-R数据集测试集上的检测结果描述。我们使用不同颜色的边界框来表示不同的类别。
远程定位14 01246 g008
图9。HRSC2016数据集测试集的检测结果描述。
图9。HRSC2016数据集测试集的检测结果描述。
远程定位14 01246 g009
图10。DOTA数据集测试集上的检测结果描述。()基线[20]. (b条)建议的方法。
图10。DOTA数据集测试集上的检测结果描述。()基线[20]. (b条)建议的方法。
远程定位14 01246 g010
表1。与DOTA数据集测试集上最新方法的比较。*意味着多尺度的训练和测试。粗体表示最佳检测结果。
表1。与DOTA数据集测试集上最新方法的比较。*指多尺度训练和测试。粗体表示最佳检测结果。
方法骨干损益BD公司巴西GTF公司SV公司低压上海总费用不列颠哥伦比亚省装货单SBF公司无线电高度表服务提供商HC公司百万AP(%)
一个阶段
DAL公司[63]ResNet网络10188.6179.6946.2770.3765.8976.1078.5390.8479.9878.4158.7162.0269.2371.3260.6571.78
项目BB-R[58]ResNet网络10188.9679.3253.9870.2160.6776.2089.7190.2278.9476.8260.4963.6273.1271.4361.9673.03
RSDet公司[64]ResNet资源网15290.283.553.670.164.679.467.39188.382.564.168.762.869.566.973.5
氟氯化碳净值[51]ResNet 50公司89.0880.4152.4170.0276.2878.1187.2190.8984.4785.6460.5161.5267.8268.0250.0973.50
R(右) Det公司[37]ResNet网络10188.7683.0950.9167.2776.2380.3986.7290.7884.6883.2461.9861.3566.9170.6353.9473.79
服务水平协议[21]ResNet 50公司85.2383.7848.8971.6576.4376.8086.8390.6288.1786.8849.6766.1375.3472.1164.8874.89
RDD公司[65]ResNet网络10189.7084.3346.3568.6273.8973.1986.9290.4186.4684.3064.2264.9573.5572.5973.3175.52
两阶段
财务报告-O[30]ResNet网络10179.4277.1317.764.0535.338.0237.1689.4169.6459.2850.352.9147.8947.446.354.13
注册退休人员[23]ResNet网络10188.5271.2031.6659.3051.8556.1957.2590.8172.8467.3856.6952.8453.0851.9453.5861.01
金融流量账户[66]ResNet网络10181.3674.3047.7070.3264.8967.8269.9890.7679.0678.2053.6462.9067.0264.1750.2368.16
RADet公司[53]ResNeXt 101公司79.4576.9948.0565.8365.4674.4068.8689.7078.1474.9749.9264.6366.1471.5862.1669.09
RoI变压器[20]ResNet网络10188.6478.5243.4475.9268.8173.6883.5990.7477.2781.4658.3953.5462.8358.9347.6769.56
CAD-网络[48]资源网10187.882.449.473.571.163.576.790.979.273.348.460.9626762.269.9
SCR-设置[54]ResNet网络10189.9880.6552.0968.3668.3660.3272.4190.8587.9486.8665.0266.6866.2568.2465.2172.64
ROSD公司[50]ResNet网络10188.8882.1352.8569.7678.2177.3287.0890.8686.4082.6656.7365.1574.4368.2463.1874.92
滑动顶点[22]ResNet网络10189.648552.2677.3473.0173.1486.8290.7479.0286.8159.5570.9172.9470.8657.3275.02
合成孔径雷达[57]ResNet网络10189.6779.7854.1768.2971.7077.9084.6390.9188.2287.0760.4966.9575.1370.0164.2975.28
面具-OBB[38]ResNeXt 101公司89.5685.9554.2172.9076.5274.1685.6389.8583.8186.4854.8969.6473.9469.0663.3275.33
APE公司[67]ResNet 50公司89.9683.6253.4276.0374.0177.1679.4590.8387.1584.5167.7260.3374.6171.8465.5575.75
中心地图-网络[39]ResNet网络10189.8384.4154.6070.2577.6678.3287.1990.6684.8985.2756.4669.2374.1371.5666.0676.03
CSL公司[55]ResNet资源网15290.2585.5354.6475.3170.4473.5177.6290.8486.1586.6969.6068.0473.8371.1068.9376.17
ReDet公司[68]ResNet 50公司88.7982.6453.977478.1384.0688.0490.8987.7885.7561.7660.3975.9668.0763.5976.25
OPLD公司[69]ResNet网络10189.3785.8254.1079.587575.1386.9290.8886.4286.6262.4668.4173.9868.1163.6976.43
热休克蛋白[70]ResNet网络10190.3986.2356.1280.5977.5273.2683.7890.8087.1985.6769.0872.0276.9872.5067.9678.01
无锚点
中心网-O[26]沙漏10489.0269.7137.6263.4265.2363.7477.2890.5179.2477.9344.8354.6455.9361.1145.7165.04
Axis学习[41]ResNet网络10179.5377.1538.5961.1567.5370.4976.3089.6679.0783.5347.2761.0156.2866.0636.0565.98
P-RSDet公司[62]ResNet网络10188.5877.8450.4469.2971.1075.7978.6690.8880.1081.7157.9263.0366.3069.7063.1372.30
BBA矢量[59]ResNet网络10188.3579.9650.6962.1878.4378.9887.9490.8583.5884.3554.1360.2465.2264.2855.7072.32
O(运行) 2 -Det公司[56]沙漏10489.383.350.172.171.175.678.790.979.982.960.26064.668.965.772.8
PolarDet公司[61]ResNet 50公司89.7387.0545.3063.3278.4476.6587.1390.7980.5885.8960.9767.9468.2074.6368.6775.02
AOPG公司[31]ResNet网络10189.1482.7451.8769.2877.6582.4288.0890.8986.2685.1360.6066.3074.0567.7658.7775.39
CBD网络[52]国防后勤局3489.1785.9250.2865.0277.7282.3287.8990.4886.4785.9066.8566.4867.4171.3362.8975.74
CFA公司[42]ResNet资源网15289.0883.2054.3766.8781.2380.9687.1790.2184.3286.0952.3469.9475.5280.7667.9676.67
建议的方法ResNet网络10189.2384.5052.9076.9378.5176.9387.4090.8987.4284.6664.4063.9775.0173.3962.3776.57
建议的方法*ResNet网络10190.2084.9461.0479.6679.7384.3788.7890.8886.1687.6671.8570.4081.3779.7173.5180.68
表2。在DIOR-R数据集测试集上与最新方法进行比较。粗体表示最佳检测结果。
表2。在DIOR-R数据集测试集上与最新方法进行比较。粗体表示最佳检测结果。
方法骨干APL公司APO公司高炉不列颠哥伦比亚省巴西中国大坝电动滑行系统欧洲航天局GF公司全球贸易基金操作上海STA公司STO公司总费用TS公司WM公司最大允许偏差
RetinaNet-O公司[19]ResNet网络10164.2021.9773.9986.7617.5772.6272.3647.2222.0877.9076.6036.6130.9474.9763.3549.2183.4444.9337.5364.1855.92
财务报告-O[30]ResNet网络10161.3314.7371.4786.4619.8672.2459.7855.9819.7277.0881.4739.2133.3078.7870.0561.8581.3153.4439.9064.8157.14
滑动顶点[22]ResNet网络10161.5836.0271.6186.8733.4872.3772.8564.6225.7876.0381.8142.4147.2580.5769.6361.9886.7458.2041.8764.4861.81
AOPG公司[31]ResNet 50公司62.3937.7971.6287.6340.9072.4731.0865.4277.9973.2081.9442.3254.4581.1772.6971.3181.4960.0452.3869.9964.41
RoI Trans公司[20]ResNet网络10161.5445.4671.9087.4841.4372.6778.6767.1738.2681.8383.4048.9455.6181.1875.0662.6388.3663.0947.8066.1065.93
建议的方法ResNet 50公司68.2638.3477.3588.1040.6872.4878.9062.5230.6473.5181.3245.5155.7888.7471.2471.1288.6059.7452.9570.3065.80
建议的方法资源网10161.6547.5877.5988.3940.9872.5581.9063.7638.1779.4981.8245.3954.9488.6773.4875.7587.6961.6952.436967.15
表3。在HRSC2016数据集测试集上与其他方法的比较。粗体表示最佳检测结果。
表3。在HRSC2016数据集测试集上与其他方法的比较。粗体表示最佳检测结果。
方法骨干图像大小最大允许偏差
Axis学习[41]资源网101800 × 80078.15
服务水平协议[21]ResNet 50公司768 × 76887.14
合成孔径雷达[57]ResNet网络101896 × 89688.11
滑动顶点[22]ResNet网络101-88.2
OPLD公司[69]ResNet 50公司1024 × 133388.44
BBA矢量[59]ResNet网络101608 × 60888.6
DAL公司[63]ResNet网络101800 × 80088.6
项目BB-R[58]ResNet网络101800 × 80089.41
CSL公司[55]ResNet资源网152-89.62
CFC-净[51]ResNet网络101800 × 80089.7
ROSD公司[50]ResNet网络1011000 × 80090.08
PolarDet公司[61]资源网50800 × 80090.13
AOPG公司[31]ResNet网络101800 × 133390.34
ReDet公司[68]ResNet 50公司800 × 51290.46
CBD网络[52]国防后勤局34512 × 51290.5
建议的方法ResNet 50公司800 × 133389.96
建议的方法ResNet网络101800 × 133390.45
表4。DOTA数据集测试集上拟议模块的烧蚀研究。
表4。DOTA数据集测试集上拟议模块的烧蚀研究。
方法CCA-FPN公司AFO-RPN公司损益BD公司巴西全球贸易基金SV公司低压上海总费用不列颠哥伦比亚省装货单SBF公司无线电高度表服务提供商HC公司百万AP(%)
基线[20]--88.6478.5243.4475.9268.8173.6883.5990.7477.2781.4658.3953.5462.8358.9347.6769.56
建议的方法🗸-88.5981.6052.2768.1978.0273.6986.6490.7482.9785.1256.3165.3869.6668.5056.7573.63 (+4.07)
-🗸88.8884.0652.1369.5570.9676.5979.5290.8787.2386.1956.1465.3566.9672.0864.2074.05 (+4.49)
🗸🗸89.2384.5052.9076.9378.5176.9387.4090.8987.4284.6664.4063.9775.0173.3962.3776.57 (+7.01 )
表5。评估结果的参数和计算复杂性。
表5。评估结果的参数和计算复杂性。
方法CCA-FPN公司AFO-RPN公司参数(M)浮动(G)
基线[20]--55.13148.38
建议的方法-🗸41.73134.38
🗸🗸65.66376.99
表6。OBB极性表示方法的烧蚀研究。
表6。提出的OBB极坐标表示方法的消融研究。
笛卡尔体系极坐标系DOTA mAP(%)DIOR-R mAP(%)2016年人力资本充足率(%)
x个 , , w个 , 小时 , θ -73.8464.8188.12
x个 1 , 1 , x个 2 , 2 , x个 , , x个 4 , 4 -72.5863.4884.84
- x个 , , ρ , γ , φ 76.5767.1590.45
出版商备注:MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

李,J。;田,Y。;Xu,Y。;Zhang。基于无锚点区域建议网络的遥感图像目标检测。远程传感器。 2022,14, 1246.https://doi.org/10.3390/rs14051246

AMA风格

李杰,田毅,徐毅,张志。基于无锚点区域建议网络的遥感图像目标检测。遥感. 2022; 14(5):1246.https://doi.org/10.3390/rs14051246

芝加哥/图拉宾风格

李建祥、严天、徐一平和张紫丽。2022.“利用无锚定向区域建议网络在遥感图像中进行定向目标检测”遥感14、5号:1246。https://doi.org/10.3390/rs14051246

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章度量标准

返回页首顶部