GIC-FAFNet:一种用于遥感目标检测的全球-局部信息协调与特征对齐融合网络

【字体: 时间:2026年02月13日 来源:Pattern Recognition 7.6

编辑推荐:

  针对遥感图像中微小目标和多尺度检测的挑战,本文提出GIC-FAFNet,通过多级特征聚合、特征对齐金字塔和细节提取模块,有效整合全局与局部信息,提升小目标表征和定位精度,实验验证优于现有方法。

  
唐英刚|赵子腾|徐全胜

摘要

在遥感图像(RSIs)中检测小型和多尺度物体仍然是一项具有挑战性的任务,这主要是由于小型目标的特征表示有限,以及不同尺度间空间信息利用不足。为了解决这些问题,我们提出了一种新的全局-局部信息协调与特征对齐融合网络(GIC-FAFNet)。首先,我们提出了一个多层特征信息聚合模块(MFIAM),该模块整合了局部和全局的上下文线索,丰富了小型目标的特征表示,并部分缓解了深度网络中重复下采样导致的特征减弱或丢失问题。其次,我们引入了一个特征对齐金字塔网络(FAPN),该网络有效地结合了精确的空间细节和高级语义信息,提高了多尺度物体的定位精度。此外,还开发了一个细节提取模块(DEM),以适应性地增强不同尺度和形状的物体特征。在四个公共遥感数据集上的广泛实验表明,所提出的方法比现有的最先进方法表现更优。代码可在此处获取:https://github.com/woshio/GIC-FAFNet

引言

遥感技术通过安装在飞机或航天器上的传感器获取了大量地面物体信息。作为分析此类数据的重要技术,遥感目标检测(RSOD)专注于在遥感图像(RSIs)中识别和定位特定目标。它在许多应用中发挥着关键作用,包括城市规划、环境监测、自然资源管理和军事侦察。然而,在许多情况下,遥感传感器从高空平台运行,导致图像中的物体显得非常小。此外,平台高度和成像角度的变化往往会导致物体之间的尺度差异显著。此外,复杂的背景杂乱常常掩盖了目标特征,使得区分物体与其周围环境变得困难。这些挑战,即小型物体尺寸、多尺度外观和背景干扰,给准确和稳健的RSOD带来了相当大的难度(如图1所示)。
近年来,虽然像YOLO [1] 和Faster R-CNN [2] 这样的目标检测器在自然图像中表现优异,但当面对小型物体普遍存在、分布密集以及尺度变化显著等特定领域的挑战时,它们直接应用于RSOD时往往会产生次优结果。因此,开发了一系列专门的RSOD方法。例如,REPan [3] 模型考虑了复合物体的部分-上下文关系,而FPSOD [4] 通过特征过滤来抑制小型物体的背景噪声。COCODET [5] 提高了密集分布目标的检测能力,CFINet [6] 通过特征模仿改善了小型物体的表示。进一步的创新包括SCDNet [7] 中的场景上下文解耦(用于密集场景)和SemDiff [8] 中的定向物体语义区分。
尽管取得了这些进展,但对现有方法的分析表明,它们难以同时解决两个相互关联的挑战:为小型物体捕捉全面的全局上下文,以及充分利用精确的位置线索进行多尺度定位。如表1系统总结的那样,大多数方法只在一个方面表现出色,或者两者都利用不足。例如,虽然SCDNet [7] 包含了全局场景上下文,但它缺乏保持细粒度空间细节的机制。相反,COCODET [5] 利用了位置信息,但未能有效整合更广泛的上下文语义。即使是像REPan [3] 这样的方法,其中P-RPN利用了浅层特征,也发现这些位置线索在融合过程中的精度会减弱。这一分析突显了一个明确的研究空白:缺乏一种能够在保持跨尺度精确空间对齐的同时有效协调全局-局部信息的统一解决方案。
基于上述关键分析,我们现在提出我们的解决方案。全局上下文和精确位置信息的利用不足是RSOD中挑战的核心,特别是对于小型和多尺度物体而言。对于小型物体,有限的像素区域使得它们很难与杂乱的背景或噪声区分开来。在这里,全局上下文信息变得至关重要。小型目标通常与周围环境有强烈的语义关联(例如,船只通常在水中或港口,车辆位于道路或停车场)。利用这种场景级语义可以让模型缩小可能的区域,并在复杂背景中抑制误报,有效地弥补了内在视觉特征的缺乏。相反,对于多尺度物体检测,保持来自浅层网络的精确空间线索至关重要。虽然深层特征在语义上很丰富,但由于连续的下采样,它们的空间分辨率较低,导致定位边界粗糙。这对于尺寸变化较大的物体尤其不利。将早期网络阶段的高分辨率、空间精确的特征与语义强但粗糙的深层特征相结合,可以确保所有尺度的物体都能被准确定位。
因此,一种结合全局上下文进行识别和浅层空间细节进行定位的统一方法是必不可少的。为此,我们提出了一种新的全局-局部信息协调与特征对齐融合网络(GIC-FAFNet),旨在增强小型物体的特征表示并实现精确的多尺度定位。在这个统一框架中,我们引入了三个核心组件。首先,多层特征信息聚合模块(MFIAM)捕获广泛的上下文线索以丰富小型目标特征。在此基础上,FAPN 对齐并融合高分辨率的浅层特征与语义丰富的深层特征,提高了多尺度物体的定位精度。最后,细节提取模块(DEM)利用可变形卷积和注意力机制来适应性地强调不同形状和尺度物体的独特特征。
本工作的主要贡献总结如下:
  • 1)
    我们提出了一个MFIAM,通过将多尺度局部特征与全局上下文信息聚合,实现了小型物体的全面特征表示,有效解决了特征表示不足的问题。
  • 2)
    设计了一个FAPN,用于对齐和融合浅层空间线索与深层语义信息,显著提高了RSIs中多尺度物体的定位精度。
  • 3)
    我们引入了一个DEM,它利用可变形卷积和注意力机制来自适应性地提取不同形状和尺度物体的区分性特征。
  • 4)
    在四个公共数据集上的广泛实验表明,所提出的GIC-FAFNet的性能优于现有的最先进方法,实现了更优的检测性能。
本文的其余部分组织如下:第2节讨论相关工作;第3节全面介绍所提出的方法;第4节展示和分析实验结果;第5节提供结论性意见。

相关工作

相关工作

本节回顾了与本工作相关的两个关键技术基础:用于全局上下文建模的状态空间模型和用于遥感中多尺度物体检测的特征融合方法。

方法

所提出的GIC-FAFNet架构包括三个关键组件:多层特征信息聚合主干(MFIAB)、特征对齐金字塔网络(FAPN)和标准解耦头。细节提取模块(DEM)集成在FAPN中。整体结构如图2所示。以下小节详细介绍了MFIAB、FAPN和DEM。

数据集

  • 1)
    DIOR数据集 [25]:DIOR是最大的大规模RSOD数据集之一,对准确和完整的物体检测提出了重大挑战。它包含23,463张光学遥感图像,涵盖20个物体类别,共有190,288个实例。类别包括:飞机(AL)、机场(AT)、棒球场(BF)、篮球场(BC)、桥梁(B)、烟囱(C)、大坝(D)、高速公路服务区(ESA)、高速公路收费站(ETS)、港口(HB)、高尔夫球场(GC)等。

结论

本文提出了GIC-FAFNet,这是一种针对RSOD设计的一阶段检测器,有效解决了在RSIs中检测小型和多尺度物体的挑战。所提出的框架包括三个关键组件:MFIAB、FAPN和DEM。MFIAB全面聚合了全局和局部特征,实现了稳健的物体表示。FAPN通过有效整合空间和语义信息,提高了小型和多尺度物体的定位精度。

局限性

尽管GIC-FAFNet在多个基准数据集上展示了出色的检测性能和强大的泛化能力,但仍存在两个值得注意的潜在局限性,这也指出了我们未来的研究方向:
  • 计算成本增加:与基线相比,GIC-FAFNet的复杂性更高,推理速度更慢,主要是由于可变形卷积的存在。这可能会阻碍其在对延迟敏感、资源受限的平台上的部署。
  • 硬件限制
  • 未引用的参考文献

    图12,图13

    CRediT作者贡献声明

    唐英刚:写作 – 审稿与编辑,监督。赵子腾:概念化,写作 – 原始草稿,软件。徐全胜:数据管理,形式分析。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作部分得到了河北省创新能力提升计划项目(22567619H)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号