基于多尺度自注意力聚合与坐标注意力增强的遥感图像小目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Array》：Small Target Detection in Remote Sensing Images Based on Multi-scale Self-Attention Aggregation and Coordinate Attention Enhancement

【字体：大中小】 时间：2026年02月23日 来源：Array 4.5

编辑推荐：

　　为解决遥感图像中小目标因网络池化导致纹理与边缘退化，且受尺度多变与任意方向干扰的问题，本文提出将SuperYOLO中原有的像素级对称多模态融合模块替换为多尺度自注意力聚合模块以优化通道权重、增强关键特征，并将坐标注意力融入CSP模块以强化空间坐标编码、提高复杂背景下的空间辨别能力。实验在VEDAI、AI-TOD和DOTA数据集上验证了该方法的有效性，在VEDAI上达到78.9%的mAP50，较SuperYOLO提升3.8%。这项工作为遥感小目标检测提供了更精准的解决方案。

在广袤的天空之上，卫星和无人机日夜不停地捕捉着地面的影像，这些遥感图像中隐藏着无数重要的信息——无论是城市中穿梭的车辆、港口停泊的船只，还是农田里作业的拖拉机。然而，要从这些“上帝的视角”图片中找到这些目标，尤其是那些在图像中只占几十甚至几个像素的“小不点”，对计算机视觉来说一直是个棘手的难题。这些小目标就像隐藏在巨大拼图中的微小碎片，它们的纹理和边缘信息在网络的一次次池化操作中变得模糊，加上遥感图像中目标尺度变化大、方向任意，以及复杂背景的干扰，让精准检测变得困难重重。

现有的先进方法，例如SuperYOLO，虽然取得了一定进展，但仍存在两个关键局限：其一，它使用的像素级对称多模态融合模块，未能有效区分不同通道（如RGB可见光与红外热辐射通道）对小目标语义贡献的差异，导致关键特征与背景噪声混杂，产生特征冗余；其二，其采用的跨阶段部分网络模块在特征提取过程中缺乏显式的空间坐标编码，下采样会加剧小目标的位置偏移，且该模块的跨阶段融合只关注通道间交互，忽略了空间上下文的聚合，使得模型在相似背景下区分目标的能力不足。

为了解决这些问题，来自国内研究机构的研究人员在《Array》期刊上发表了他们的最新工作。他们并未另起炉灶，而是在SuperYOLO的框架基础上，进行了两项精准的“外科手术式”改进。首先，他们用全新的多尺度自注意力聚合模块取代了原有的多模态融合模块。这个新模块就像一个智能的调音师，能够跨多个尺度优化特征通道的权重，从而增强对小目标至关重要的特征（如车辆轮廓、热信号），同时抑制无关的背景噪声。其次，他们将坐标注意力机制融入到CSP模块中，创造了一个增强版的CACSP模块。这个机制通过特征图与空间坐标的交互，显式地编码位置信息，就像给特征图加上了经纬度网格，显著提升了模型在复杂空间背景下对小目标的定位和辨别能力。

为了验证这些改进的有效性，研究人员主要运用了以下关键技术方法：他们在PyTorch框架下实现了整个模型，并在包含RGB和红外双模态的VEDAI数据集、以及高难度小目标数据集AI-TOD和大型场景数据集DOTA上进行了系统评估。实验采用10折交叉验证，训练中应用了包括HSV调整、多尺度变换、马赛克增强等多种数据增强技术，并使用SGD优化器进行模型优化。评价指标则采用了目标检测领域标准的精确率、召回率以及平均精度均值（mAP）。

研究结果清晰地展示了改进带来的性能提升：

•
在VEDAI数据集上的综合比较：改进后的模型在VEDAI数据集上取得了78.9%的mAP₅₀，比基准模型SuperYOLO（75.1%）高出3.8%。特别地，对于“卡车”和“拖拉机”类别的检测精度提升显著，分别达到了18.9%和5.8%的增益。这得益于MSAA模块优化了卡车轮廓和热信号等关键特征的通道权重，以及CA-CSP模块缓解了下采样造成的定位偏差。
•
在多模态与单模态数据上的泛化能力：在仅使用RGB模态的VEDAI数据上，模型仍取得了74.60%的mAP₅₀，优于对比方法。在极具挑战性的AI-TOD小目标数据集上，模型以61.94%的mAP₅₀超过了FFCA-YOLO和SuperYOLO。在包含15个类别的大规模DOTA数据集上，模型同样取得了最佳的72.83%的mAP₅₀，证明了其强大的泛化性能。
•
消融实验验证模块有效性：系统的消融研究表明，单独引入MSAA模块或CACSP模块均能提升模型性能，而两者结合时产生了协同效应，取得了最佳的77.38%精确率、72.86%召回率和78.90%的mAP₅₀。这明确证实了两个新模块各自的价值及其组合的优势。
•
网络架构探索：研究人员还探索了CACSP模块在网络中不同位置的替换策略。实验发现，采用“中间优化与关键保留”的分层替换策略（Arch3）——即在特征融合后及终端输出等关键节点保留原始CSP模块，而在中间部分的CSP模块替换为CACSP——能够取得最佳性能，这为模块的改进布局提供了重要设计思路。

综上所述，这项研究通过引入多尺度自注意力聚合模块和坐标注意力增强的CSP模块，有效解决了遥感图像小目标检测中的特征冗余和定位偏差问题。研究表明，这种结合了通道权重优化与显式空间坐标编码的策略，能够显著提升模型在多种复杂遥感场景下对小目标的检测精度与鲁棒性。不仅在多模态数据上表现优异，在单模态可见光数据及多个公开基准数据集上也展现了强大的泛化能力。这项工作为遥感小目标检测提供了一种高效且可扩展的解决方案，其核心设计思想——即通过注意力机制精细调节特征并强化空间感知——对于推动遥感图像智能解译技术的发展具有积极意义。当然，研究也存在局限，例如目前主要验证了RGB和红外模态，未来可探索其在合成孔径雷达、激光雷达等多传感器数据上的适应性，并进一步扩展到更大规模的数据集和更极端的成像条件下，以增强其实用价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号