一种轻量级的多注意力机制与上下文融合网络，用于无人机图像中的小目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：A lightweight multi-attention and context fusion network for small object detection in UAV images

【字体：大中小】 时间：2026年03月04日 来源：Displays 3.4

编辑推荐：

　　微小物体检测在无人机图像中面临目标尺度小、背景复杂、目标密集分布等挑战，现有方法存在感受野有限、空间感知弱、特征融合僵化等问题。本文提出MACF-YOLO，在YOLOv8基础上集成多尺度感知模块（MHP）、坐标注意力增强模块（CAE）和双向注意力融合模块（BAF），通过多分支膨胀卷积扩展感受野，结合全局-局部协同注意力提升空间定位精度，并实现跨尺度动态特征融合。实验表明，MACF-YOLO在VisDrone2019和UAVDT数据集上mAP分别提升4.4%和1.4%，代码已开源。

Jian Cheng|Tiansong Li|Shaoguo Cui|Hongkui Wang|Li Yu

重庆师范大学计算机与信息科学学院，中国重庆，401331

摘要

在无人机（UAV）图像中进行小目标检测面临诸多挑战，这些挑战源于目标尺寸极小、背景复杂以及目标在空间中分布密集。现有方法通常受到诸如感受野有限、空间感知能力较弱以及特征融合不够灵活等限制，导致目标表示不充分且定位精度较差。为了解决这些问题，我们提出了MACF-YOLO，这是一种基于YOLO的高效检测器，整合了多注意力机制和上下文融合技术，包含三个核心模块：多尺度层次感知（MHP）、坐标注意力增强（CAE）和双向注意力融合模块（BAF）。MHP模块通过多分支膨胀卷积提取特征，扩展了感知范围，并促进了层次化的特征交互，既保留了细节信息，又增强了小目标的语义表示。CAE模块利用互补的池化操作捕捉坐标依赖性，从而提高了空间敏感性并抑制了背景噪声。BAF模块则通过空间注意力和通道注意力之间的协作策略，优化了多尺度特征融合，强化了不同尺度上的显著区域。在VisDrone2019和UAVDT数据集上的广泛实验表明，MACF-YOLO的表现始终优于现有的轻量级检测器：在VisDrone2019上相对于YOLOv8-M，mAP和AP50分别提升了4.4%和6.5%；在UAVDT上，mAP比YOLOv8-S高出1.4%，且所有这些提升都是在相似的计算资源消耗下实现的。源代码将公开发布在：https://github.com/ChengJianV5/MACF-YOLO

引言

随着人工智能和物联网技术的快速发展，智能无人机和遥感系统已广泛应用于智慧城市[1]、精准农业[2]、生态监测[3]和应急响应[4]等多个领域。高分辨率的无人机图像为地表变化分析、灾害评估和目标识别等关键任务提供了丰富的视觉信息支持。然而，这些图像也给自动化分析技术带来了巨大挑战，尤其是在需要满足实时性能和精度严格要求的场景中。尽管基于深度学习的端到端目标检测方法在理解多尺度场景方面取得了显著进步[5]，但在计算资源有限的条件下，如何在无人机拍摄的大规模遥感图像中实现高效准确的目标定位，从而在边缘设备上进行实时检测仍然非常困难[6]。这一挑战在检测小型、密集分布的目标时尤为突出，因为特征响应较弱且背景杂乱，即使是强大的模型也难以实现准确定位，更不用说适合边缘部署的轻量级模型了。

尽管在自然场景下的基于学习的对象检测技术取得了显著进展，但将其应用于无人机的高分辨率遥感图像仍面临诸多挑战[7]。这些图像中的目标通常体积小、数量多且分布密集，这不仅导致特征激活效果不佳，还容易因复杂或杂乱的背景而产生误报。此外，目标大小的大规模变化、视角的显著差异以及不利的环境条件（包括光照变化和部分遮挡）进一步增加了检测边界模糊或形状不规则目标的难度[8]。同时，实际部署在边缘设备上要求检测速度快且模型紧凑，这需要在实时约束下实现检测精度和计算效率之间的微妙平衡[9]。因此，如何在复杂环境中提高小型密集目标的检测鲁棒性，同时确保推理效率，仍然是一个紧迫的关键问题。

为了解决小型密集目标以及目标尺寸大规模变化带来的挑战，人们围绕现代YOLO系列等高效的单阶段检测器开发了多种结构改进和特征细化策略[10]。近期研究主要集中在增强多尺度表示和注意力驱动的特征细化上。然而，现有方法在实际无人机遥感场景中仍存在三个核心局限：（1）模型复杂性和计算开销的增加限制了它们在资源受限的边缘平台上的应用；（2）特征融合和注意力机制通常仅限于单一尺度或孤立维度，阻碍了全局上下文与局部细节的整合；（3）尽管现有注意力机制在突出显著区域方面有所改进，但在高度复杂和杂乱的无人机场景中仍存在大量漏检现象。

为了解决上述问题，我们提出了MACF-YOLO，这是一种基于YOLOv8的轻量级目标检测器，整合了多注意力和上下文融合机制，包括MHP、CAE和BAF三个专用模块。这些模块共同提升了上下文感知能力、空间精度和跨尺度特征融合效果，同时保持了计算效率。如图1所示，我们的方法在VisDrone2019基准测试中取得了领先性能，且计算成本具有竞争力。

本文的主要贡献如下：

我们提出了一种轻量级深度网络架构，实现了检测精度和计算效率之间的优异平衡，使得在基于无人机的遥感应用中能够实现实时、高精度的小目标检测。
我们设计了轻量级的MHP模块，该模块利用多尺度膨胀卷积扩展了感受野，同时丰富了深度特征层次结构中的上下文表示。
我们引入了CAE模块，该模块通过同时增强全局上下文和局部显著性线索，显著提高了在杂乱无人机场景下的空间敏感性和边界定位能力。
我们提出了BAF模块，这是一种双向交互式注意力融合机制，实现了空间注意力和通道注意力之间的动态交互，有效增强了显著区域的增强效果并抑制了背景噪声，同时保持了高效的多层次特征融合。

本文的其余部分安排如下：第2节回顾了目标检测和小目标检测的相关工作；第3节介绍了所提出的架构和关键模块的设计；第4节详细说明了实验设置、结果和比较分析；第5节总结了研究发现并为未来工作提出了建议。

小目标检测

如今，基于深度学习的端到端目标检测框架已在遥感图像分析领域得到广泛应用。它们促进了自动特征提取，显著提高了目标定位和识别的效率。其中，以YOLO（You Only Look Once）系列为代表的单阶段检测器已成为无人机遥感应用的主流技术解决方案，这得益于它们简洁的网络架构和高

方法

MACF-YOLO是一个基于YOLOv8构建的轻量级目标检测网络，专门用于无人机遥感图像中的小目标检测。如图2所示，该架构整合了三个核心组件：MHP、CAE和BAF，分别负责扩展感受野、提高空间定位能力和优化跨尺度特征融合。它们的设计将在以下小节中详细介绍。

实现细节

所有实验都在一台NVIDIA GeForce RTX 3090 GPU上进行。所提出的MACF-YOLO使用PyTorch 2.1.1实现，并采用随机梯度下降（SGD）优化器进行训练，遵循标准的YOLOv8训练协议。具体来说，我们使用初始学习率为0.01（采用余弦退火策略），动量因子为0.937，权重衰减为

5 \times 1 0^{? 4} ，批量大小为4，输入图像分辨率统一设置为640 × 640。训练过程中，模型训练了300

结论

在本文中，我们提出了MACF-YOLO，这是一种用于无人机遥感图像中小目标的轻量级且高性能的目标检测框架。通过整合三个创新模块：MHP用于多尺度上下文聚合、CAE用于定位细化、BAF用于自适应跨层级融合，我们的方法在精度和效率之间实现了有效平衡。在VisDrone2019和UAVDT上的实验表明，MACF-YOLO在mAP方面优于现有最先进检测器

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了国家自然科学基金（项目编号：62202134）的支持，部分得到了重庆市教育委员会科学技术研究计划（项目编号：KJZD-K202500510）的支持，部分得到了浙江省“先锋”和“领头雁”研发计划（项目编号：2025C0-1035和2025C01006）的支持，还部分得到了重庆师范大学人才基金项目（项目编号：21XLB031）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号