《Expert Systems with Applications》:HYOLO: A Lightweight and Efficient Detection Framework for Small Objects in Aerial Images
编辑推荐:
吴世潇|孔华峰|徐志英武汉商学院人工智能与大数据学院,中国武汉430056摘要在无人机和遥感图像中检测小对象仍然是一个持续的挑战,这主要是由于像素覆盖范围极有限、特征表示稀疏、频繁的遮挡以及复杂的背景。现有方法在小对象检测方面存在三个共同缺点:(1)传统的特征提取范式难以从杂乱的
吴世潇|孔华峰|徐志英
武汉商学院人工智能与大数据学院,中国武汉430056
摘要
在无人机和遥感图像中检测小对象仍然是一个持续的挑战,这主要是由于像素覆盖范围极有限、特征表示稀疏、频繁的遮挡以及复杂的背景。现有方法在小对象检测方面存在三个共同缺点:(1)传统的特征提取范式难以从杂乱的背景中捕获具有区分性的特征,导致关键小对象特征的丢失;(2)现有轻量级模型中的多尺度融合网络在跨层次交互和表示能力方面不足;(3)融合后的直接检测往往忽略了空间上关键的区域,大大降低了小对象的检测精度。为了解决这些问题,本文提出了HYOLO,这是一种用于复杂空中场景中高效准确检测小对象的新框架。该框架引入了三个核心创新:(1)异构多分支动态特征融合模块(MBDF),通过双注意力融合和跨阶段重用来结合互补的特征提取路径(微对象、深度可分离和方向不对称卷积);(2)递归注意力特征金字塔网络(RAFPN),通过三个级联的PANet模块和集成的注意力细化建立了一个闭环递归架构,能够在保持关键空间细节的同时迭代增强多尺度特征表示;(3)小对象多尺度注意力细化模块(MARS),采用稳定的双注意力、基于高斯的细节提取和参数控制的融合。在四个具有挑战性的空中基准测试数据集(VisDrone 2019、DIOR、UCAS-AOD、USOD)上进行的评估表明,HYOLO实现了先进的或具有高度竞争力的精度(例如,在VisDrone上的mAP50为51.1%,在UCAS-AOD上为97.9%,在USOD上为92.2%),同时仅需要9.3M参数和103.8 GFLOPs的计算资源。值得注意的是,HYOLO的参数数量比同类先进模型少2-5倍,计算成本降低了1.5-3倍。这种效率-性能的权衡使得HYOLO成为资源受限的空中应用的一个实际解决方案。
引言
光学遥感技术和无人机(UAV)技术的协同发展显著推动了小对象检测范式的进步,在交通监控、应急响应、安全监控和军事侦察等应用中展现了其关键价值(Asim, ELAffendi, El-Latif, & A. (2022); Li, Li, & Pan (2024); Ma, Lv, & Zhong (2024); Zhang (2024a))。虽然遥感系统提供了大规模观测的广泛覆盖范围,但无人机平台在移动性、成本效益和操作灵活性方面具有互补优势。然而,使用无人机进行小对象检测仍然具有挑战性:尽管无人机具有敏捷性和快速部署能力,但其搭载的传感器在飞行过程中容易受到大气湍流、平台振动和复杂背景干扰的影响。这些因素导致捕获的图像中小目标(通常小于32×32像素)的特征较弱、对比度低、信息稀疏,从而导致目标与背景的混淆程度增加,辨识度降低。此外,无人机生成的庞大图像数据量(例如WorldView-4系统每天可捕获约680,000平方公里的图像)对实时处理提出了巨大需求,而电力、载荷和空间等固有资源限制限制了计算密集型模型在嵌入式平台上的部署(Ma (2025); Xu & Wang (2025); Zhang (2019))。因此,在资源有限的计算环境中实现高精度和低参数消耗的小对象检测已成为一个重要的研究挑战,以满足现代侦察和应急响应系统的时效性要求,这一点得到了包括欧洲航天局(ESA)在内的国际机构的重视。
尽管轻量级无人机检测技术取得了显著进展,但目前的方法仍受到三个主要限制的制约:跨数据集的泛化能力不足、在基准数据集上的精度较差,以及精度与推理速度之间的权衡未能解决。例如,LCE-YOLO未在标准空中基准数据集(如VisDrone)上进行评估,IASL-YOLO仅针对其基础模型进行了验证,没有更广泛的比较分析(Chen et al. (2023); Li (2024))。更严重的是,在VisDrone2019数据集上,领先的检测方法的精度较低:MFEL-YOLO的mAP仅为44.7%(Zhang (2024b),MFFSODNet达到了45.5%(Wang (2023)),而改进版的YOLOv8的mAP50为45.4%(Qu (2025))——所有这些指标都远低于我们提出的HYOLO的51.1%。除了精度问题外,许多先进检测器在效率方面也存在不足。尽管VRF-DETR的参数量相对较少(13.5M),但其复杂性仍然高于我们的模型,并且像其他方法一样面临明显的精度-速度权衡(Liu (2022))。例如,SPAR尽管精度很高,但帧率较低;而一些模型在处理小于32像素的小对象时性能下降(mAP低于25%),并且计算成本高,限制了其在资源受限平台上的部署(Huang (2024))。相比之下,HYOLO引入了新的多分支动态融合和多尺度细化机制,在多个数据集(包括VisDrone、DIOR、USOD和UCAS-AOD)上实现了更高的精度和更强的泛化能力,同时保持了检测性能和操作效率之间的良好平衡。
除了上述挑战外,现有的检测网络通常还存在三个内在限制:(1)在严重背景杂乱的情况下,骨干架构中对小于32像素目标的特征表示不足;(2)颈部结构中的多尺度特征融合不足,单次遍历的金字塔无法保留精细的空间细节;(3)检测过程中的注意力分配不有效,导致在复杂场景中错过小对象。
为全面解决这些限制,本文提出了HYOLO——一个统一且高效的框架,该框架引入了三项相应的创新。我们的主要贡献如下:
- (1)
多分支动态特征融合模块(MBDF)
我们设计MBDF是为了克服骨干特征表示不足的问题。它用三种互补的特征提取路径(微对象、深度可分离卷积和方向不对称卷积)替换了齐次卷积,并通过双注意力融合和跨阶段重用来动态融合这些特征,从而在不增加计算开销的情况下丰富了小于32像素目标的多尺度表示。
- (2)
递归注意力特征金字塔网络(RAFPN)
为了解决多尺度融合不足的问题,我们开发了RAFPN——一个带有集成注意力细化的三级PANet模块的闭环架构。这种递归设计通过迭代增强跨尺度特征交互,保留了单次遍历金字塔丢失的关键空间细节,同时保持了效率。
- (3)
小对象多尺度注意力细化模块(MARS)
为了解决注意力分配不有效的问题,我们引入了MARS,该模块采用了稳定的双注意力、基于高斯的细节提取和参数控制的融合方式。MARS提高了检测器对稀疏小对象区域的关注度,在遮挡和低对比度情况下显著提高了识别能力。
这三个模块在HYOLO框架内共同设计并进行了优化。我们在四个具有挑战性的基准数据集上评估了我们的方法:VisDrone2019(空中场景)、USOD(遥感)、UCAS-AOD(机载目标)和DIOR(大规模光学遥感)。广泛的实验表明,HYOLO在所有四个数据集上都实现了先进的精度和计算效率。
节选内容
无人机图像的对象检测算法
目前的无人机图像检测算法主要沿着三条路径发展:计算密集型的YOLO系列、无锚点检测器和基于transform器的检测器,这些方法追求概念上的优雅性,但通常计算成本较高;以及专注于效率的专用轻量级模型,在保持精度方面效果不一。
传统YOLO系列:在计算成本下的精度。 YOLO系列(从v5到v10)通过架构改进逐步提高了检测精度
整体架构
在本研究中,FFCA-YOLO作为基线模型。我们的主要贡献是对其特征增强模块(FEM)和空间通道注意力模块(SCAM)进行了重大修改。具体来说,我们引入了多分支动态特征融合模块(MBDF)和小对象多尺度注意力细化模块(MARS),并提出了递归注意力特征金字塔网络(RAFPN)。所提出的模型在四个公开数据集上进行了严格评估,
VisDrone 2019
VisDrone 2019是一个综合性的基准数据集,用于无人机视觉任务,包括对象检测、跟踪和实例分割。该数据集提供了10个不同类别的边界框注释:行人、人员、汽车、货车、公交车、卡车、摩托车、自行车、带遮阳篷的三轮车和普通三轮车,以及相应的置信度分数。数据集包含10,209张静态图像,分为6,471个训练样本、548个验证样本和3,190个测试样本,
结论
本文介绍了HYOLO,这是一个专为航空图像分析设计的新型高效对象检测框架。我们的关键创新解决了遥感对象检测中的基本挑战,特别是在复杂背景下准确识别小对象的问题。我们工作的三个核心贡献是:
首先,我们引入了异构多分支动态特征融合模块(MBDF)。该架构结合了互补的特征提取路径
讨论
在DIOR数据集上,HYOLO在比较方法中保持了最高的mAP50。尽管其整体mAP略有下降,但这一轻微的权衡被模型显著较少的参数和GFLOPs所抵消。为了进一步研究提高DIOR性能的潜力,我们尝试通过用更强大的C2f模块替换HYOLO的原始C3模块来加强特征提取部分,同时保持MBDF(2,2,2)(即对P3、P4和P5进行两次迭代)。这
未引用的参考文献
未引用的文献 Lin, Goyal, & Girshick (2017b); Liu, Huang, & Wang (2020).
作者声明
吴世潇:概念构思、方法论、软件开发、验证、形式分析、研究、数据整理、撰写——初稿、可视化。孔华峰:概念构思、方法论、监督、项目管理、资金获取、撰写——审稿和编辑。徐志英:软件开发、验证、研究、撰写——审稿和编辑。
利益冲突声明
作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。