Aero-DETR：一种用于无人机图像中高精度目标检测的自适应变换器

《Digital Signal Processing》：Aero-DETR: Adaptive transformer for high-precision object detection in UAV imagery

【字体：大中小】 时间：2026年03月24日 来源：Digital Signal Processing 3

编辑推荐：

　　无人机目标检测中存在小物体和高宽比物体特征提取不足、多尺度特征融合不一致及上采样失真等问题。本文提出Aero-DETR模型，通过Gated Strip Fusion Network（GSFNet）增强小物体和高宽比物体表征，Dual Feedback Interaction Block（DFIB）解决多尺度特征对齐与语义不一致，Focus-Guided Adaptive Dysample（FGAD）优化上采样过程，Progressive Cross-scale Aggregation Fusion（PCAF）实现高效多尺度特征融合。实验表明，该模型在VisDrone2019和UAVDT数据集上AP提升5.3%和6.6%，参数量减少25%。

姚宗权|张俊三|沈秀萱|程明|刘天翼|张瑶|高云

中国石油大学（华东）计算机科学与技术学院青岛软件研究所，智能油气工业软件山东省重点实验室，山东省青岛市

摘要

近年来，使用无人机（UAV）进行空中目标检测已成为一个重要且发展迅速的研究课题。然而，空中视角的固有局限性给现有的目标检测算法带来了挑战，特别是在特征提取阶段有效捕捉小型、高长宽比目标的特征时。此外，在特征融合过程中，剧烈的尺度变化可能会导致上采样过程中出现伪影，而多尺度融合中的冗余信息可能会进一步降低检测性能。为了解决这些问题，本文提出了一种新的无人机图像目标检测模型Aero-DETR。在特征提取阶段，我们设计了一种门控条带融合网络（GSFNet），通过条带卷积、门控机制和全局空间建模来增强小型和高长宽比目标的表示。在特征融合之前，我们设计了双反馈交互模块（DFIB）来管理大的跨层尺度变化，通过双路径交叉增强机制对齐尺度并协调语义。为了在上采样过程中减少伪影并保留目标的细粒度细节，我们引入了基于焦点的自适应欠采样（FGAD）模块，该模块采用多层次偏移建模和特征重建来集中采样在结构显著和纹理关键区域。最后，作为融合后的细化步骤，我们开发了渐进式跨尺度聚合融合（PCAF）模块，该模块结合了语义权重生成和异构特征融合，以产生紧凑且语义一致的多尺度特征，实现了检测精度和计算效率之间的有效平衡。实验结果表明，与基线相比，Aero-DETR在VisDrone2019数据集上的平均精度（AP）提高了5.3%，平均精度50%（AP50）提高了6.6%，同时参数减少了约25%，在UAVDT数据集上也观察到了类似的提升。

引言

近年来，无人机（UAV）得到了迅速发展[1]，在精准农业、交通监控、灾害响应、基础设施检查和安全监控等领域得到了广泛应用[2][3]。在这些场景中，实时分析无人机图像——特别是高效准确的目标检测——对于充分利用无人机系统的潜力至关重要。因此，专门针对无人机航拍图像开发高性能的目标检测模型已成为现代计算机视觉的核心研究课题。

与常规图像相比，如图1所示，无人机获取的空中图像具有独特的挑战：（1）由于高空成像，目标较小且长宽比较高，这使得特征提取变得复杂；（2）由于飞行高度和视角的变化导致显著的尺度变化，这使得检测网络的建模过程变得复杂。此外，无人机平台对资源有严格限制，需要轻量级模型并在保持准确性的同时尽量减少参数。

目前，深度学习已成为无人机图像目标检测的主流方法。现有的基于深度学习的检测方法通常可以分为三类：两阶段检测器、单阶段检测器和基于Transformer的检测器。两阶段检测器，如Faster R-CNN[4]和Cascade R-CNN[5]，通常能够实现高检测精度，但它们的架构复杂且计算开销较大，这限制了它们在实时无人机应用中的适用性。单阶段检测器，以YOLO[6][7][8][9][10][11]系列为代表，采用基于CNN的预测范式，因其架构简洁和推理效率高而受到广泛青睐。最近的YOLO变体通过端到端优化简化了训练和后处理，但它们的上下文建模依赖于局部卷积感受野，缺乏显式的全局空间依赖性建模。在无人机图像中，这种局限性尤为明显，因为广泛的覆盖范围和长距离目标相关性对纯卷积检测器构成了挑战。

为了更有效地捕捉长距离依赖性，引入了基于Transformer的架构进行目标检测。Detection Transformer（DETR）[12]通过基于Transformer的编码器-解码器架构和匈牙利匹配损失将检测问题重新定义为集合预测问题。然而，DETR存在收敛速度慢和效率有限的问题。为了解决这个问题，Deformable DETR[13]采用了可变形的多尺度注意力机制来提高收敛速度和特征分辨率，而SMCA-DETR[14]利用空间调制的共注意力和尺度选择机制来缓解收敛速度慢和尺度变化的问题。最近，Real-Time Detection Transformer（RT-DETR）[15]通过高效混合编码器和不确定性最小化查询选择策略提高了效率，DEIM[16]通过密集的一对一匹配以及马赛克和混合技术以及匹配度感知损失来减轻稀疏监督问题，以优化不同IoU水平下的匹配质量。尽管有这些进展，大多数基于DETR的检测器对于无人机图像来说仍然不够理想，特别是在检测小型目标时，因为DETR框架中的特征表示有限和监督数据稀疏。

近年来，为了应对小型目标、检测精度与效率之间的权衡以及非均匀的空间分布等挑战，专门为无人机图像开发了几种检测方法。QueryDet[17]引入了一种级联稀疏查询机制，首先在低分辨率特征上预测小型目标的位置，然后在高分辨率特征上进行稀疏计算，从而在精度和效率之间取得平衡。此外，CEASC[18]利用上下文增强的稀疏卷积和自适应掩蔽来减少计算冗余，同时保持检测性能。FBRT-YOLO[19]引入了特征互补映射模块来提高小型目标的定位能力，并通过多核感知单元来增强多尺度目标感知，强调更丰富的特征表示。最近的工作，包括SF-TMAT[20]和MFEL-YOLO[21]，进一步集成了反馈驱动的掩蔽适应、基于置信度的阈值调整、自适应多尺度特征提取和互补特征融合，以减轻小型目标细节损失和特征不对齐问题。此外，DTSSNet[22]通过增强特征注意力和损失感知样本选择来补充这些方法，以解决训练不平衡问题并提高整体检测鲁棒性。尽管有这些进展，大多数针对无人机的检测器仍然无法有效处理高长宽比目标，或者不对多尺度特征进行预调制，或者没有细化冗余融合特征，这可能导致细长目标的定位不准确和跨尺度响应不一致。

为了克服这些限制，本文提出了Aero-DETR，这是一种专为无人机图像设计的基于Transformer的检测架构，旨在实现高精度和紧凑的模型大小。在特征提取阶段，设计了一个轻量级的骨干网络——门控条带融合网络（GSFNet），以捕捉无人机的特定特征。通过集成大型非对称条带卷积、门控机制和全局空间建模，GSFNet有效地增强了高长宽比和小型目标的表示。在特征融合之前，双反馈交互模块（DFIB）执行尺度对齐，以缓解多尺度特征之间的语义不一致和信息不平衡。在上采样过程中，基于焦点的自适应欠采样（FGAD）模块通过引导偏移生成来改进几何建模，减少插值伪影并保留细粒度细节。最后，作为融合后的细化步骤，渐进式跨尺度聚合融合（PCAF）模块对中间层特征进行细化和聚合，产生紧凑且语义一致的多尺度表示，同时具有高效率。在VisDrone2019[23]等基准数据集上的广泛实验表明，Aero-DETR在保持轻量级部署效率的同时实现了卓越的检测精度。本文的主要贡献总结如下：

(1) 我们提出了GSFNet，这是一种用于无人机图像目标检测的骨干网络，它集成了大型非对称条带卷积、门控机制和全局空间建模。条带卷积以低计算成本捕获高长宽比目标结构，而门控机制和全局空间建模增强了网络对小型目标的建模能力。

(2) 我们设计了一种新的DFIB作为融合前的尺度对齐模块。它使用双通道交叉增强结构来解决由于严重尺度变化引起的特征不对齐问题。该模块还减少了多尺度特征的语义不一致和信息不平衡，为特征融合提供了更高质量的输入。

(3) 我们提出了一种基于重建和焦点偏移的上采样模块FGAD。通过利用重建过程和引导偏移的生成，该模块在动态上采样过程中改进了几何建模，提高了在遮挡和干扰下的特征区分能力，并减少了上采样伪影。

(4) 我们设计了PCAF模块作为融合后的细化机制。它结合了语义权重和异构特征融合，在中间层表示上执行语义对齐和特征集成，为检测头提供了紧凑且语义一致的特征融合，同时有效控制了计算开销。

部分摘录

无人机目标检测

近年来，无人机目标检测取得了显著进展，应用于安全监控、智能交通和灾害评估等领域。然而，无人机图像带来了诸如小型目标尺寸和剧烈尺度变化等挑战。

为了解决密集分布的小型目标问题，刘等人[24]提出了基于CenterNet[25]的YOLC，该模型采用了局部尺度模块（LSM）和带有可变形卷积的GWD回归。王等人[26]提出了基于Transformer的AODet

方法

Aero-DETR的总体架构如图2所示。它主要由一个骨干网络、一个具有集成预测头的语义感知混合编码器和一个混合解码器组成。骨干网络GSFNet是专门为无人机图像的特征提取设计的。它由核心GSFBlock和下采样模块构建，能够提取不同尺度（S2、S3、S4和S5）的四个特征层。然后将这些特征输入到

数据集

我们在两个公开可用的无人机航拍图像数据集VisDrone2019[23]和UAVDT[49]上评估了所提出的方法。这些数据集的详细信息如下。

VisDrone2019数据集是一个专注于无人机目标检测的基准数据集，包含总共10,209张高分辨率图像（大约2000×1500像素）。它分为训练集（6,471张图像）、验证集（548张图像）和测试集（3,190张图像）。所有图像都是由无人机在不同地点拍摄的

结论

在本文中，我们提出了Aero-DETR，这是一种专为无人机图像检测设计的基于Transformer的架构。为了有效检测小型和高长宽比目标，我们开发了GSFNet作为骨干网络，该网络增强了从无人机图像中提取特征的能力。提取的特征随后被输入到语义感知混合编码器中，该编码器集成了DFIB和FGAD模块。DFIB执行融合前的尺度对齐，以缓解多尺度特征之间的语义不一致

CRediT作者贡献声明

姚宗权：撰写——原始草案、方法论、调查、数据整理、形式分析、验证。张俊三：撰写——审阅与编辑、监督、概念化、项目管理、方法论、可视化。沈秀萱：方法论、形式分析、验证、调查。程明：数据整理、可视化、验证。刘天翼：调查、方法论、撰写——审阅与编辑。张瑶：可视化、撰写——审阅与编辑、形式

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

摘要

引言

部分摘录

无人机目标检测

方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行