Bridge-DETR：结合卷积神经网络和Transformer架构，实现高效且实时的基于无人机的微小目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：Bridge-DETR: Bridging Convolutions and Transformers for Efficient and Real-Time UAV-Based Small Object Detection

【字体：大中小】 时间：2026年03月24日 来源：Digital Signal Processing 3

编辑推荐：

　　实时检测框架 Bridge-DETR 通过融合卷积特征增强与Transformer全局推理，提出轻量化多尺度特征融合方法解决小目标检测中的特征退化、跨尺度语义不一致及精度-效率平衡问题，在VisDrone、SeaPerson、TinyPerson和TT100K数据集上验证有效性及实时性优势。

河南理工大学电气工程与自动化学院，焦作市，454000，河南，中国

摘要

无人驾驶飞行器（UAV）的迅速普及加剧了航空图像中小目标检测长期存在的挑战，这些问题主要源于目标尺寸微小、空间密度高以及背景杂乱。尽管最近的卷积-变换器混合检测器取得了有希望的进展，但它们在特征保留、跨尺度语义一致性以及准确性与计算效率之间的平衡方面仍存在局限性。为了解决这些问题，本研究提出了Bridge-DETR，这是一个实时检测框架，它将卷积归纳偏差与基于变换器的全局推理相结合。该框架包括三个核心组件：（1）级联特征增强网络（CFENet），通过多阶段深度卷积来减轻特征退化；（2）混合多尺度双域编码器（HMDE），通过将局部卷积特征与变换器上下文表示相结合来提高同一尺度内的区分能力；（3）递归跨尺度融合（RCSF）模块，通过双向跨分辨率细化来增强语义一致性。在VisDrone基准测试上的广泛实验表明，Bridge-DETR的mAP_0.5达到了51.3%，mAP_0.5:0.95达到了32.0%，分别比RT-DETR-R18基线提高了5.3%和4.3%。同时，该模型的参数规模减少了33.1%，FLOPs降低了8.1%，并保持了93.9 FPS的实时推理能力。在SeaPerson、TinyPerson和TT100K上的额外评估进一步验证了所提出方法的鲁棒性和泛化能力。总体而言，Bridge-DETR在准确性、效率和模型复杂性之间提供了更平衡的折中，为基于UAV的小目标检测提供了实用的解决方案。项目页面位于：https://github.com/HKP-learning/Bridge-DETR/tree/main

引言

无人驾驶飞行器（UAV）的应用已迅速扩展到关键领域，包括地理空间测量[1]、城市规划[2]和环境监测[3]。这一趋势增加了对来自航空图像的可靠目标检测的需求，而在传统的检测器（如You Only Look Once (YOLO)系列[4]、[5]、[6]、[7]、[8]和Faster R-CNN [10]）中，性能通常会下降。这些检测器的接受域有限，多尺度特征融合效率低下，难以捕捉到UAV视角下普遍存在的小目标的精细细节。虽然基于变换器的检测器（如Detection Transformer (DETR)[11]、Deformable DETR[12]和RT-DETR[13]）在全局上下文建模方面表现出色，但它们的计算复杂性和局部特征表示不足，阻碍了在实时UAV平台上的部署。

基于UAV的小目标检测的核心挑战可以归纳为三个相互关联的方面：（i）特征表示不足：如图1a所示，目标通常占据的像素少于32×32，同时表现出显著的尺度变化，导致深度网络中的特征严重退化[14]。（ii）复杂的背景干扰：图1b显示小目标容易被杂乱背景淹没，大大增加了前景与背景的区分难度。（iii）准确性与效率之间的权衡：在UAV平台的严格计算限制下实现高检测准确性仍然是一个难题。

为了全面解决这些挑战，本研究提出了Bridge-DETR，这是一个新颖的轻量级检测框架。其贡献旨在以连贯的方式解决每个瓶颈：

（1）为了克服特征表示不足的问题，设计了一个基于轻量级CNN的级联特征增强网络（CFENet）作为主干网络。其核心构建块采用级联深度可分离卷积，逐步放大接受域并丰富特征层次结构，同时计算开销最小，提供了稳健的多尺度特征基础。

（2）为了在融合之前增强特征层次结构内的区分能力，开发了混合多尺度双域编码器（HMDE）。它通过协调卷积局部精度与变换器全局上下文来解决前景-背景混淆问题，而其双域前馈网络抑制了高频背景噪声。这一阶段净化了主干特征，为跨尺度交互提供了更具区分性的表示。

（3）为了减轻这些精细化特征之间的语义不一致性，提出了递归跨尺度融合（RCSF）结构。它建立了双向融合路径（S2-S5）进行迭代特征细化，使得空间细节与语义上下文能够连贯整合。在HMDE的精细化特征上操作，有效解决了跨尺度冲突并进一步减少了背景干扰。

在四个代表性基准测试（包括VisDrone2019[15]、SeaPerson[16]、TinyPerson[17]和TT100K[18]）上的广泛实验验证了所提出的Bridge-DETR框架的有效性和鲁棒性。值得注意的是，前三个数据集专注于基于UAV的小目标检测，而TT100K是一个从自动驾驶场景中收集的大规模交通标志数据集，提供了具有不同成像几何和对象语义的补充评估领域。在这些数据集中，该方法始终保持了较高的准确性，同时保持了紧凑的架构和快速的推理速度，从而满足了基于UAV的应用的实时要求。这些结果突显了Bridge-DETR在准确性、效率和模型复杂性之间的平衡集成，证明了其在实际航空视觉场景中的适用性，并保持了强大的跨域泛化能力。

本文的其余部分结构如下。第2节回顾了相关工作，批判性地分析了实时检测器和基于变换器的模型的发展，以阐明本工作的贡献。第3节详细阐述了Bridge-DETR的架构，依次介绍了所提出的CFENet、HMDE和RCSF模块。第4节进行了全面的实验评估，旨在通过与一系列竞争模型的对比来验证所提方法的性能和效率，并进行了彻底的消融研究。最后，第5节总结了本文并提出了未来研究的有希望的方向。

部分摘录

实时目标检测器

实时目标检测在延迟敏感的应用中起着核心作用，例如自动驾驶[19]、[20]、智能监控[21]和基于UAV的航空感知[23]、[24]。在现有的解决方案中，YOLO系列[4]、[5]、[6]、[7]、[8]、[9]经历了重大的架构演变，引入了跨阶段部分连接、解耦头、动态标签分配和面向硬件的优化等机制。

整体框架

Bridge-DETR的整体架构如图2所示。它遵循一个为UAV小目标检测量身定制的渐进式流程，包括三个关键组件：（1）CFENet，一个基于CNN的级联特征增强网络，它在提取多尺度特征的同时通过层次细化减轻了目标的微妙退化；（2）HMDE，一个混合多尺度双域编码器，它通过联合建模局部精度和全局上下文来提高同一尺度内的区分能力

数据集

所提出的Bridge-DETR的有效性和泛化能力在四个公共基准测试上进行了评估。主要实验在三个具有挑战性的基于UAV的小目标检测数据集上进行：VisDrone2019[15]、SeaPerson[16]和TinyPerson[17]。为了进一步评估跨领域鲁棒性，评估还扩展到了TT100K[18]，这是一个从自动驾驶场景中收集的大规模交通标志数据集。

实验环境

所有实验都在配备有

结论

本文提出了Bridge-DETR，这是一个轻量级检测框架，旨在全面解决基于UAV的小目标检测中持续存在的挑战。Bridge-DETR通过三个精心设计的组件明确针对了特征表示不足、复杂背景干扰和准确性-效率之间的权衡这三个相互关联的瓶颈：

作者贡献

所有作者都对这项工作做出了实质性贡献。具体贡献如下：

资助

本研究未获得外部资助。

CRediT作者贡献声明

Ruxin Gao：概念化、方法论、软件、验证、形式分析、调查、数据管理、撰写——原始草稿、可视化。Kunpeng Han：方法论、软件、验证、形式分析、调查、撰写——审阅与编辑。Jing Li：方法论、验证、调查、撰写——审阅与编辑。Haiquan Jin：资源、撰写——审阅与编辑、监督。Jianmin She：概念化、资源、撰写——审阅与编辑、监督。Shixi Gu：

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言