ADD-Net:一种基于知识蒸馏的自适应动态架构,用于无人机小目标检测

《Digital Signal Processing》:ADD-Net: Adaptive Dynamic Architecture with Knowledge Distillation for UAV Small Object Detection

【字体: 时间:2026年02月12日 来源:Digital Signal Processing 3

编辑推荐:

  本文提出ADD-Net,通过动态采样骨干、单头注意力加门控稀疏编码、双适应特征金字塔及混合知识蒸馏,有效解决UAV小目标检测中的尺度变化、背景干扰和计算资源浪费问题,在多个基准数据集上显著提升性能并降低参数和计算成本。

  
韩旺|李一青|周文|张浩
西安工业大学计算机科学与工程学院,中国西安710021

摘要

在无人机遥感中,小目标检测是一项极具挑战性的任务,因为目标占据的像素数量极少且特征信息很少,同时存在严重的遮挡现象,并且在复杂背景下存在较大的尺度变化。传统的检测方法受到固定感受野和空间区域均匀资源分配的限制。我们提出了ADD-Net,该方法通过将三个协同工作的组件系统集成到一个单阶段检测器中来实现改进。具体来说,动态采样框架通过参数化的空间偏移和通道门控机制来学习感受野,从而自适应地分配特征提取资源。为了进行全局上下文建模,我们使用了单头注意力机制,并通过Top-K选择来修剪不相关的空间标记,同时保留语义的完整性。此外,双自适应特征金字塔结构实现了双向信息传播,通过焦点扩散上采样和多路径残差下采样来实现跨尺度信息融合。同时,细粒度特征模式和分类逻辑通过混合知识蒸馏从教师网络传递到学生网络,且无需额外的推理开销。在广泛的基准测试中,我们的方法在VisDrone-DET2019和HIT-UAV任务上的mAP0.5分别达到了41.0%和85.0%,相比基线方法提高了4.7%和5.0%,同时参数数量减少了29.3%,计算成本降低了12.8%。此外,在VEDAI和DroneVehicle任务上的实验表明,该方法在实际的无人机小目标检测应用中也非常有效。

引言

近年来,低空经济的快速发展推动了基于无人机的遥感系统的发展[1]。这些系统已被应用于地理空间测量[2]、智能交通[3]、城市管理[4]和应急响应[5]等领域。然而,实现高精度测量、开发有效的算法以及计算出最优结果仍然面临诸多困难。如图1所示,我们使用这种相对便宜的无人机,它配备了红外和可见光传感器,用于遥感检测。
无人机图像的复杂性在于它们采用了双传感器技术:可见光相机图像具有较好的纹理和形状信息,但受到大气散射和光照的影响[6];而热红外相机图像则可以在夜间检测目标,但缺乏纹理信息;而且大多数目标的热特征相似[7]。从无人机视角来看,目标通常出现在小于32×32像素的区域内,这使得利用建筑物外观特征进行识别变得困难。此外,理解周围环境的背景对于确定目标的形状和类别也非常重要。这些特性,包括极端的尺度变化、稀疏的空间分布以及对全局上下文的依赖性,给检测网络带来了重大挑战,要求它们既能保留局部细节,又能进行全局推理。
Transformer架构在全局语义建模方面具有几乎无与伦比的优势,其全局上下文合成能力为理解复杂场景提供了有力支持。然而,这种全局偏向的建模机制使得它在无人机视频中的小目标定位任务上表现不佳。随着网络层数的增加,细粒度的空间信息逐渐减弱,原本用于区分微小目标的关键细节逐渐丢失,导致梯度传播受阻,定位精度下降,最终影响检测性能[8]。在这种背景下,尺度异质性和视觉迷宫式背景这两个极端问题相互叠加,使得小目标检测几乎成为一个难以解决的问题。要修复这一结构缺陷,仅仅进行微调是不够的,需要进行彻底的架构革新:用能够保留不可预测微观结构的内容感知采样替代均匀计算;通过稀疏编码精细去除背景噪声;以及构建分层的多分辨率骨架以保持语义一致性[9]。
实际的无人机检测场景揭示了一个严峻的事实:现有方法在计算资源利用上极其低效,仿佛计算能力没有上限。大多数检测器对整个图像一视同仁,在没有任何信息的背景区域浪费了大量计算资源,却未能为微小目标分配足够的表示带宽[10],[11]。这种结构上的盲目性在多模态集成任务中更加明显。理论上,RGB传感器和热传感器应该能够互补,但无论是自适应采样方法[12]、注意力模型[13]还是现有的融合协议[14],在跨模态信息整合方面仍然效率低下。对于实时空中监控来说,这个问题更加严重。系统设计不得不遵循严格的简洁性原则。用简单性控制复杂性已经不再是一种优化选择,而是一种刚性约束[15]。过去基于浅层压缩或蒸馏的策略最终会付出代价——计算成本永远不会是免费的。研究人员不得不在Pareto前沿上艰难抉择,要么牺牲语义丰富性,要么降低空间精度[16],[17]。
然而,最近的一些方法也暴露出一些显著的问题。例如,在RT-DETR[18]中,多头注意力虽然有效地将语义子空间表示分解为独立的子空间以便于处理,但这种解耦使得小目标的特征描述变得更加困难。LSKNet通过大核扩展感受野的做法,由于空间池化的处理效率极低而抵消了其优势[19]。像BiFPN这样的特征金字塔方法在处理场景时提供了更大的灵活性[20],得益于跨尺度特征融合,但在跨越严格的语义间隙时融合效果仍然不够理想;而CWD这样的知识蒸馏方法虽然通过蒸馏实现了知识传递,但仍然难以完全融合不同范式的设计[21]。我们的框架通过综合这些方法克服了这些问题。
RT-DETR[18]是一种基于Transformer的单阶段检测器,它提供了高效的全局特征建模和实时推理能力,非常适合空中计算资源的限制。其端到端设计消除了手动设计的组件(如NMS),实现了原则性的优化。然而,三个限制因素影响了其在无人机小目标检测中的效果:ResNet框架中的固定空间采样无法适应极端尺度变化,多头注意力在独立子空间中分割了语义表示,标准特征金字塔在下采样过程中丢失了细粒度细节。我们提出的ADD-Net通过协调的自适应处理和混合知识蒸馏机制,系统地改进了RT-DETR的性能。该架构在检测器框架、编码器和融合阶段实现了细粒度的特征处理,为无人机小目标检测做出了以下贡献:
  • 1.
    我们提出了一种动态自适应采样框架,通过空间可变形卷积和通道门控机制学习内容感知的感受野和特征,从而能够实时适应不同尺度的目标。它能够自适应地放大大目标的感受野,并对小目标进行密集采样,使两者之间的采样尺度相匹配。这解决了空中场景中尺度差异极大的问题。
  • 2.
    我们引入了一种单头注意力机制,该机制具有内在的稀疏性门控功能,可以在保留完整语义表示的同时,通过内容自适应的Top-K修剪去除冗余的语义背景标记,且计算成本低廉。
  • 3.
    我们提出了一个双自适应特征金字塔网络,通过焦点扩散和残差下采样实现双向信息传播,从而在尺度转换过程中保留细粒度细节。我们的渐进式融合方法通过通道分组注意力缓解了小目标的定位退化问题,并通过多路径编码保持了边界的清晰度。
  • 4.
    我们开发了一种混合知识蒸馏策略,结合了多个特征层次和逻辑层次的监督。在推理过程中无需增加计算开销,即可在不同模态网络之间传输关于空间关系和语义的知识。我们通过基于置信度的加权方式传递注意力模式和分类逻辑,实现了适合无人机平台的紧凑模型,同时保持了先进的遥感检测性能。
  • 相关工作

    无人机遥感中的小目标检测面临着由复杂场景条件和目标大小变化带来的固有难题[6]。DETR家族的Transformer模型因其端到端的特性而受到了广泛关注[15]。最近的研究要么专注于网络架构的改进,要么致力于提高特征提取和损失函数设计,以实现轻量级的模型部署。

    研究人员正在

    概述

    ADD-Net通过在对特征提取、语义编码和层次融合过程中采用自适应机制,解决了RT-DETR设计中的僵化问题。传统检测器认为视野中的每个区域都包含具有区分性的信号,因此应给予同等程度的关注,从而浪费了计算资源。而我们的设计将计算资源集中在信息集中的小空间区域和真正具有区分性的尺度层次上。

    实验

    我们在第4.1至4.3节通过实验设置、数据集实现和评估来评估ADD-Net的性能;第4.4节通过消融研究分析了各个组件的贡献;第4.5节提供了定量比较、定性可视化和跨数据集泛化分析。

    结论

    我们提出了ADD-Net用于无人机小目标检测。ADD-Net结合了三个组件:动态自适应采样根据内容调整感受野,单头注意力结合稀疏性门控保留语义信息,双自适应特征金字塔实现跨尺度特征融合。混合知识蒸馏进一步提升了性能。与RT-DETR基线相比,ADD-Net的参数数量减少了29.3%,计算成本降低了12.8%,同时mAP0.5提高了4.7%

    作者贡献声明

    韩旺:负责撰写初稿、方法论设计、软件开发和数据分析。李一青:概念提出、审稿与编辑、项目监督。周文:数据验证、形式化分析及资源管理。张浩:撰写与编辑、形式化分析及软件开发。

    利益冲突声明

    作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。
    韩旺:2019年毕业于西安工业大学,获得包装工程学士学位。目前他在西安工业大学攻读计算机应用技术硕士学位,研究方向包括跨领域遥感、多目标检测和多智能体强化学习。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号