《Neurocomputing》:Anti-DETR: End-to-End Anti-Drone Visual Detection Network Based on Wavelet Convolution
编辑推荐:
小无人机空对空复杂场景检测方法,提出端到端Anti-DETR网络,通过小波卷积扩展感受野,多尺度特征金字塔增强细粒度特征,直方图自注意力机制抑制背景干扰,有效提升5×5像素级小目标检测精度。
Jiarui Zhang|Zhihua Chen|Chun Zheng|Wenjun Yi|Guoxu Yan|Yi Wang
南京理工大学瞬态物理国家重点实验室,江苏南京,210094,中国
摘要
随着无人机技术的进步,在空对空场景中用于反无人机任务的视觉检测变得越来越关键。然而,由于背景噪声的干扰和目标边缘的模糊,检测快速移动的小型无人机仍然具有挑战性,导致检测精度较低。为了解决这些问题,我们提出了Anti-DETR,这是一种专门用于小型无人机检测的端到端检测网络,它利用小波卷积技术。Anti-DETR由三个关键组成部分构成:首先,全局多通道小波残差网络(Global Multi-channel Wavelet Residual Network,GWRN)通过小波卷积扩展了感受野,并利用全局多通道注意力机制高效定位目标;其次,多尺度精细特征金字塔网络(Multi-scale Refined Feature Pyramid Network,MRFPN)采用自适应全局校准注意力单元(Adaptive Global Calibration Attention Unit,AGCAU)整合细粒度浅层特征和深度语义特征,增强了多尺度特征表示;最后,直方图自注意力机制(Histogram Self-Attention)对像素级特征进行分类,以提高在复杂背景下的特征感知能力。在Det-Fly、DUT-Anti-UAV和HazyDet数据集上的评估表明,Anti-DETR优于多种现有方法和传统检测器,证实了其在具有挑战性的环境条件下进行准确反无人机检测的有效性和泛化能力。代码可在
https://github.com/Image-Zhang/anti-detr获取。
引言
近年来,由于制造成本的降低和控制技术的快速发展,无人机已从军事应用逐渐扩展到民用领域。目前,无人机被广泛应用于城市交通监控[1]、空中救援[2]和空中成像[3]等多个民用领域。同时,人工智能[4]的快速发展,特别是视觉基础模型的普及,显著推动了物体检测技术的发展。配备远程控制功能的无人机成为监控军事和民用领域目标的重要平台,能够快速定位目标并进行威胁评估,从而及时应对潜在的紧急情况。然而,小型无人机的普及也带来了重大的公共安全风险[5],因为它们容易被用于网络入侵、恶意爆炸物部署、侵犯隐私以及威胁商业航空安全等活动。因此,针对识别恶意小型无人机的检测技术受到了越来越多的研究关注。此外,随着越来越多的民用无人机在低空飞行,确保及时的无人机间检测和实现安全、无冲突的导航已成为亟需研究的关键问题。
目前,无人机视觉检测任务主要分为两类:地面到空中检测(地面相机检测空中无人机)和空中到空中检测(无人机搭载的相机直接识别和跟踪其他无人机)。传统的无人机检测方法通常使用雷达或声光传感器来识别空中目标[7]。然而,由于小型无人机的雷达截面很小且移动速度快且不可预测[8],使用雷达检测它们具有挑战性。此外,由于无人机载荷的限制,需要基于计算机视觉的方法来进行有效的小型无人机检测。
本文重点讨论用于空中到空中检测小型无人机的计算机视觉方法。尽管地面到空中检测最近受到了广泛关注,但空中到空中的场景更为复杂。地面到空中的方法通常受益于静态或移动缓慢的地面相机,这些相机可以在干扰较少的情况下捕捉清晰的天空图像[9]。相比之下,空中到空中的检测涉及多个视角——俯视、仰视和水平视角——引入了复杂的背景,如图1所示的城市环境和山地地形。此外,空中图像中的无人机目标非常小(通常约为5×5像素),大大增加了检测难度[10]。另外,检测无人机和目标无人机都在快速移动,导致外观、形状、大小的变化以及偶尔的模糊,进一步降低了检测精度[11]。由于无人机平台上的计算能力有限,平衡检测精度和计算效率变得至关重要。因此,有效应对这些挑战是空中到空中小型无人机检测研究的主要焦点。
考虑到空中到空中场景中反无人机目标检测的挑战以及DETR模型在检测小型目标方面的局限性,我们提出了一种基于小波卷积的新型端到端反无人机检测框架Anti-DETR。我们的方法有效解决了复杂空中到空中无人机检测任务中的各种问题。在公开的反无人机数据集上的实验评估表明,Anti-DETR的性能优于多种现有检测方法。本文的贡献总结如下:
(1) 我们提出了一个具有全局多通道注意力机制的全局多通道小波残差网络(GWRN)。GWRN通过多尺度小波卷积扩展了骨干网络的感受野,而全局多通道注意力机制增强了空间定位敏感性,显著提高了在复杂背景下的特征提取能力。
(2) 我们设计了一个多尺度精细特征金字塔网络(MRFPN),其中包含了自适应全局校准注意力单元(AGCAU)。该单元动态融合了低分辨率特征的详细信息和高分辨率特征的语义信息,调整了空间和通道权重,从而增强了多尺度特征表示,并精确捕捉了小型目标边缘,提高了位置校准能力。
(3) 我们引入了直方图尺度交互特征方法(HIFI),以增强RT-DETR中的尺度内交互和跨尺度融合模型。该方法根据像素强度动态分割空间特征,结合全局和局部注意力,提高了对背景噪声的鲁棒性和特征感知能力。
(4) 基于这些改进,我们提出了用于空中到空中反无人机检测的Anti-DETR。在Det-Fly、DUT-Anti-UAV和HazyDet数据集上的广泛实验验证了该模型的有效性和泛化能力,证实了其相较于现有检测器的优越性能。
部分摘录
基于Transformer的目标检测模型
基于CNN架构的物体检测模型通常依赖于非最大值抑制(NMS)进行后处理。典型的例子包括主流的单阶段检测器如YOLO[12]和SSD[13],以及两阶段框架如Cascade R-CNN[14]和Grid R-CNN[15]。然而,这种对NMS的依赖给模型优化带来了挑战,并降低了鲁棒性,常常导致推理过程中的延迟。
近年来,随着Transformer架构的快速发展
方法
在本节中,如图2所示,我们提出了用于空中到空中无人机检测的Anti-DETR模型,重点介绍了其三个关键组成部分:基于小波的骨干网络、多尺度精细特征金字塔网络(Multi-Scale Refined Feature Pyramid Network)和HIFI模块。
Anti-DETR模型遵循了物体检测的总体架构,包括骨干网络和颈部网络结构。这包括自适应特征交互和跨尺度特征融合模块,以及配备了
数据集
为了评估我们模型在小型目标检测方面的有效性和泛化能力,我们在两个公开的反无人机数据集Det-Fly[5]和DUT-Anti-UAV[38]上进行了实验。此外,为了进一步验证Anti-DETR在小型目标检测上的性能,我们还在HazyDet数据集[39]上对模型进行了测试。
Det-Fly数据集包含13,271张不同分辨率的无人机图像,这些图像从不同的视角(正面、俯视和仰视)捕捉了无人机,并涵盖了多种背景
结论
在这项研究中,我们提出了Anti-DETR模型,以克服在复杂背景中检测小型无人机目标的挑战。通过结合全局多通道小波残差网络(GWRN)、多尺度精细特征金字塔网络(MRFPN)和HIFI模块,该模型增强了无人机在不同环境下的特征提取和感知能力,实现了高精度检测,同时计算成本较低。在Det-Fly数据集上的实验结果
CRediT作者贡献声明
Yi Wang:验证、调查。Wenjun Yi:概念化。Guoxu Yan:可视化、调查。Chun Zheng:撰写——审阅与编辑、监督、概念化。JiaRui Zhang:撰写——初稿、可视化、验证、方法论、数据分析、概念化。Zhihua Chen:撰写——审阅与编辑、资源提供。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
Jiarui Zhang于2024年获得南京理工大学导航、制导与控制专业的工程硕士学位。他目前正在南京理工大学瞬态物理国家重点实验室攻读机械工程博士学位。他的主要研究领域是计算机视觉和导航控制。