《Pattern Recognition Letters》:UA-YOLO: An Uncertainty-Aware Network for Robust UAV Detection
编辑推荐:
Jie Zhang|Fen Xiao|Han Xiang|Xieping Gao|Baokang Ouyang中国湘潭大学智能计算与信息处理教育部重点实验室,湘潭,411105摘要在复杂环境中,无人机(UAV)检测仍然是一个具有挑战性的小目标检测问题。虽然基于YOLO的检测器在自
Jie Zhang|Fen Xiao|Han Xiang|Xieping Gao|Baokang Ouyang
中国湘潭大学智能计算与信息处理教育部重点实验室,湘潭,411105
摘要
在复杂环境中,无人机(UAV)检测仍然是一个具有挑战性的小目标检测问题。虽然基于YOLO的检测器在自然场景中表现良好,得益于多尺度特征融合,但由于视觉上相似目标之间的分类不确定性,它们在航空图像中的鲁棒性不足。为了解决这个问题,我们提出了一种具有不确定性意识的UAV检测网络UA-YOLO,在存在干扰物的场景中表现出更好的性能。首先,我们引入了一个具有不确定性意识的特征自校准模块。该模块量化了由干扰物和目标不确定性引起的分类不确定性,并根据不同层次的可靠性对特征进行重新加权。其次,我们开发了一个轻量级的结构细化模块,该模块基于多分支卷积来捕捉小尺度细节,这些分支被重新参数化为等效的标准卷积以实现高效推理。在四个具有挑战性的公共数据集上的广泛实验表明,我们的方法比几种最先进的方法具有更好的鲁棒性和准确性。
引言
由于便携性和操作灵活性,无人机(UAV)已被广泛应用于各种民用和工业领域。基于视觉的UAV检测旨在在图像中定位UAV目标,这是实现群体导航、避障和识别恶意无人机的重要技术。准确的检测为后续的高级分析(如轨迹估计和意图识别)提供了基础。随着基于深度学习的对象检测器(如YOLO系列、Faster R-CNN和DETR)的快速发展,基于视觉的检测系统已被证明是可行的解决方案[1]、[2]、[3]。
大多数现有的UAV检测系统都是建立在通用的对象检测架构之上的,其中基于YOLO的框架尤其普遍,因为它们具有计算效率和强大的全局感知能力。鉴于UAV在图像中通常占据的空间分辨率较低(如图1a所示),一些方法重新设计了多尺度特征融合结构,以便在不同尺度上更好地保留微小目标的区分信息[4]、[5]。例如,Sun等人[6]提出了一种称为循环路径的结构,通过融合不同层的输出特征图将低级特征传输到高级层。为了减轻杂乱背景和运动模糊的影响(图1b),一些方法将注意力模块集成到主干网络或颈部网络中[7]、[8]。例如,Zhao等人[9]将Transformer编码器集成到YOLOv5中,以增强ROI注意力,并使用全局注意力来减少层间扩散并增强跨维度交互。此外,其他工作通过更广泛的空间或语义依赖性来增强上下文建模,在局部外观模糊的情况下提供补充线索[7]、[10]。
由于噪声和干扰引起的特征退化在遥感中仍然是一个常见挑战[11]、[12]。在UAV检测中,干扰物和微小目标的模糊会降低区分度线索,并引入分类不确定性,这种不确定性可能会在网络中传播和放大。因此,一个鲁棒的UAV检测器应该评估特征的可靠性,并调整不同层次特征的贡献。现有的多尺度融合方法通常依赖于基于注意力的跨层次聚合,但它们的特征重新加权主要取决于特征响应。因此,在包含视觉上相似干扰物的场景中,虽然被强烈激活但具有误导性的特征可能仍然会被过度强调,从而导致识别错误增加,如图1c所示。同时,更复杂的网络设计可以提高小目标的感知能力,但代价是计算成本增加,而过度简化可能会削弱特征表示,特别是对微小目标检测至关重要的局部结构和边缘细节[13]。
为了解决这些挑战,我们提出了UA-YOLO,这是一种基于YOLO11构建的具有不确定性意识的UAV检测网络,用于实现鲁棒检测。具体来说,我们引入了一个具有不确定性意识的特征自校准模块(UA-FSCM),该模块聚合多尺度特征以重新加权空间位置,并使用估计的不确定性校准特征层次,从而减少视觉上相似目标之间的漏检。此外,我们设计了一个轻量级的结构细化模块(LSRM)。它使用多分支卷积来捕捉小尺度细节,然后在推理过程中将这些细节重新参数化为单个卷积层。本工作的主要贡献总结如下。
•UA-FSCM利用多尺度上下文来重新加权空间特征,并在每个层次使用不确定性估计进行校准,从而获得更准确的表示。
•LSRM使用具有不同感受野的多分支膨胀卷积来捕捉结构细节,然后通过结构重新参数化将这些细节合并为单个内核。
•我们将UA-FSCM和LSRM集成到YOLO11中,创建了一个名为UA-YOLO的无人机检测框架,并在四个公共数据集上进行了全面实验,验证了其相对于最先进方法的改进的鲁棒性和准确性。
章节片段
基于视觉的UAV检测
基于视觉的UAV检测作为低空监测和空域安全的实际解决方案受到了广泛关注。受到通用对象检测成功的启发,一些工作直接将最先进的检测网络应用于UAV任务。例如,Zheng等人[2]引入了Det-Fly数据集用于空中对空UAV检测,并在其上评估了八种深度学习算法。同样,Isaac-Medina等人[1]评估了四种先进的检测模型
我们的方法
我们在图2中展示了UA-YOLO的总体架构。它由两个核心模块组成,即具有不确定性意识的特征自校准模块(UA-FSCM)和轻量级结构细化模块(LSRM)。UA-FSCM用于利用跨层次上下文信息进行自适应特征重新校准,提高在视觉相似干扰下的响应可靠性。LSRM旨在通过多分支卷积增强小尺度结构细节,并保持推理效率
数据集
为了全面评估所提出的模型,选择了四个具有挑战性的无人机检测数据集,涵盖了包括空中对空、地面対空和混合无人机-鸟类检测在内的代表性场景。具体来说,Det-Fly [22] 和 FL-Drone [23] 对应于具有不同背景和视点的空中对空任务,TIB-Net [6] 代表具有极小和模糊目标的地面対空检测,而 Drone vs. Flying Bird 强调了视觉上相似目标的区分
结论
本文提出了UA-YOLO,这是一种用于在杂乱航空场景中实现鲁棒检测的具有不确定性意识的UAV检测器。我们引入了UA-FSCM,该模块估计分类不确定性以评估特征可靠性并校准多级特征。我们进一步开发了LSRM,这是一个轻量级的结构细化模块,它使用多分支卷积捕捉细节,并在推理过程中重新参数化为单个卷积层。通过将UA-FSCM和LSRM集成到YOLO11中
CRediT作者贡献声明
Jie Zhang:方法论、验证、可视化、写作——原始草稿,写作——审阅与编辑。Fen Xiao:资金获取、调查、项目管理、监督。Han Xiang:数据管理、方法论、可视化。Xieping Gao:调查、资源管理、监督。Baokang Ouyang:数据管理、形式分析、验证。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本研究得到了中国国家自然科学基金(项目编号62376238、62372170、12571591)、湖南省教育厅科研经费(项目编号2023JGSZ032)和湖南省研究生科研创新项目(项目编号LXBZZ2024125、XDCX2024Y282)的支持。