编辑推荐:
密集目标检测与遮挡场景优化:基于Transformer的无人机图像检测框架DRONet通过OAKB模块增强特征区分、PSI模块选择性融合多尺度特征、SDEA模块扩展感受野,在VisDrone和CARPK数据集上实现mAP50 50.1%和98.7%,较RT-DETR提升3.1%和0.7%且保持60FPS实时性。
Jiajun Qian|Chongben Tao|Xizhao Luo|Zhen Gao|Tian Wang|Fengjun Xiao|Feng Cao|Zufeng Zhang
苏州科技大学电子与信息工程学院,中国苏州215009
摘要
在基于无人机的多目标检测中,密集分布和严重遮挡的目标常常导致特征表示不完整以及检测遗漏。为了解决这些问题,本文提出了一种适用于无人机(UAV)图像的密集感知遮挡网络(DRONet)。DRONet基于RT-DETR框架,并引入了三个专为密集和遮挡场景设计的模块。首先,将一个具有遮挡感知能力的KANC模块(OAKB)集成到ResNet18主干网络中。通过结合Kolmogorov–Arnold网络和GRAM多项式扩展,OAKB增强了对破碎和遮挡目标的区分能力,同时缓解了传统KAN的延迟瓶颈。其次,开发了一个感知空间集成(PSI)模块用于特征融合网络。PSI用部分卷积和跨多个尺度的通道混合替代了简单的连接方式,以选择性地在杂乱背景中增强小目标特征。最后,可扩展扩张高效聚合(SDEA)模块利用多速率扩张卷积和结构重参数化来聚合深度特征,扩大了小目标和遮挡目标的有效感知场,而不会增加推理时间复杂度。在VisDrone和CARPK数据集上的实验表明,DRONet的mAP50分数分别为50.1%和98.7%,比RT-DETR基线分别提高了3.1%和0.7%,同时保持了60 FPS的帧率。这些结果证实了DRONet在密集遮挡的无人机场景中提高了检测精度和稳定性。本手稿被接受后,源代码和预训练模型将公开提供。
引言
无人机工程的不断发展,结合其灵活的飞行能力和高清摄像头,为从交通监控和城市监测到复杂的工业任务(如结构健康检查)等不同应用提供了丰富的对象检测数据[3]。最近的进展进一步将基于无人机的感知技术扩展到了具有挑战性的场景,例如在复杂环境条件下检测微型无人机的结构损伤[2]以及使用体积推理进行层次化损伤评估[1]。然而,尽管在应用层面取得了这些突破,一个基本的视觉感知问题仍然存在:无人机拍摄的图像中密集的对象分布和严重的遮挡继续降低了检测精度,特别是对于小目标和重叠目标。
目前,深度学习技术的进步显著影响了对象检测领域。经典的对象检测算法通常分为两类:单阶段算法和两阶段算法。前者以YOLO系列为代表,从早期版本迅速发展到最近的YOLOv9、v10、v11和v12(Wang, C.-Y.等人,2024;Wang, A.等人,2024;[20],[30]),不断推动速度和精度的边界。后者以R-CNN系列为代表[16],[27],这些算法历史上更注重精度,但在实时推理速度上往往有所不足。
DETR[4]被认为是第一个将Transformer架构引入对象检测领域的框架。通过持续的研究努力,DETR算法发展出了实时变体,如RT-DETR[42]和DEIM[19]。这些模型利用高效的混合编码器,在速度和精度指标上超越了传统的基于CNN的方法。然而,即使这些最先进的(SOTA)模型在处理无人机图像中密集分布和严重遮挡条件下的小目标检测遗漏问题上仍面临挑战。
为了解决上述问题,本文提出了一种用于无人机对象检测的密集感知遮挡网络(DRONet)。我们的方法在现有高效架构的基础上,引入了针对密集和遮挡无人机场景的定制机制。首先,设计了一个具有遮挡感知能力的KANC模块(OAKB)。虽然采用了基础的Kolmogorov–Arnold网络的非线性表示能力,但提出的OAKB创新性地结合了GRAM多项式扩展,以缓解传统KAN的计算延迟瓶颈,从而在保持速度的同时增强了特征区分能力。其次,设计了一个感知空间集成(PSI)组件来提高小目标的识别精度。与标准融合模块不同,PSI结合了部分卷积和通道混合,有效抑制背景噪声,同时保留了细节。随后,设计了一个可扩展扩张高效聚合(SDEA)模块。该模块利用GELAN结构的高效梯度路径,但通过引入可扩展扩张卷积和结构重参数化来扩展多尺度无人机目标的有效感知场,对推理延迟的影响最小。最后,提出了一种融合PSI和SDEA模块的特征融合算法,以确保高效的多级特征交互。
本文的主要贡献如下:
1.提出了一种基于Transformer的检测框架——密集感知遮挡网络(DRONet),专为密集和遮挡的无人机图像设计。该算法有效地结合了卷积神经网络的深度特征提取能力和Transformer架构的全局上下文建模能力,实现了对严重重叠目标的稳健检测,同时保持了实时性能。
2.设计了一个具有遮挡感知能力的KANC模块(OAKB),并将其集成到ResNet18主干网络中。与传统的KAN不同,OAKB结合了GRAM多项式扩展,构建了频率多样化的核,缓解了计算瓶颈。这一设计显著提高了对破碎和遮挡目标的区分能力,性能提升和内存访问成本分析均证明了这一点。
3.提出了一种特征融合算法,该算法结合了感知空间集成(PSI)和可扩展扩张高效聚合(SDEA)模块。PSI用部分卷积和跨三个尺度的通道混合替代了简单的连接方式,以选择性地在杂乱背景中强调小目标特征。SDEA通过可扩展扩张卷积和结构重参数化扩展了大核聚合,有效扩大了小目标和遮挡目标的有效感知场,同时保持了较低的推理时间复杂度。
以下部分概述了本文的结构:第2节回顾了现有的无人机对象检测研究,特别关注现有策略在处理遮挡问题时所面临的限制。第3节详细描述了DRONet的架构设计,包括OAKB、PSI和SDEA模块等关键组件。第4节描述了实验设计,并详细分析了结果,突出了DRONet相对于现有方法的优势。最后,第5节总结了主要发现。
部分摘录
单阶段视觉检测方法
单阶段检测器的主要目标是在不牺牲精度的情况下提高检测速度。You Only Look Once(YOLO)系列是这一研究领域的一个重要里程碑。Redmon等人[26]首次将对象检测表述为单阶段回归问题,后续版本不断优化架构,以实现精度和速度之间的更好平衡
YOLOv8 [32]引入了C2f构建块,以增强特征重用和梯度
DRONet的原理
所提出的DRONet框架如图1所示,它结合了基于RT-DETR的主干网络、编码器和解码器。在主干网络部分,提出了一个具有遮挡感知能力的KANC模块(OAKB),该模块能够在密集目标场景中高效提取多尺度上下文信息,提高模型的属性识别能力。在编码器部分,设计了一种新的特征融合算法,用于信息交互和融合
数据集
实验使用了VisDrone数据集[14]和CARPK数据集[17]。VisDrone整合了14个中国城市中各种无人机拍摄的10,209张航拍图像,涵盖了多样的场景、天气和光照条件。该数据集包括10个类别(行人、人、汽车、货车、公交车、卡车、摩托车、自行车、遮阳伞、三轮车),分为6,471张训练图像、548张验证图像和3,190张测试图像。CARPK包含来自四个停车场的1,448张图像,其中包含近90,000辆汽车
结论
DRONet是一种专门针对无人机航拍场景中密集分布和遮挡问题设计的小目标检测方法。通过在RT-DETR框架上引入OAKB、PSI和SDEA模块,DRONet显著增强了对破碎和严重重叠目标的特征表示能力。在VisDrone和CARPK数据集上的实验表明,DRONet的mAP50分数分别为50.1%和98.7%,超过了RT-DETR
未引用的参考文献
Chen等人[8],Wang等人[33],Wang等人[34]。利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。