《Digital Signal Processing》:ME-DETR: A Multi-scale Enhanced DEtection TRansformer with Low-quality Query Filter DeNoising for Aerial Oriented Object Detection
编辑推荐:
ME-DETR提出了一种高效的空中图像定向目标检测模型,通过多尺度增强编码器(ME encoder)融合不同尺度的特征,采用低质量查询过滤去噪(LQFDN)训练策略提升检测精度,同时优化解码器适应定向检测需求。实验表明,ME-DETR在DOTA和DIOR-R数据集上达到78.35%和71.28%的mAP,推理速度分别为15.2和18.2 FPS。
作者:史帅 | 张莉
中国江苏省苏州市苏州大学计算机科学与技术学院,邮编215006
摘要
在航空图像中进行定向对象检测的挑战在于对象的任意方向、密集分布以及大规模的变化。尽管基于Detection Transformer(DETR)的端到端模型在定向对象检测方面取得了优异的性能,但它们存在推理速度慢的问题。为了解决这个问题,本文提出了一种多尺度增强型DETR(ME-DETR),以实现高效且有效的航空图像定向对象检测。ME-DETR是一个端到端的检测模型,包括三个部分:主干网络、编码器和解码器。对于编码器部分,我们设计了一种新颖的多尺度增强(ME)编码器,能够高效地融合多尺度特征。ME编码器主要包含三个与多尺度信息融合相关的模块:细粒度增强内尺度特征交互(FEIFI)、多尺度特征融合(MFF)和多接收域特征提取(MRFE)。具体来说,FEIFI模块结合了低级特征以丰富内尺度特征交互过程,然后输出具有丰富细粒度信息的特征;MFF模块实现了多尺度特征融合,有效增强了高级特征中的细节信息并减少了背景干扰;MRFE模块利用不同大小的卷积有效地提取了具有丰富多尺度信息的特征。为了在不影响推理速度的情况下进一步提高性能,我们提出了一种低质量查询滤波去噪(LQFDN)训练方案,该方案能够自适应地过滤掉低质量的去噪正样本。我们在三个定向对象检测数据集(DOTA-v1.0、DOTA-v1.5和DIOR-R)上进行了广泛的实验。具体而言,当使用ResNet50作为主干网络时,ME-DETR在DOTA-v1.0上的mAP达到了78.35%,推理速度为15.2 FPS,在DIOR-R上的mAP达到了71.28%,推理速度为18.2 FPS。
引言
近年来,研究人员一直在投资于能够有效处理和分析航空图像的定向对象检测技术。Yusuf等人[1]和Alshehri[2]指出,航空图像中的对象具有显著的比例变化和较高的背景干扰敏感性,因此航空定向对象检测极具挑战性。幸运的是,深度学习带来了新的技术,并已应用于航空定向对象检测,包括两种主流模型:卷积神经网络(CNN)和Transformer。
基于CNN的定向对象检测器可以分为两类:单阶段检测器[3]、[4]、[5]和双阶段检测器[6]、[7]、[8]。尽管这些检测器取得了优异的性能,但它们不可避免地引入了一些手工设计的组件,如旋转感兴趣区域(RoI)生成器、旋转RoI特征提取器和旋转非最大值抑制(NMS)。这些组件不仅复杂化了模型的检测过程,还降低了其泛化能力。
Detection Transformer(DETR)[9]的出现为端到端检测提供了可能性。基于DETR,提出了一系列优秀的定向对象检测模型,例如纵横比敏感DETR(ARS-DETR)[10]和定向DETR[11]。尽管这些模型在公共数据集上取得了非常高的准确率,但由于采用了效率较低的编码器,它们仍然存在推理速度慢的问题。
为了改善航空定向对象检测的推理速度问题,我们采用了赵等人[12]最近提出的快速检测器Real-Time DETR(RT-DETR)。RT-DETR具有高效的混合编码器,实现了内尺度特征交互和跨尺度特征融合的思想。尽管RT-DETR在水平对象检测任务上实现了速度和准确性的平衡,但它不适用于定向对象检测。首先,RT-DETR无法捕捉对象的方向,这是定向对象检测所需的额外预测。其次,RT-DETR的混合编码器难以补充高级特征下采样过程中丢失的细节信息,无法有效抑制背景干扰,且缺乏提取多尺度上下文的能力。上述问题阻碍了RT-DETR在航空定向对象检测中的应用。
本文利用RT-DETR提出了一种新的航空定向对象检测器,称为多尺度增强型DETR(ME-DETR)。为了在检测效率和性能之间取得平衡,我们设计了一种新颖的多尺度增强(ME)编码器和低质量查询滤波去噪(LQFDN)训练方案。ME编码器旨在高效融合从主干网络提取的多尺度特征,而LQFDN则自适应地过滤掉低质量的去噪正样本。此外,我们还设计了一个适配的解码器来修改RT-DETR解码器以适应定向对象检测。本文的主要贡献如下:
- (1)
为了适应航空图像的特点,本文开发了ME编码器,该编码器能够高效融合多尺度特征。为了更好地提取和融合多尺度信息,编码器包含了细粒度增强内尺度特征交互(FEIFI)模块、多尺度特征融合(MFF)模块和三个多接收域特征提取(MRFE)模块。在内尺度交互过程中,FEIFI可以结合低级特征和高级特征,然后输出具有丰富细粒度信息的特征。MFF模块的目标是融合多尺度特征。在MFF中,集成的多尺度注意力(MA)模块可以有效补充高级特征中缺失的细节信息,同时抑制背景噪声。MRFE通过使用不同大小的卷积核提取具有丰富多尺度信息的特征。
- (2)
本文设计了一种新的训练方案,称为低质量查询滤波去噪(LQFDN)。我们的方案通过考虑匹配预测与真实标签(GTs)之间的匹配成本来过滤掉低质量的去噪正样本,从而有效提升模型的检测性能。
- (3)
本文基于ME编码器、适配的解码器和LQFDN训练方案提出了ME-DETR检测器。ME-DETR在推理速度和检测精度之间取得了平衡。在公共航空图像数据集上进行了广泛的实验。实验结果表明,ME-DETR能够在快速推理速度下实现优异的准确率。
本文的其余部分组织如下。第2节介绍了相关工作,包括经典的航空定向对象检测模型、多尺度特征融合策略和去噪训练方案。第3节详细描述了所提出的ME-DETR。第4节对ME-DETR的有效性进行了全面实验验证。最后,我们在第5节总结了本文的工作。
部分摘录
定向对象检测方法
在过去的十年中,研究人员提出了许多用于航空定向对象检测的深度学习模型。这些模型基本上源自CNN或Transformer。
基于CNN的定向对象检测模型取得了显著进展,主要分为单阶段和双阶段方法。单阶段方法为密集覆盖特征图的每个锚框或锚点预测偏移量和类别,典型的代表包括
ME-DETR的架构
如第1节所述,RT-DETR在自然图像的对象检测中速度较快且效率较高。本文将RT-DETR引入航空图像的定向对象检测,并提出了ME-DETR。与RT-DETR类似,我们的ME-DETR主要由主干网络、编码器和解码器组成。对于ME-DETR,我们重新设计了ME编码器和LQFDN训练方案,并使解码器适应定向对象检测。
ME-DETR的架构如图1所示。给定一张图像,ME-DETR首先
数据集和实现细节
为了验证所提出的ME-DETR的有效性,我们在DOTA [38]和DIOR-R [39]数据集上进行了广泛的实验,其中DOTA数据集有两个版本:DOTA-v1.0和DOTA-v1.5。
- •
DOTA-v1.0是一个大规模的定向对象检测数据集,包含2806张图像,分辨率范围从800×800到4000×4000像素。该数据集分为训练集、验证集和测试集,分别包含1411张、458张和937张图像。总体而言,DOTA-v1.0包括
结论
在本文中,我们提出了一种高效的定向DETR模型ME-DETR。在我们的ME-DETR中,我们设计了ME编码器以有效提取多尺度信息并抑制背景干扰,以及适配的解码器用于定向检测,还有LQFDN训练方案用于根据预测的匹配成本自适应地过滤掉低质量的去噪正样本。消融实验证实,ME编码器和LQFDN方案中的所有组件都对提高检测性能有效。
CRediT作者贡献声明
史帅:方法论、软件、验证、撰写——原始草稿、撰写——审阅与编辑。张莉:概念化、方法论、软件、撰写——审阅与编辑、验证、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。