编辑推荐:
小目标检测在无人机图像中面临低分辨率、弱语义特征等挑战,本文提出DCO-CRSA框架通过多流网络实现跨分辨率语义对齐,结合对抗域优化提升低分辨率特征一致性,实验在VisDrone等数据集上验证了检测精度和鲁棒性提升。
涂晓光|曾高|林伟|张艳艳|刘建华|杨明|何Rubin|张天乐|李学龙
中国民用航空飞行大学航空电子与电气学院,成都,641450,四川,中国
摘要
在无人机(UAV)航拍图像中检测小物体仍然是计算机视觉领域的一个重大挑战,这主要是由于视觉信息有限、语义特征较弱以及空间分辨率较低。尽管已经提出了许多技术来解决这些问题,但仍存在一些挑战,包括特征表示不足、语义和空间不对齐以及对上下文线索的过度依赖。此外,现有方法通常优先考虑结构对齐,而没有考虑保留特定领域的特征,这可能导致领域漂移和泛化能力下降。为了克服这些挑战,我们提出了一种名为“跨分辨率语义对齐的领域一致性优化”(Domain Consistency Optimization for Cross-Resolution Semantic Alignment)的新框架。该框架重新审视了小物体特征的内在特性及其与分辨率的依赖性,旨在在不同分辨率下同时对齐语义特征,同时保持低分辨率特征的领域特异性一致性。此外,我们还引入了“分层语义重构”(Hierarchical Semantic Recapitulation)来增强跨分辨率特征的语义引导学习,并提出了“空间-频率双域学习”(Spatial-Frequency Dual-Domain Learning)方法,通过利用空间和时间特征来有效处理多尺度信息。在包括VisDrone和UAVDT在内的多个UAV视觉基准测试中的广泛实验表明,我们的框架具有优越性。所提出的方法在UAV航拍图像中的小物体检测准确性和鲁棒性方面都取得了显著的提升,为UAV在智能监控和遥感分析中的应用奠定了坚实的基础。
引言
在UAV视觉领域,小物体检测是一项关键任务,它支撑着许多实际应用,如自主导航、基于UAV的智能监控和UAV驱动的遥感分析。尽管其重要性不言而喻,但小物体检测在计算机视觉中仍然面临重大挑战[1]、[2]、[3]、[4]、[5]。根本的难点在于这些物体本身的视觉信息非常有限。这通常导致语义特征较弱、边界模糊以及空间分辨率较低。因此,检测模型生成丰富且具有区分性的特征表示的能力受到显著限制,使得准确定位和分类小物体变得困难。
传统的物体检测方法,如Faster R-CNN [6]、YOLO [7] 和RetinaNet [8],在检测常规大小的目标时表现优异,但在UAV航拍图像中的小物体检测任务上性能显著下降。Faster R-CNN作为一个两阶段物体检测框架,依赖于候选区域的生成和高质量的特征表示。然而,在处理小物体时,低分辨率特征无法捕捉到细节,导致检测准确率较低。YOLO将检测视为快速目标检测的回归任务,优化了其卷积网络结构以适应较大物体,但忽略了小物体的特征提取。RetinaNet引入了焦点损失(focal loss)来缓解类别不平衡问题,但其特征提取器在低分辨率条件下仍表现不佳,无法有效识别极小的物体。
尽管多尺度特征融合[9]、[10]、[11]、[12]、超分辨率[13]、[14]、[15]、[16]、[17]、[18]以及上下文注意力[19]、[20]、[21]、[22]、[23]、[24]、[25]等方法改进了小物体检测,但仍存在一些挑战,包括特征表示不足、语义和空间不对齐、噪声放大以及对上下文线索的过度依赖。
在Deng等人的工作中[26],基于特征金字塔网络(Feature Pyramid Networks [27])进行了改进,并提出了特征纹理传输(Feature Texture Transfer, FTT)模块,通过利用参考特征的纹理信息来增强小物体检测。然而,如果参考特征模糊(例如,由于输入质量低),超分辨率性能会受到限制,从而限制了网络重建极小物体区分性细节的能力。此外,尽管设计了强调前景区域的损失函数,该方法在密集场景中仍可能无法检测到小物体。在相关研究中,Bashir等人[14]提出了SRCGAN-RFA-YOLO,这是一种结合残差特征聚合的超分辨率生成对抗网络,旨在改进小物体检测。随后,Luo等人[28]提出了CE-FPN,通过引入亚像素卷积和通道注意力机制来减轻FPN中的通道信息损失和混叠效应。然而,在通道增强过程中,亚像素卷积可能会引入伪影,特别是在较低级别特征图中包含大量噪声的情况下,从而影响小物体的定位精度。此外,Chen等人[29]通过集成DenseNet、注意力机制和重新设计的FPN来增强小物体检测。虽然这种方法显著提高了检测性能,但高效的通道注意力模块与空间注意力结合可能会过度关注局部区域,可能忽略分散的小物体。最后,Liu等人[30]提出了去噪特征金字塔网络(Denoising Feature Pyramid Network, DN-FPN),该网络在特征融合过程中限制了融合特征与底层几何特征和高级语义特征之间的一致性,以抑制噪声。然而,其对像素强度极低的目标特征的增强效果仍然不足。总体而言,这些限制,包括纹理退化、对噪声的敏感性以及在复杂背景下的鲁棒性不足,在UAV航拍图像中尤为明显,其中密集的目标和异质纹理给小物体检测带来了重大挑战。
尽管有这些进展,但很少有研究探索如何通过增强深度语义空间中小物体特征与常规大小物体特征之间的结构相似性来提高检测准确性。尽管某些方法(如ZoomInNet [31]和HR-FPN [32])提出了特征对齐或特征增强方法来优化小物体的特征,但它们往往忽略了一个关键方面,即低分辨率特征在其原始分辨率领域内保持的内在领域一致性。这种语义上的忽视可能导致领域漂移,即对齐过程破坏了低分辨率特征的内在结构。因此,模型的泛化能力会受到影响,特别是在实际UAV应用场景中,小物体具有模糊的纹理和模糊的边界。因此,仅在结构或几何层面对齐特征是不够的。为了在UAV图像中实现稳健的小物体检测,保持特定领域的语义一致性至关重要,确保对齐过程在不同尺度上保持低分辨率特征表示的内在语义一致性。
为了解决这一根本限制,我们提出了一个基于“跨分辨率语义对齐的领域一致性优化”(DCO-CRSA)的新框架。我们的核心思想是同时对齐跨分辨率特征并保持低分辨率特征的领域特异性一致性。为此,我们设计了一个多流网络架构,该架构结合了高分辨率特征指导和对抗性跨域对齐,以增强和保持低分辨率特征表示的一致性。这种设计在保持低分辨率特征的领域特性的同时,提高了跨分辨率的语义对齐能力,从而防止了领域漂移并提高了检测准确性。
我们提出的方法是原理性强且有效的,充分利用了可用的数据资源。如图1和图2所示,我们的方法在小物体检测方面表现出显著的效果,并且在低光照、强光照干扰和极小目标尺寸等具有挑战性的条件下也表现出强大的鲁棒性。我们的贡献总结如下:
- •
我们提出了一个多流网络,通过无缝集成高分辨率特征指导和针对低分辨率特征的对抗性跨域对齐,显著增强了小物体检测能力。
- •
我们重新审视了跨分辨率特征对齐问题,强调了小物体特征在其原始分辨率领域内的内在领域一致性,通过保留关键特征特性和防止领域漂移,为小物体检测提供了新的见解。
- •
我们引入了“分层语义重构”和“空间-频率双域学习”等概念,以改进所提出的小物体检测网络,使特征表示更加稳定,并在具有挑战性的条件下实现更准确的检测。
- •
我们通过在多个小物体基准数据集上的广泛实验验证了所提出方法的有效性,显示出在检测准确性、鲁棒性和泛化能力方面的显著提升,特别是在具有挑战性的实际条件下。
相关工作
相关工作
目前,小物体检测方法大致可以分为三类:多尺度特征融合、上下文增强和超分辨率。
多尺度特征融合。 多尺度特征融合通过元素级加法、通道连接和特征变换等方法有效结合了不同尺度的特征图。其中,具有不同膨胀率的自适应膨胀卷积(dilated convolutions)特别有效,因为它们能够扩展特征图的范围。
提出的方法
在本节中,我们将详细介绍DCO-CRSA框架。DCO-CRSA围绕两个关键组件构建,即跨分辨率语义对齐(Cross-Resolution Semantic Alignment)和领域一致性优化(Domain Consistency Optimization)。首先,我们概述了该框架的整体设计理念,包括多分支架构、特征对齐策略和对抗性领域学习。然后,我们详细介绍了每个组件的具体网络设计。
实验结果
在本节中,我们在多个具有挑战性的基准测试上进行了实验,以验证DCO-CRSA的有效性和泛化能力。首先,我们介绍了实验设置,然后进行了消融研究,评估了每个关键组件,即HSR、SFDDL和领域一致性优化(DCO)。特别是,DCO引入了一个领域对齐分支,以强制合成数据和真实数据之间的对抗性领域适应。接下来,我们将我们的方法与最先进的检测器进行了比较。
结论
我们提出了DCO-CRSA,这是一种新颖的小物体检测框架,它将跨分辨率语义对齐与领域一致性优化相结合。我们的三分支多流网络同时对齐高分辨率和低分辨率特征,同时保持领域特异性特征,有效减轻了领域偏移并提高了特征鲁棒性。为了进一步增强低分辨率特征表示,我们整合了分层语义重构(Hierarchical Semantic Recapitulation)。
作者贡献声明
涂晓光:撰写 – 审稿与编辑、撰写原始草案、可视化、方法论、研究调查、资金获取、形式分析。曾高:撰写原始草案、可视化、方法论、研究调查、数据管理、概念化。林伟:验证、监督。张艳艳:形式分析、数据管理、概念化。刘建华:验证、监督。杨明:资源管理、项目协调。何Rubin:监督、研究调查、形式分析。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了国家自然科学基金(编号62406207、U2333211)、四川省自然科学基金(编号2025ZNSFSC1502、2024NSFSC0866)、四川省通用飞机维护工程技术研究中心项目(编号GAMRC2023YB06)以及中国中央高校基本科学研究项目(编号25CAFUC03023)的支持。