DCGANet:融合选择性变量卷积与动态内容引导注意力机制,用于红外小目标检测

《Knowledge-Based Systems》:DCGANet: Fusing Selective Variable Convolution and Dynamic Content-Guided Attention for Infrared Small Target Detection

【字体: 时间:2026年02月16日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  红外小目标检测存在特征稀缺和低信噪比挑战。本文提出DCGANet,采用动态卷积调整感受野,模拟人眼搜索的动态注意力机制,结合自适应多尺度特征融合模块,有效抑制背景干扰。实验在三个数据集上IoU达78.81%、72.63%、91.25%,但极端暗目标检测仍有局限。

  
陈一睿|朱一鸣|闵书燕|邱赵琪|胡昂龙|王屯屯|张天培
武汉大学电子信息学院,中国湖北省武汉市 Bayi 路 299 号,430072

摘要

红外小目标检测(IRSTD)由于需要在复杂、杂乱的背景中识别微小目标而面临重大挑战。传统的卷积神经网络(CNN)往往难以完成这项任务,因为它们固定的局部感受野无法捕捉全局依赖性,而重复的下采样操作则容易使稀疏的目标特征淹没在背景噪声中。为了解决这些限制,我们提出了动态内容引导注意力多尺度特征聚合网络(DCGANet)。我们方法的核心是选择性变量卷积(SVC)模块,它结合了标准卷积、可变形卷积和多速率膨胀卷积。这种设计使网络能够动态调整其感受野,有效捕捉各种目标结构。此外,一种新颖的两阶段内容引导注意力机制模拟了“粗略到精细”的搜索策略;它首先引导网络关注显著区域,然后进一步精确定位目标与背景干扰,从而减少误报。我们还引入了自适应动态特征融合(ADFF)模块,以促进不同尺度之间的信息协同。与静态聚合不同,ADFF 能够自适应地整合层次化上下文信息,防止语义丰富的特征被噪声稀释。在 SIRST、IRSTD-1K 和 NUDT-SIRST 基准测试中的广泛实验表明 DCGANet 的有效性,分别实现了 78.81%、72.63% 和 91.25% 的交并比(IoU)分数。最后,我们讨论了当前在极弱目标方面的局限性,并提出了时空建模和模型压缩的未来发展方向。

引言

红外成像技术是现代监控系统的重要组成部分,在军事防御[1]、海上搜救[2][3]和远程环境监测[4][5]中发挥着重要作用。由于成像距离远,这些场景中的目标通常表现为缺乏详细形状和纹理信息的暗点[4][6]。因此,红外小目标检测(IRSTD)对于在复杂背景中识别这些目标以保持有效的态势感知至关重要。
然而,这项任务面临着由远距离目标的成像特性带来的固有挑战[7]。如图 1 所示,真实目标(红色框)由于成像距离远,通常表现为缺乏详细纹理的点状目标。相比之下,高强度背景杂乱(绿色框),如云边缘,其强度和形态特征与目标非常相似。这种视觉模糊性对鲁棒检测构成了两个主要障碍:
  • 1.
    特征稀缺:红外目标本身缺乏颜色信息。此外,远距离成像和大气衰减限制了分辨率,导致难以区分目标与复杂的背景干扰。
  • 2.
    信噪比(SNR)低:小目标发出的热辐射较弱,与背景噪声的对比度低,严重阻碍了检测和识别。
克服特征稀缺和低信噪比的挑战对于实现精确检测至关重要。为了提高 IRSTD 的性能,必须抑制模仿目标特征的背景杂乱。这需要能够增强真实目标微妙内在特征的方法,并结合上下文分析将其与周围干扰区分开来。
为了实现这些目标,传统的基于模型的 IRSTD 方法通常分为三类:基于滤波器的方法、基于人类视觉系统(HVS)的方法和基于低秩矩阵(LRM)的方法。具体来说,基于滤波器的方法[8][9][10][11]使用专用滤波器提取小目标。基于 HVS 的方法[12][13][14]通过利用局部对比度机制来识别目标。基于 LRM 的方法[15][16]通过将红外图像建模为低秩背景和稀疏目标组件的叠加来检测目标。然而,这些传统方法由于无法从数据分布中学习或适应动态环境,因此在复杂场景中的性能往往不佳。
这些局限性,特别是传统方法中缺乏自适应表示学习,推动了深度学习的应用,深度学习在数据驱动的 IRSTD 方面取得了显著改进[17]。针对核心挑战,最近的研究重点在于加强弱特征表示,优先考虑梯度边缘[18]、上下文信息[19][20][21]和局部对比度[23][24]。
然而,尽管取得了这些进展,当前的深度学习方法仍存在显著的研究空白。大多数现有网络将 IRSTD 视为一个通用的分割任务,应用静态操作,无法考虑红外目标的极端稀疏性和变异性。具体来说,现有文献的局限性主要体现在三个方面:
  • 1.
    固定不变的感受野和特征丢失:现有的基于 CNN 的方法通常使用固定大小的卷积核。这种静态感受野无法处理小目标的极端尺度变化。浅层网络无法捕捉必要的非局部上下文,而深层网络则因过度下采样导致微小目标(通常小于 3×3 像素)的特征在检测前消失。
  • 2.
    静态注意力用于干扰抑制:虽然像 SE[25] 和 CBAM[21] 这样的注意力机制被广泛使用,但它们通常静态地建模通道或空间关系。它们缺乏区分目标热辐射和高强度背景杂乱(例如云边缘)所需的动态适应性,导致目标信号经常被背景噪声掩盖。
  • 3.
    静态特征融合:当前架构通常依赖简单的跳跃连接(例如连接或加法)进行特征融合[26]。这种简单的方法忽略了编码器和解码器特征之间的语义差异,使得浅层背景噪声会污染深层语义特征,限制了网络在复杂动态场景中的鲁棒性。
为了克服这些局限性,并弥合刚性网络结构和动态红外目标之间的差距,本研究提出了一个新颖的框架:动态内容引导注意力多尺度特征聚合网络(DCGANet)。这项工作的核心动机是将动态适应性引入检测流程的每个阶段。与依赖静态主干网络的方法不同,我们的方法明确模拟了人类视觉系统的动态搜索机制。
我们通过三项核心创新来实现这一点,以直接解决已识别的差距:
首先,为了解决固定不变的感受野问题,我们提出了选择性变量卷积(SVC)。它结合了多分支自适应核,平衡局部细节和全局上下文,使网络能够动态调整其感受野以适应不同尺度的目标。
其次,为了解决静态注意力的局限性,我们设计了动态内容引导注意力(DCGA)机制。这一新颖模块模拟了人类视觉系统的“粗略到精细”的搜索模式,动态生成内容感知的空间重要性图(SIM),以精确增强目标特征,同时主动抑制背景干扰。
最后,为了纠正静态特征融合问题,我们引入了自适应动态特征融合(ADFF)模块。它用动态的空间选择机制替代了传统的静态跳跃连接,智能地加权特征,防止深层语义表示被浅层噪声污染。
本文的主要贡献总结如下:
  • 1.
    我们提出了DCGANet,一个将特征学习、上下文引导注意力和特征融合集成到分层动态流程中的统一框架。该框架有效地弥合了刚性 CNN 设计和动态、稀疏红外目标之间的差距,实现了准确性、鲁棒性和可解释性的联合优化。
  • 2.
    DCGA的核心是模仿 HVS 的“快速扫描到精细聚焦”过程。通过利用红外成像的物理特性——特别是特征通道之间的差异响应——通过通道分组细化来优先和定位潜在目标区域,同时有效抑制无关背景。
  • 3.
    我们的SVC结合了可变形卷积、多尺度膨胀卷积和标准卷积。这种架构通过其广阔且自适应的感受野增强了真实目标与误报之间的区分能力。
  • 4.
    ADFF
    模块显著扩展了主网络的感受野,通过动态特征融合策略更准确地区分真实目标和误报。

相关工作

相关工作

本节回顾了与我们研究相关的文献。讨论分为两个主要维度:第 2.1 节全面概述了红外小目标检测(IRSTD)方法,分为基于模型和基于数据的范式。第 2.2 节讨论了视觉注意力机制的演变,并分析了它们在 IRSTD 具体背景下的局限性,从而阐明了我们提出框架的动机。

方法论

DCGANet 的整体架构如图 2 所示。该网络建立在类似 U-Net 的分层主干网络上,由三个核心组件组成:选择性变量卷积(SVC)、动态上下文引导注意力(DCGA)和自适应动态特征融合(ADFF)模块。具体来说,编码器路径包括三个级联阶段。这种深度设计旨在减轻由于过度下采样导致的小目标特征侵蚀。

数据集

为了严格评估我们方法的性能和泛化能力,我们在三个广泛认可的红外小目标检测数据集上进行了全面的基准测试:SIRST[19]、IRSTD-1K[39]和 NUDT-SIRST[21]。这些数据集在目标特征、背景杂乱和成像条件方面具有相当大的多样性,从而能够对检测方法进行稳健的验证。
  • SIRST:该数据集包含 427 张真实世界图像,涵盖了多种

局限性与讨论

虽然 DCGANet 在通用基准测试中表现出良好的性能,但对其在极端条件下的局限性进行关键分析对于理解其失败模式至关重要。为了彻底研究其能力边界,我们将 SIRST、IRSTD-1K 和 NUDT-SIRST 的测试样本分为三个具有不同物理属性和场景复杂性的子集:
  • 1.
    微小目标:面积 ≤ 3×3 像素的目标。这些实例容易受到严重影响
  • 结论

    在本文中,我们提出了 DCGANet,这是一个旨在解决在复杂环境中检测红外小目标挑战的框架。现有的基于 CNN 的方法由于固定感受野和刚性下采样操作而经常面临特征丢失的问题。为了解决这些问题,我们在检测流程中引入了三个动态组件。首先,选择性变量卷积(SVC)自适应调整感受野以捕获不同尺度的目标

    CRediT 作者贡献声明

    陈一睿:撰写——原始草稿、方法论、形式分析。朱一鸣:资源获取、资金筹集。闵书燕:方法论、形式分析。邱赵琪:形式分析。胡昂龙:方法论。王屯屯:方法论。张天培:撰写——审阅与编辑、概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号