混合卷积神经网络与选择性状态空间模型结合集成边缘特征,用于红外小目标检测

《Engineering Applications of Artificial Intelligence》:Hybrid convolutional neural network and selective state space model with integrated edge features for infrared small target detection

【字体: 时间:2026年02月18日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  红外小目标检测面临边缘信息利用不足、全局建模效率低等问题。本文提出Mamba-IRSTD框架,通过双残差Mamba块融合CNN与SSM优势,结合多尺度特征自适应聚合和边缘感知注意力机制,实现全局上下文与多尺度边缘特征的协同建模,显著提升检测精度和鲁棒性。

  
张胜帅|王凯宇|冉欢欢|邓冉|龙增辉|曹家伟|刘燕
中国工程物理研究院应用电子研究所,绵阳,中国

摘要

红外小目标检测(IRSTD)仍然是一项极具挑战性的任务,在众多领域都有广泛的应用。深度学习的最新进展极大地推动了该领域的进步。然而,现有方法尚未充分解决在全局建模框架中有效利用边缘信息的问题,特别是在将多尺度边缘先验明确整合到基于Mamba的选择性状态空间模型中的机制方面存在不足。为了解决这一限制,我们提出了Mamba-IRSTD,这是一种专门设计的编码器-解码器架构,旨在提高IRSTD任务中的边缘清晰度。在编码器阶段,我们引入了一个双残差路径Mamba模块,该模块有效地结合了卷积神经网络和基于Mamba的状态空间模型的互补优势,以实现高效的全局上下文建模。这种混合设计使得局部和全局信息的整合成为可能,从而丰富了提取的特征表示。此外,还加入了一个多尺度特征自适应聚合模块,以增强跨多个尺度的特征表示。在解码器阶段,我们设计了一个具有边缘感知能力的注意力模块,并结合了一个多尺度形状自适应融合头,使模型能够明确关注边缘特征,从而提高目标定位的准确性并实现更精确的目标重建。在三个公开的IRSTD数据集上的广泛实验验证了我们方法的优越准确性和计算效率。源代码将公开发布在:https://github.com/Fidods/Mamba-IRSTD

引言

红外小目标检测(IRSTD)广泛应用于安全监控、搜救和森林火灾预防等领域(Kou等人,2023年;Yuan等人,2023年;Rekavandi等人,2025年)。这些应用受益于红外成像系统的独特优势,它们在夜间和恶劣天气条件下仍能有效工作,并且对环境干扰具有很强的抵抗力。此外,红外系统依赖于热辐射成像,能够区分真实目标和虚假目标——这是传统可见光成像的一个关键优势。尽管有这些优点,IRSTD仍面临几个重大挑战:(1)目标通常覆盖的像素少于80个,或占总图像面积的0.15%以下(Xie等人,2025年);(2)硬件限制和复杂背景导致缺乏详细的低级特征(如形状、纹理),而高级语义特征也很稀缺;(3)目标的外观会因场景而异,增加了类内变异性。这些因素导致频繁的误报和漏检,使得IRSTD成为一个特别困难的问题(Zhang等人,2025年;Zhu等人,2025年)。
现有的IRSTD方法大致可以分为模型驱动和数据驱动的方法。模型驱动方法依赖于传统的图像处理和机器学习技术,如滤波(Bai和Zhou,2010年)、基于人类视觉系统(HVS)的模型(Qin等人,2019年;Han等人,2021年;Han等人,2019年)以及低秩表示(Nasrabadi,2013年;Sun等人,2020年)。然而,这些方法存在一些缺点。例如,基于滤波的技术(如top-hat滤波器(Bai和Zhou,2010年)或最大值-中值/最大值-均值滤波器(Deshpande等人,1999年)在均匀背景下表现良好,但在复杂或动态场景中性能显著下降。基于HVS的方法对背景变化敏感,而低秩方法在目标与背景具有相似特征时往往失败。此外,大多数模型驱动方法严重依赖于手动调整的超参数,并且在不同场景下的泛化能力较差(Kou等人,2023年;Zhou等人,2023年)。
相比之下,近年来基于深度学习的数据驱动方法受到了关注(Zhou等人,2025a;Zhou等人,2022年;Cheng等人,2024年)。这些方法消除了手动参数调整的需要,并且只要有足够的训练数据,就能表现出很强的鲁棒性(Li等人,2022年)。通过将IRSTD重新定义为语义分割问题,深度学习方法能够在图像空间中进行结构化和直观的二分类。基于深度学习的IRSTD方法可以进一步分为基于CNN的模型和基于视觉Transformer(ViT)的模型(Ge等人,2024年;Khan等人,2022年)。值得注意的基于CNN的方法包括ACMNet(Dai等人,2021a),它引入了非对称上下文调制;MDvsFA(Wang等人,2019年),提出了新的评估指标;以及ISNet(Zhang等人,2022b),它是第一个将目标形状信息纳入IRSTD的方法。在ViT方面,Tcl-former(Chen等人,2024a)使用热传导理论进行特征提取,而Rkformer(Zhang等人,2022a)应用基于Runge–Kutta的变换器来保留语义和细粒度特征。
然而,这两种范式在保留关键边缘信息方面都存在固有的局限性。基于CNN的模型虽然计算效率高,但本质上是局部的,往往无法捕捉到区分目标与杂乱背景所需的长距离上下文依赖性。相反,基于ViT的模型通过自注意力有效地建模全局关系,但由于基于补丁的标记化和均匀聚合机制,它们倾向于过度平滑细小的局部细节——包括小目标的微妙边缘。尽管一些工作(如ISNet(Zhang等人,2022b)和ILNet(Xu等人,2023)引入了辅助的形状或边缘监督,但它们主要将边缘信息视为损失约束,而不是在整个模型表示学习过程中整合的显式多尺度特征先验。这在能够高效进行全局建模的同时积极保留和增强区分性边缘特征的方法中留下了一个根本性的差距。
最近,状态空间模型(SSMs)作为一种具有线性复杂性的建模长距离依赖性的有前景的替代方案出现了(Patro和Agneeswaran,2025年;Xu等人,2024年;Lan等人,2025年)。其中,Mamba(Gu和Dao,2023年)解决了结构化状态空间建模中的关键架构挑战,并在长序列任务中取得了良好的结果。在此基础上,Vision Mamba(Liu等人,2024年)将SSMs扩展到了视觉领域。受这些进展的启发,研究人员开始探索Mamba在IRSTD中的潜力。例如,Chen等人(2024b)提出了MiM-ISTD,这是第一个将Mamba用于局部特征提取的网络,提高了效率。然而,直接将标准Mamba模块应用于IRSTD仍然不是最优的。虽然选择性扫描机制效率较高,但在其序列处理过程中仍可能稀释高频边缘信号,而且现有的基于Mamba的设计缺乏专门注入和强化多尺度形状先验的机制。
为了解决这些限制,我们提出了Mamba-IRSTD,这是一种全新的编码器-解码器框架,从根本上重新设计了IRSTD中的边缘感知全局建模方式。我们的核心创新在于一个共同设计的架构,它将显式的多尺度边缘指导与Mamba的高效长距离建模紧密结合,以防止边缘质量下降。具体来说,所提出的模型引入了三个关键组件:(1)双残差Mamba块(DRMB),它结合了用于局部纹理/边缘保留的卷积路径和用于全局上下文的Mamba路径,防止了纯序列建模中固有的细节丢失;(2)边缘特征融合注意力(EFFA)模块,它注入了显式的拉普拉斯金字塔边缘先验,以主动调节特征并抑制杂乱;(3)多尺度形状自适应融合头,它动态聚合层次化特征以实现精确的轮廓重建。与仅将边缘作为监督信号使用的先前方法不同,我们的方法将多尺度边缘信息作为可学习的特征先验直接嵌入到模型的全局建模流程中,确保边缘线索直接影响表示学习过程。在NUAA-SIRST、IRSTD-1k和NUDT-SIRST三个基准数据集上进行的全面实验表明,Mamba-IRSTD在多个 established 指标上实现了最先进(SOTA)的性能,包括检测概率(Pd)、误报率(Fa)、交并比(IoU)和标准化交并比(nIoU)。结果验证了我们的设计有效地弥合了高效全局上下文捕获与忠实边缘保留之间的差距。
本工作的主要贡献总结如下:
  • 1.
    本文介绍了一种新颖的红外小目标检测网络Mamba-IRSTD,它基于U-Net风格的编码器-解码器架构。通过结合CNN和Mamba模块的互补优势,该网络有效地捕获了全局和局部边缘特征,为IRSTD任务提供了一种强大的新架构。
  • 2.
    所提出的网络引入了三个理论上的集成组件,旨在共同解决IRST小目标检测的独特挑战:(1)双残差Mamba块,它结合了卷积归纳偏置和基于Mamba的全局建模,以共同捕获长距离依赖性和局部结构模式;(2)边缘感知注意力模块,它通过特征级门控明确注入多尺度形状先验并抑制背景杂乱;(3)多尺度形状自适应融合头,它动态对齐和融合层次化特征以实现精确的目标重建。这些模块形成了一个协同架构,增强了特征的可区分性和几何保真度,使得在高度变化的红外场景下能够进行稳健的检测和准确的轮廓恢复。
  • 3.
    在两个广泛使用的IRSTD基准数据集NUAA-SIRST、IRSTD-1K和NUDT-SIRST上的全面实验表明,Mamba-IRSTD在准确性和鲁棒性方面显著优于SOTA方法。
本文的其余部分组织如下:第2节简要回顾了IRSTD领域的相关工作。第3节详细介绍了提出的Mamba-IRSTD架构及其核心组件。第4节展示了广泛的实验结果和分析。最后,第5节总结了本文并概述了未来工作的潜在方向。

章节片段

红外小目标检测网络

传统的IRSTD方法主要包括滤波技术(Bai和Zhou,2010年;Song等人,2024年)、基于HVS的方法(Qin等人,2019年)、基于局部对比度的方法(Han等人,2021年;Han等人,2019年)以及低秩表示方法(Nasrabadi,2013年;Sun等人,2020年)。这些传统技术通常依赖于大量的超参数,并且在检测不同尺度、形状的目标或在杂乱和嘈杂的背景中遇到困难。

提出的方法

本节详细描述了Mamba-IRSTD。第3.1节概述了网络架构。第3.2节双路径残差Mamba块、第3.3节多尺度特征自适应聚合块、第3.4节边缘特征聚焦注意力、第3.5节多尺度形状自适应融合检测头详细讨论了网络的关键模块。

实验

在本节中,我们首先介绍了实验中使用的评估指标和训练参数。然后,我们将Mamba-IRSTD与几种SOTA IRSTD方法进行了比较。最后,我们进行了消融研究,以分析网络中不同组件的贡献。

结论

在本文中,我们提出了Mamba-IRSTD,这是一种新颖的红外小目标检测框架,它集成了多尺度特征提取、自适应聚合和双路径残差学习。所提出的模块,包括双残差路径Mamba块、多尺度特征自适应聚合块和多尺度形状自适应检测头,共同增强了局部边缘表示和全局上下文建模,从而实现了更准确和稳健的检测。

CRediT作者贡献声明

张胜帅:撰写——审稿与编辑、撰写——原始草稿、项目管理、方法论、调查、正式分析、数据管理、概念化。王凯宇:可视化、验证、软件、调查、数据管理。冉欢欢:验证、监督、资源管理、调查、正式分析。邓冉:可视化、验证、软件、调查、正式分析。龙增辉:可视化、验证、软件、正式分析、数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号