SAFARI-net:一种可扩展的、频率敏感的红外小目标检测优化基础设施
《Optics & Laser Technology》:SAFARI-net: Scale-adaptive frequency-aware refinement infrastructure for infrared small target detection
【字体:
大
中
小
】
时间:2026年03月04日
来源:Optics & Laser Technology 4.6
编辑推荐:
红外小目标检测面临弱特征、尺度多变和背景复杂等挑战,SAFARI-Net提出自适应处理流程、频率感知特征提取和渐进式记忆优化三大创新,通过动态调整计算策略、多频段特征增强和跨层记忆保持实现高效检测,实验在两种数据集上IoU分别达到95.77%和70.17%。
张慧英|钟启鹏|刘家辉|陈瑞波|王振宇
吉林化工技术学院,中国吉林省吉林市132022
摘要
由于特征较弱和尺度变化较大,红外小目标检测(IRSTD)仍然面临挑战。本文提出了SAFARI-Net,这是一个能够通过三项创新来应对这些限制的尺度自适应框架:一个基于预测目标特征动态调整策略的尺度自适应处理流程;一个具有可学习参数的频率感知特征提取模块,可增强不同光谱成分中的目标显著性;以及一个在网络中保持表示的渐进式记忆细化机制。三路编码器通过专用路径处理空间、频率和上下文信息,并结合双向细化以实现全面增强。一个自适应的杂波抑制机制根据尺度预测调节响应,平衡检测灵敏度和误报率。在NUDT-SIRST和IRSTD-1k上的实验表明,该框架达到了先进的性能,在NUDT-SIRST上实现了95.77%的IoU,在IRSTD-1k上实现了70.17%,尤其在微尺度目标检测方面有显著提升。
引言
红外小目标检测(IRSTD)在多种应用中至关重要,包括早期预警系统[1]、海上监视[2]和搜救行动[4]。与传统受益于丰富语义特征的目标检测任务不同,IRSTD面临独特挑战,因为目标的空间范围极小——根据光电仪器工程师学会(SPIE)的定义,通常占图像面积的不到0.15%,同时信号与杂波比低,缺乏区分性的形状或纹理特征。这些特性使得传统检测方法无效,因此需要专门针对红外小目标的方法。
传统的IRSTD方法主要分为三类:基于滤波器的方法[5]、[6]、局部对比方法[7]、[8]和低秩分解技术[10]、[11]、[12]、[13]。基于滤波器的方法,包括Max-Median滤波器和Top-Hat变换[5],利用形态学操作来增强目标区域。尽管计算效率高,但这些方法对参数选择敏感,在复杂背景和变化多样的杂波模式下效果不佳。局部对比方法根据目标与周围区域的对比度来识别目标,但需要仔细调整参数,并且难以处理不同尺度的目标。低秩分解方法将IRSTD视为矩阵分解问题,其中背景被建模为低秩分量,目标被视为稀疏异常值。尽管这些方法在理论上很优雅,但计算复杂度高且对秩估计敏感。
为了解决这些问题,深度学习的最新进展促进了基于CNN的IRSTD方法的发展,这些方法利用神经网络的表示学习能力自动从数据中提取区分性特征[14]、[15]、[16]、[17]。然而,为通用对象检测设计的架构通常被现有基于CNN的方法直接采用,可能无法充分应对红外小目标的特定挑战。标准CNN中的渐进式下采样操作会导致深层目标信息的丢失,而缺乏尺度感知的处理限制了它们对不同大小目标的适用性。最近的IRSTD专用架构在解决这些挑战方面取得了重要进展。IRSAM[18]通过Perona-Malik扩散改进了红外图像的Segment Anything Model,用于噪声抑制和多尺度特征融合的粒度感知解码,但依赖于基础模型的适配而非特定领域的架构设计。IRPruneDet[19]通过小波结构正则化的软通道剪枝实现计算效率,优先考虑模型压缩而非自适应处理机制。FC3Net[20]通过细节引导的多级特征补偿和跨级相关模块解决特征退化问题,对所有目标尺度采用固定补偿策略。ACMNet[21]采用非对称上下文调制进行目标与背景分离,DNANet[22]引入密集嵌套注意力进行多尺度特征聚合,ISNet[23]通过结构化表示强调形状感知检测。虽然这些方法改进了通用CNN架构,但在三个关键方面仍存在局限性,这激发了我们的研究工作。首先,它们采用固定的多尺度处理策略(例如DNANet中的特征金字塔网络),无法根据预测的目标特征进行调整,导致在均匀尺度场景下计算冗余。其次,它们仅处理空间域,忽略了红外目标在频域中展示的独特光谱特征。第三,它们缺乏在网络深度中持续保持小目标表示的机制,依赖于可能无法充分保留弱目标特征的跳跃连接。SAFARI-Net通过尺度自适应路径选择、频率感知特征提取和渐进式记忆细化解决了这些限制。此外,这些方法仅在空间域操作,错过了基于频率的目标增强和杂波抑制的机会。
研究揭示了当前IRSTD方法的三个根本局限性,促使我们开发了一个新框架。首先是尺度变化:目标大小从1-2像素的点目标到超过100像素的扩展目标不等,但现有方法采用固定的处理流程,无法适应这种多样性。其次是频域利用不足:红外小目标具有独特的频率特征(特别是在编码边缘信息的高频成分中),这些特征在仅处理空间域的方法中大多未被利用。第三是特征退化:重复的池化和下采样操作逐渐降低空间分辨率,导致小目标在网络深层消失。
为了解决这些挑战,SAFARI-Net提出了一个综合框架,该框架结合了尺度自适应处理、频率感知特征提取和渐进式记忆细化。所提出的方法通过根据目标特征动态调整计算策略,从根本上重新思考了IRSTD,而不是使用固定的处理流程。该设计的动机是有效的小目标检测依赖于针对红外图像独特属性的专门处理机制,包括自适应尺度处理、多域特征提取和保持目标表示的持久性。
本工作的主要贡献总结如下:
(1)尺度自适应处理框架:提出了一种新的尺度预测模块,将目标分为微小、小型和常规三类,使网络能够动态调整其处理策略。这包括条件激活网络组件和尺度感知的参数调制,从而为不同类型的目标实现最佳资源分配。该框架减少了计算冗余,同时提高了所有尺度类别的检测精度。
(2)频率感知特征提取:开发了一种具有可学习频带参数的频率感知处理器,将输入特征分解为多个频带以进行专门处理。该模块根据预测的目标尺度自适应调整频率响应,增强目标显著性同时抑制特定频率的杂波。可学习的频率分解无需手动调整即可发现最佳光谱配置。
(3)渐进式记忆细化:引入了一种记忆库机制,可以在不同尺度上保持目标原型并逐步细化特征表示。记忆增强根据训练进度和原型质量条件激活,防止过早过拟合,同时确保在整个网络层次结构中保持目标表示的鲁棒性。
部分摘录
传统的红外小目标检测
传统的IRSTD方法利用红外图像的特定特征来区分目标和背景。基于滤波器的方法是最早采用的方法之一,利用形态学操作来增强目标区域。Top-Hat变换使用形态学开运算和闭运算提取小于结构元素的明亮区域。Max-Median和Max-Mean滤波器通过结合局部邻域的统计度量来提高鲁棒性。
整体架构
红外小目标的检测在区分微弱的热信号和复杂的背景杂波方面存在根本性挑战。为了解决这些挑战,提出了SAFARI-Net,这是一种结合了尺度自适应处理机制的新颖编码器-解码器架构,专为红外小目标检测设计。
为了解决现有IRSTD方法的局限性,SAFARI-Net提出了三项关键创新。
实验
本节验证了所提出的SAFARI-Net的有效性。评估首先介绍了数据集、评估指标和实现细节。接下来,对SAFARI-Net与几种先进的红外小目标检测方法进行了比较分析。最后,进行了一系列消融实验,以评估所提出网络中每个模块的合理性。
结论
本文提出了SAFARI-Net,这是一个用于鲁棒单帧红外小目标检测的尺度自适应和频率感知框架。该框架整合了三个核心理念:根据预测的目标大小调整计算流程的尺度条件处理、增强微小目标显著性的可学习频率分解,以及在网络深度上保持目标原型的渐进式记忆库。三路编码器和双向细化
CRediT作者贡献声明
张慧英:撰写 – 审稿与编辑、监督、资源管理、项目协调、资金获取、概念构思。钟启鹏:撰写 – 原始草稿、验证、方法论、研究。刘家辉:可视化。陈瑞波:数据整理。王振宇:形式分析。
利益冲突声明
作者声明没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了吉林省科学技术厅(YDZJ202501ZYTS610)的科学技术发展计划的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号