结合语义感知的Mamba网络与傅里叶交叉融合技术的弱光图像增强网络

《Displays》:Low-light image enhancement network with semantic-aware Mamba and Fourier cross-fusion

【字体: 时间:2026年05月10日 来源:Displays 3.4

编辑推荐:

  张一龙|吴俊|王海霞|孙昊浩|陈鹏|梁荣华浙江工业大学计算机科学与技术学院,杭州,310014,中国摘要低光照图像增强是计算机视觉领域的一个重要研究方向,传统的空间域方法在亮度增强、细节保留和噪声抑制之间的关系平衡上存在困难。本文提出了一种新型的语义感知Mamba傅里叶交叉注意力

  
张一龙|吴俊|王海霞|孙昊浩|陈鹏|梁荣华
浙江工业大学计算机科学与技术学院,杭州,310014,中国

摘要

低光照图像增强是计算机视觉领域的一个重要研究方向,传统的空间域方法在亮度增强、细节保留和噪声抑制之间的关系平衡上存在困难。本文提出了一种新型的语义感知Mamba傅里叶交叉注意力网络(SAMFCANet),通过结合频域处理和语义感知的状态空间模型来应对这些挑战。首先,该方法利用傅里叶变换将图像分解为幅度和相位分量,分别处理光照和结构信息。其次,设计了一种语义感知状态空间模型(SASSM)作为光照注意力网络的核心,通过语义引导的序列扫描机制实现内容自适应的光照估计,显著提升了全局光照的一致性。此外,引入了红外信息来增强相位分量,并提出了一种新颖的双路径交叉注意力机制,以实现幅度和相位分量之间的双向协同优化。最后,引入了频域对比正则化损失来增强模型在频域中的特征区分能力。在包括LOL-v1和LOL-v2在内的基准数据集上的实验结果表明,该方法在PSNR、SSIM和LPIPS指标上均优于现有的最先进方法,特别是在细节保留和噪声抑制方面表现出色,验证了语义感知机制在低光照图像增强中的有效性。

引言

高质量的视觉信息在自动驾驶、安全监控、医学成像和消费电子等领域至关重要。然而,在低光照条件下捕获的图像往往会出现严重的退化,包括亮度不足、对比度低、颜色失真和明显的噪声。这些问题不仅严重损害了主观视觉感知,还显著降低了下游高级计算机视觉任务(如物体检测[1]和语义分割[2])的性能和可靠性。因此,低光照图像增强一直是计算机视觉和计算摄影领域中的一个重要且活跃的研究方向(见图1)。
早期的低光照增强方法主要依赖于直方图均衡[3]、[4]、[5]、[6]和Retinex理论[8]。尽管计算效率高,但这些传统方法通常依赖于手工设计的先验,并且在复杂场景中容易产生过度增强、细节丢失和噪声放大。近年来,基于深度学习的方法通过端到端学习取得了显著进展。然而,现有方法仍面临几个关键挑战:首先,卷积神经网络(CNN)的局部感受野限制了它们模拟全局光照关系的能力,可能导致增强结果的局部不一致性。其次,大多数方法在空间域中操作,难以有效分离光照信息和结构信息,常常导致噪声放大和亮度提升并存。此外,增强细节与抑制噪声之间的固有权衡仍未得到充分解决。
最近,一些研究人员开始探索将频域分析[9]、[10]整合到低光照增强任务中。傅里叶变换通过将图像分解为幅度谱和相位谱提供了独特的视角。幅度谱主要携带光照和对比度信息,而相位谱编码了结构和边缘特征。这种固有的分离属性允许针对性地处理光照增强和细节保留这两个相对独立的任务。例如,Xu等人[11]通过直接操作傅里叶系数来调整图像亮度,而Wang等人[12]通过交换低光照图像和正常光照图像的幅度分量来进行光照增强。然而,现有方法通常分别处理幅度和相位,忽略了它们之间的内在联系。
为了解决这一限制,我们创新性地设计了一种双路径交叉注意力机制。与仅分别处理幅度和相位的方法不同,我们的方法在频域内建立了它们之间的双向通信通道。这种机制不仅利用幅度信息指导相位优化以增强结构边缘,还利用相位信息约束幅度调整以抑制噪声放大,从而实现两个组分的协同优化。这种设计使我们能够充分利用频域表示的优势,同时减轻直接频域操作相关的局限性。
基于上述见解,本文提出了一种用于低光照图像增强的语义感知Mamba和傅里叶交叉融合网络(SAMFCANet)。我们的主要贡献包括:
  • 提出了一种基于语义感知状态空间模型的光照注意力网络(SASSM-IAN)。该设计克服了传统CNN在模拟长距离依赖性方面的局限性,并通过语义引导的序列扫描机制解决了常规Mamba架构中对图像内容非均匀性的建模不足问题。提出的方法生成了全局一致的光照估计,有效避免了局部增强不一致性。
  • 开发了一种双路径交叉注意力机制(DP-CAM),以实现幅度(光照信息)和相位(结构信息)之间的双向交互。这种设计使两个组分能够协同优化,使光照增强过程能够受到结构信息的指导,同时通过光照先验获得结构恢复。
  • 设计了一种频域对比正则化(FCR)损失,以在频域中实现对比学习。该损失函数通过将低光照图像拉近其正常光照对应图像,同时将不同的低光照图像在频域空间中分开,使模型能够学习更具区分性的频域特征表示。
  • 在多个基准数据集上的实验结果表明,所提出的方法在PSNR、SSIM和LPIPS等指标上均优于现有方法,从而验证了每个核心组件的有效性。

章节摘录

相关工作

传统方法。早期的方法和基于模型的方法主要依赖于手工设计的图像先验和物理成像模型。值得注意的技术包括基于S曲线的直方图均衡和gamma校正[13]、[14]、[15],这些方法通过重新分布来扩展像素强度的动态范围。虽然简单高效,但这些方法容易引起局部对比度失真和背景噪声放大。另一类方法基于Retinex理论

方法

我们提出了一种用于低光照图像增强的语义感知Mamba和傅里叶交叉融合网络(SAMFCANet)。如图2所示,整个架构包括三个核心阶段:在第一阶段,使用基于语义感知状态空间模型的光照注意力网络(SASSM-IAN)从亮度分量生成全局上下文光照注意力图,为幅度调制做准备,如图2(b)所示;在第二阶段,进行幅度调制

数据集和实现细节

我们在LOL-v1 [48]、LOL-v2 [49]和LSRW [50]数据集上评估了所提出方法的性能。
LOL。LOL数据集有两个版本:v1和v2。LOL-v2进一步分为真实和合成子集。LOL-v1和LOL-v2-real数据集中的图像分辨率为600 × 400像素,而LOL-v2-synthetic数据集中的图像分辨率为384 × 284像素。LOL-v1、LOL-v2-real和LOL-v2-synthetic的训练集和测试集的比例分别为485:15

结论

本文提出了一种用于低光照图像增强的语义感知Mamba和傅里叶交叉融合网络(SAMFCANet)。通过将语义感知状态空间模型与频域处理相结合,我们引入了三项关键创新:首先,我们设计了一种语义感知状态空间模型(SASSM),通过内容自适应的序列扫描显著提高了光照估计的准确性和全局一致性;其次,我们提出了一种频域对比正则化损失

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号