《Infrared Physics & Technology》:Tunable 3-bit encoder and polarization-sensitive multi-frequency synchronous optical switch based on borophene metamaterial structure
编辑推荐:
红外可见图像融合方法提出基于Weber定律的深度脉冲耦合神经网络(DWPCNN),通过可学习耦合权重矩阵、线性衰减机制及时间自适应批量归一化,有效提升低光环境细节保留能力,结合脉冲卷积密集块(PCDB)增强语义特征,实验表明其计算效率与融合质量更优。
贾赵|贾思瑞|狄静|连静|马一德|辛月兰|党继生|刘继钊
中国甘肃省兰州市兰州大学信息科学与工程学院,邮编730000
摘要
红外图像与可见光图像的融合是计算机视觉中的关键任务,其目的是结合互补的多模态信息以生成具有显著性和丰富纹理的图像。然而,现有的基于深度学习的融合方法通常依赖于增加网络深度来提升性能,这往往忽略了所需的巨大计算资源,从而导致效率低下。为了解决这个问题,我们提出了一种新型的、受大脑启发的端到端可训练的红外图像与可见光图像融合方法(DWPCNNFusion)。具体来说,在特征提取阶段,我们设计了基于韦伯定律(Weber’s law)的深度脉冲耦合神经网络(DWPCNN),其中耦合权重矩阵被视为一个可学习参数,使网络能够灵活适应不同的数据特征。此外,链接强度系数根据韦伯定律进行设置,模拟了人类视觉系统中对亮度的非线性感知,有效减轻了低光照环境下的细节损失。为了适应输入数据随时间的变化,我们提出了一种时间自适应的批量归一化方法,并通过速率编码方案整合了时间信息,使得DWPCNN能够高效地融入现有的深度学习框架中。此外,还采用了脉冲卷积密集块(PCDB)来提取高级语义特征,进一步增强了模型的特征表示能力。在TNO和MSRS数据集上的实验结果与15种代表性方法进行了比较,使用客观和主观指标评估,结果表明所提出的方法在细节保留方面表现出色,同时在计算效率和融合性能之间取得了更好的平衡。
引言
随着多模态传感器的发展,图像处理领域中最有前景的方向之一是图像融合,特别是红外图像与可见光图像的融合[1]。与几乎完全由深度学习方法主导的对象跟踪和检测等领域不同,传统方法在图像融合领域也取得了令人满意的结果。这些方法通常可以分为五类:基于多尺度变换(MST)的方法[2]、基于稀疏表示(SR)的方法[3]、基于显著性的方法[4]、基于子空间的方法[5]以及基于混合的方法[6]。然而,上述传统方法严重依赖于手工制作的特征提取器和融合规则,因此会带来相当大的时间开销,并限制了在不同应用场景下的融合质量。
近年来,具有强大表示能力的深度学习模型迅速推动了图像融合的发展,从而弥补了传统算法的不足并提高了融合质量[7]。从架构角度来看,这些方法通常被归类为基于卷积神经网络(CNN)的方法[8]、基于自动编码器(AE)的方法、基于生成对抗网络(GAN)的方法[9]以及基于Transformer的方法[10][11]。然而,它们对计算资源、内存和能量的需求对实际应用构成了重大挑战,尤其是在资源有限或功率受限的设备上[12]。以OpenAI的大型语言模型(LLMs)GPT-3为例,它包含1750亿个可学习参数,训练所需能量约为。尽管剪枝[14]、压缩[15]和量化[16]可以降低计算量和参数存储需求,但它们并未从根本上解决问题。
相比之下,人类大脑在执行感知和推理等任务时仅消耗约的电力[17][18]。因此,节能的、受大脑启发的神经计算被视为设计神经网络系统的关键途径。在这一研究方向中,可以识别出两个主要流派。第一个流派是脉冲神经网络(SNNs),它们由生物学上合理的脉冲神经元(例如,漏电积分-发射(LIF)构成,被广泛认为在计算上高效[19][20][21]。然而,简化的LIF神经元仅捕捉了神经元的部分特性,忽略了神经元之间的耦合和树突结构;再加上当前架构和训练策略的限制,使得SNNs在图像融合等复杂任务上不如人工神经网络(ANNs)具有竞争力。第二个流派是脉冲耦合神经网络(PCNNs),它们受到哺乳动物初级视觉皮层神经元活动的启发;通过明确建模神经元之间的耦合和脉冲同步性,PCNNs更准确地反映了生物视觉系统的信息处理特性,因此在图像融合中得到了广泛应用[22][23][24]。然而,现有的PCNN方法仍然受到大多数参数需要手动调整的限制,并且缺乏有效的自适应机制,难以在不同成像条件和应用场景下保持稳定的融合性能。为了解决这一限制,最近的研究主要在参数适应和结构设计方面进行了改进。首先,参数自适应的PCNN框架通过分析输入图像的高频或显著性特征自动估计关键参数(如链接强度和阈值衰减),从而减少了对手动调优的需求并提高了跨场景的适应性。此外,一些研究引入了双通道输入和多尺度结构设计,共同建模来自不同模态或尺度的特征,有效改善了显著结构的表示。值得注意的是,最近关于PCNN的研究主要沿着三个方向发展:(1)简化参数并引入自适应机制以减少对人工经验的依赖;(2)改进模型以更接近地模仿生物视觉系统;(3)将PCNN与多尺度变换或深度学习方法相结合以增强特征表示能力。总体而言,尽管这些研究在一定程度上提高了PCNN的鲁棒性和适用性,但现有方法要么缺乏足够的可训练性和稳定性,要么难以与深度网络无缝集成,从而限制了融合性能的进一步改进。
为了解决上述问题,我们提出了DWPCNNFusion,这是一种端到端可训练的、受大脑启发的融合框架,旨在在效率和性能之间取得更优的平衡。其核心是我们的深度脉冲耦合神经网络(DWPCNN),该网络根据韦伯定律设置链接强度,以模拟人类视觉系统对亮度的非线性敏感性,从而有效减轻了低光照条件下的细节损失。构建DWPCNN面临两个障碍:(a)反向传播过程中的指数阈值衰减容易导致梯度消失或爆炸;(b)训练过程缺乏有效的归一化机制。为了克服这些障碍,我们(a)用线性衰减替代了指数阈值衰减以稳定梯度;(b)引入了时间自适应的批量归一化以适应输入中的时间动态。因此,DWPCNN能够在深度学习框架内实现自适应参数学习,同时保持经典PCNN的生物学合理性并避免性能下降。此外,我们设计了脉冲卷积密集块(PCDB)来提取高级语义特征。值得一提的是,改进后的DWPCNN采用了速率编码。由于数据格式的一致性,DWPCNN可以轻松与ANN层集成。在这个框架下,融合图像在保持目标显著性、恢复细节和抑制噪声方面表现出更优的性能。
我们的贡献总结如下:
- •
我们提出了一种基于韦伯定律和深度脉冲耦合神经网络(DWPCNN)的端到端红外图像与可见光图像融合框架。首先,DWPCNN中的耦合权重矩阵被设置为可学习参数,允许灵活适应输入数据的特征分布。其次,链接强度系数根据韦伯定律确定,有效缓解了低光照环境下的细节损失问题。此外,为了解决输入数据在时间维度上的动态变化,我们引入了时间自适应的批量归一化技术,并采用速率编码方案整合时间信息,使模型能够高效融入现有的深度学习框架。
- •
设计了一种脉冲卷积密集块来提取高级语义信息,进一步增强了融合图像的特征表示能力。
- •
在两个主流数据集上进行的广泛定性和定量实验表明,DWPCNNFusion在融合性能和计算效率之间取得了更好的平衡,显著提高了融合图像的质量,同时减少了计算时间。
章节片段
基于深度学习的融合方法
具有出色特征提取能力的CNN已成为图像融合领域的研究热点[25]。基于CNN的图像融合方法通常采用端到端的方法,直接学习输入图像与融合图像之间的映射关系,从而生成高质量的融合结果。损失函数的设计在基于CNN的图像融合任务中起着关键作用。Zhang等人[26]提出了一种基于梯度信息和强度的损失函数
框架概述
如图1所示,设计了一个端到端的融合网络,包括特征提取模块和图像重建模块。特征提取部分由两条并行路径组成,分别处理红外图像和可见光图像。每条路径由一个初始的脉冲卷积层(PCL)和几个脉冲卷积密集块(PCDBs)组成,这些层充分利用了多源图像的局部感受野信息。
数据集和实现设置
我们使用MSRS训练集[59]中的1083对图像对来训练模型。首先,对源图像应用数据增强技术,包括随机高斯模糊、侵蚀-膨胀变换和亮度调整,以模拟复杂的真实世界环境。然后将训练集中的图像裁剪成128 × 128的图像块,并将其归一化到的范围,然后再输入网络。控制每个子损失项权重的超参数
结论
受生物视觉机制的启发,本文提出了一种基于深度脉冲耦合神经网络的新型红外图像与可见光图像融合方法,称为DWPCNNFusion。通过设计DWPCNN,该模型结合了基于韦伯定律的可学习耦合权重矩阵和链接强度系数,有效增强了捕获不同模态特征的能力。为了适应输入数据随时间的变化,采用了时间自适应的批量归一化和
CRediT作者贡献声明
贾赵:撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、项目管理、方法论、调查、形式分析、数据管理、概念化。贾思瑞:撰写 – 审稿与编辑、软件、项目管理、方法论、形式分析、概念化、数据管理、可视化。狄静:撰写 – 审稿与编辑、撰写 – 原稿、可视化、项目管理、方法论、形式分析、数据管理、概念化。
利益冲突声明
所有作者确认与本工作无关任何财务或其他利益冲突。没有任何作者与其他个人或组织存在可能不恰当地影响或偏置本手稿内容的财务、个人或专业关系。
致谢
本研究得到了国家-地方联合工程实验室建筑健康监测与灾害预防技术(GG23KF004)开放基金项目的支持,部分实验得到了兰州大学超级计算中心的支持。