《Neurocomputing》:CDINet: A cascaded dual-domain interaction network for vapor degraded thermal infrared image restoration
编辑推荐:
热红外图像在高温水蒸气环境下易受干扰,导致信息丢失。本文提出CDINet,通过双域交互块(DIB)和LSTM级联结构进行迭代修复,并构建IRDH数据集验证其有效性,在非均匀水蒸气场景中优于现有方法。
Kailun Wei|Xiaoyan Liu|Wei Zhao
湖南大学电气与信息工程学院,长沙,410082,中国
摘要
红外热成像技术能够在黑暗和烟雾环境中进行成像,广泛应用于消防和工业场景。然而,在这些场景中,高温水蒸气会显著降低热红外(TIR)图像的质量,导致后续视觉任务出现错误。高温水蒸气的非均匀分布以及由此造成的严重信息丢失对图像恢复提出了重大挑战。为了解决这个问题,我们提出了一种级联双域交互网络(CDINet)用于TIR图像恢复。双域交互模块(DIB)被设计为CDINet的基本单元,该模块通过空间-频率交互增强了特征表示能力,从而提高了模型感知和恢复受水蒸气影响区域的能力。此外,我们引入了长短期记忆(LSTM),并将CDINet设计为级联结构,以迭代方式逐步恢复和细化因水蒸气干扰而丢失的信息。我们还构建了一个包含12,500张受水蒸气影响的TIR图像的基准数据集,用于评估不同模型的恢复性能。广泛的实验表明,CDINet能够有效消除具有不同分布的水蒸气干扰。在处理具有大量非均匀、密集和局部非均匀水蒸气降解的复杂场景时,其性能优于其他方法。数据集和代码可公开获取于:
https://github.com/wkl1996/CDINet-TIR-Restoration。
引言
热红外(TIR)成像技术能够捕捉温度高于绝对零度的物体发出的红外辐射,具有全天候操作和强穿透能力等优势。这些特性使其在可见光相机受限的环境中特别有效,例如黑暗、眩光、烟雾和雾霾(见图1(a)-(c))。因此,热成像已广泛应用于多个领域,包括军事情报监视[1]、[2]、自动驾驶[4],尤其是消防救援[3]和工业监控[5]。
在消防救援和工业监控中,TIR相机常用于搜救受害者、场景评估,以及在线监测设备状态或在非接触条件下识别异常热模式(见图2中的代表性示例)。
然而,这些场景通常会产生高温水蒸气,例如在灭火喷淋系统运行或工业设施操作过程中产生的热湿气流中。与其他介质不同,高温水蒸气通过耦合的衰减和发射效应改变测量的长波红外辐射,从而导致在高温水蒸气环境中捕获的TIR图像可见度降低和信息丢失(见图1(d))。
高温水蒸气显著降低了TIR图像的质量,对基于这些图像的后续高级视觉任务(如物体检测[6]、[7]、语义分割[8]、[9]和图像翻译[10]、[11])造成严重干扰。因此,开发图像恢复算法以提高TIR图像的质量至关重要。
为明确起见,本文中的“水蒸气”特指“高温水蒸气”。
据我们所知,目前尚无专门针对水蒸气干扰下TIR图像恢复的研究。相关领域是可见光图像去雾。然而,该领域的方法不能直接应用于水蒸气降解的TIR图像恢复,因为成像机制和可用线索存在根本差异。
在可见光成像中,雾霾降解过程通常由大气散射模型(ASM)描述,其中目标反射的光被雾霾层衰减并与“大气光”混合形成退化图像。相比之下,TIR成像中观察到的信号主要来自目标和周围环境发出的热辐射。水蒸气引入了两种强耦合的降解效应:(i)由于水蒸气的波长选择性吸收,目标热辐射在传播路径上被衰减;(ii)热蒸汽本身发出的额外热辐射可能掩盖目标信号。
这些差异也解释了现有去雾方法在TIR图像上的性能有限。首先,许多基于先验的去雾方法依赖于来自清晰可见光图像的RGB统计信息和手工制作的先验,如暗通道[12]、非局部先验[13]或颜色衰减先验[14]。然而,TIR图像通常是单通道的,纹理和结构线索较弱。此外,水蒸气本身发出的热辐射进一步违反了这些先验所需的统计假设,导致估计结果不可靠和严重伪影。其次,深度学习去雾方法[15]、[16]要么显式学习ASM的组成部分,要么隐式利用可见光图像中的丰富颜色/纹理线索进行图像恢复。密集且随机分布的水蒸气会导致TIR图像严重的衰减和细节丢失,进一步削弱了本已稀缺的结构和纹理信息。因此,这些模型难以从有限的线索中稳定推断出缺失的细节。此外,大多数现有恢复网络仍然主要关注空间域特征。尽管一些方法[17]、[18]融入了频率表示,但它们通常仅作为辅助线索使用,或通过连接/加法操作直接用于简单的空间-频率融合。没有有效的空间-频率交互和调制,跨域特征无法得到补充或选择性过滤。因此,这些网络无法在抑制与水蒸气相关的不相关成分的同时强调关键的结构线索。这限制了它们在消除非均匀水蒸气干扰的同时恢复微妙热结构和纹理的能力。
总之,现有模型是为可见光图像设计的,不适用于TIR图像。面临的主要挑战包括:
1)在大多数场景中,水蒸气处于快速且不规则的运动状态,导致图像经常受到非均匀水蒸气的降解。此外,即使在相似的场景中,水蒸气的密度和分布也可能不同,这对恢复方法的鲁棒性构成重大挑战。
2)水蒸气与目标场景之间的显著温差导致TIR图像中的严重信息丢失。此外,与可见光图像相比,TIR图像的纹理较弱,缺乏颜色信息,有效特征较少。
3)深度学习模型的性能在很大程度上取决于训练数据的质量。然而,目前尚无公开可用的TIR图像恢复数据集用于水蒸气场景。
考虑到上述挑战,我们提出了一种级联双域交互网络(CDINet)用于水蒸气场景中的TIR图像恢复。我们工作的主要贡献如下:
1)我们构建了第一个TIR图像恢复数据集IRDH,包含12,200张合成的受水蒸气影响的图像和300张真实的受水蒸气影响的图像,这些图像具有不同的水蒸气分布,每张图像都有相应的真实图像(清晰图像)。
2)我们提出了一种新的TIR图像恢复网络(CDINet),该网络结合了LSTM并采用级联结构。CDINet在每次迭代中逐步细化恢复结果,从而解决了水蒸气引起的严重信息丢失问题。
3)双域交互模块(DIB)旨在提高模型感知和恢复受水蒸气影响区域的能力。DIB将图像特征分解为高频和低频成分,并通过空间-频率域交互进行增强,从而提供更有效的特征表示。
4)广泛的实验和比较表明,我们的CDINet能够适应不同的场景和各种水蒸气分布,并且在处理具有非均匀水蒸气降解的TIR图像方面优于现有方法。
本文的结构如下。第2节介绍相关工作;第3节描述数据集的生成方法;第4节介绍我们提出的模型的结构和细节;第5节描述实验结果和分析;第6节提出结论和未来工作。
相关研究
相关研究
目前,关于水蒸气场景中TIR图像恢复的研究尚不充分。为了理解当前进展和剩余挑战,我们回顾了三个相关领域:TIR增强和恢复方法、为可见光图像开发的去雾方法以及基于频域的恢复方法。
数据集
深度学习方法主要依赖训练数据来学习强大的模型。然而,目前尚无公开可用的TIR图像恢复数据集。因此,我们首次构建了一个高质量的数据集IRDH,可以作为评估TIR图像恢复方法的基准。
方法论
在本节中,我们首先介绍了CDINet在水蒸气场景中用于TIR图像恢复的流程。然后,我们详细说明了设计模块的实现细节。最后,描述了损失函数和超参数设置。
实验结果
在本节中,我们进行了大量实验,将提出的CDINet与其他最先进的方法进行了比较和全面评估。此外,我们还通过全面的消融实验验证了我们设计的核心模块的合理性。
结论
场景中存在的高温水蒸气会严重干扰TIR成像。本文首次解决了这一问题,我们创新性地提出了一种级联双域交互网络(CDINet)来实现TIR图像恢复。主要结论和贡献如下:
1)基于TIR成像原理,我们构建了第一个用于水蒸气降解TIR图像恢复的基准数据集IRDH。
2)提出了CDINet,并设计了DIB
CRediT作者贡献声明
Kailun Wei:撰写——原始草案,方法论。Xiaoyan Liu:撰写——审阅与编辑,资金获取。Wei Zhao:验证,数据管理。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
Kailun Wei于2021年在中国秦皇岛的燕山大学获得硕士学位。他目前正在湖南大学人工智能与机器人学院攻读博士学位。他的研究兴趣包括机器视觉、热红外成像和深度学习。