《Computer Vision and Image Understanding》:SpectraDiff: Enhancing the fidelity of Infrared Image Translation with object-aware diffusion
编辑推荐:
针对自主系统在低光等恶劣环境下依赖RGB摄像头易失效及红外传感器成本高的问题,本文提出SpectraDiff扩散模型,通过融合RGB图像与语义分割,利用对象感知模块和光谱注意力块生成高质量红外图像,并在多个数据集上验证其优越性。
Incheol Park | Youngwan Jin | Nalcakan Yagiz | Hyeongjin Ju | Sanghyeop Yeo | Shiho Kim
韩国延世大学综合技术学院
摘要
自主系统通常依赖于RGB相机,但这些相机在低光照和恶劣条件下容易发生故障。红外(IR)成像通过捕捉与可见光无关的热信号提供了一种可行的替代方案。然而,其高昂的成本和复杂的集成难度限制了其广泛应用。为了解决这些问题,我们提出了SpectraDiff,这是一种基于扩散的框架,它通过融合RGB输入和精细的语义分割来合成真实的IR图像。通过我们的RGB-Seg Object-Aware(RSOA)模块,SpectraDiff利用对象感知特征学习特定对象的IR强度。SpectraDiff架构采用了一种新颖的光谱注意力模块,在语义相似的像素之间实现自注意力,同时利用与原始RGB的交叉注意力来保留高频细节。在FLIR、FMB、MFNet、IDD-AW和RANUS等数据集上的广泛评估表明,SpectraDiff在感知(FID、LPIPS、DISTS)和保真度(SSIM、SAM)指标方面均优于现有方法。代码和预训练模型可在此链接获取:
https://yonsei-stl.github.io/SpectraDiff/
引言
确保自主系统在恶劣环境条件下的可靠运行是自动驾驶和机器人技术等领域面临的重大挑战。传统的RGB相机在夜间、雨天、雪天、雾天和低光照条件下容易退化(Y. Zhang等人,2023年),这直接影响了这些系统的安全性和有效性。因此,探索能够在这些条件下保持稳健性能的替代传感方法至关重要。
红外(IR)成像包括近红外(NIR)、短波红外(SWIR)、中波红外(MWIR)和长波红外(LWIR),在具有挑战性的环境中提供了更好的稳健性(NG等人,2024年;Pinchon等人,2018年)。例如,热成像相机通过捕捉行人的热信号在夜间被广泛用于检测行人(Baek等人,2017年;Liu等人,2025年),从而提高了易受伤害的道路使用者的安全性。然而,IR传感器的成本和集成复杂性限制了它们在自主系统中的广泛应用。此外,与丰富的RGB数据集相比,公开可用的IR数据集的数量较少且规模较小(Jin等人,2025年),这进一步限制了该领域的研究进展。
为了解决这些问题,最近的研究(?zkano?lu和Ozer,2022年;Mizginov等人,2021年;Borstelmann等人,2024年;Uddin等人,2023年;Mao等人,2022年;Chen等人,2024年;Lee等人,2023年)专注于从RGB输入合成IR图像,从而避免了IR硬件的直接成本和复杂性。尽管付出了这些努力,当前的RGB到IR图像转换方法往往难以生成能够准确反映特定红外波长下对象特定IR强度的高质量图像(Mao等人,2024年)。正如我们的定性评估(图3)所示,大多数模型无法在不同对象类别之间捕捉到明显的IR强度特征,尤其是在热成像领域。最近的红外恢复研究进一步表明,仅依靠视觉相似性是不够的,强制保持语义结构和热强度分布的一致性可以提高与真实热图像的物理对齐度(Li等人,2025年;Zou等人,2024年)。
除了RGB到IR的转换之外,大量的红外视觉研究还探索了增强、融合和感知方法,以应对IR图像的固有挑战,如低纹理、噪声和模态差异。例如,Deep-IRTarget通过提取和分配互补的频域(傅里叶)和空间域特征来提高红外目标检测能力(Zhang等人,2022年)。对于多模态感知,DFANet明确建模了差异性(模态特定)线索及其融合,用于红外-可见光对象检测(R. Zhang等人,2024年)。此外,IR增强方法旨在共同去噪、提高对比度并保留细节(Zhang等人,2025年),基于扩散的方法也被用于红外-可见光图像融合,以更好地协调光谱保真度和结构一致性(Liu等人,2025年)。虽然这些工作通常假设可以访问真实的红外测量数据,但我们的目标是互补的:我们使用廉价的RGB输入(可选地结合语义先验)合成真实的IR图像,以缓解传感器/数据的稀缺性并提高下游系统的稳健性。
同时,也探索了基于结构的先验的扩散生成方法;例如,TIR-ControlNet(Mayr等人,2024年)主要通过分割指导生成多样化的TIR输出。虽然这种方法在可控性方面有效,但依赖分割作为主要条件可能会使生成的热响应与输入外观脱钩,有时会产生过强的强度(例如,建筑物过于明亮)。此外,其潜在的扩散和基于ControlNet的设计增加了模型和训练的复杂性(L. Zhang等人,2023年)。
在这项工作中,我们提出了SpectraDiff,这是一种有效的基于扩散的模型,它将RGB图像与分割图结合,生成具有对象特定IR强度特征的IR图像。SpectraDiff同时考虑RGB和分割信息,有效区分对象类别并分配光谱强度(例如,区分行人、车辆和背景的热强度),从而解决了仅使用RGB的转换方法的缺点,提供了更可靠的IR表示(图1)。此外,为了处理缺乏分割图的数据集,我们提出了一种使用大型语言模型(LLMs)精炼的开箱即用分割模型的灵活流程,确保了分割质量的一致性,并拓宽了我们方法的应用范围。据我们所知,我们是少数提出专门的单阶段扩散模型的研究之一,该模型同时利用RGB输入和分割图生成IR图像,而无需依赖大型预训练的潜在扩散模型。
总结来说,我们的主要贡献如下:
- 我们提出了SpectraDiff,这是一种RGB到红外图像转换的扩散模型,它将RGB图像与分割图融合,生成能够有效捕捉多个红外光谱范围内对象特定IR强度的高质量红外图像。
- 我们提出了一种灵活的注释流程,结合了开箱即用分割模型和基于LLM的标签分类,允许在没有真实分割数据集的情况下进行稳健的IR转换。
- 我们在FLIR、FMB、MFNet、Ranus和IDD-AW数据集上进行了广泛的实验,证明SpectraDiff在SSIM、SAM、FID、LPIPS和DISTS指标上始终优于现有方法。值得注意的是,我们使用了一个更高效的模型实现了这些最先进的结果;SpectraDiff仅有178M参数,而PID有323M参数,BBDM有327M参数,Palette有552M参数。
部分摘录
图像到图像的转换
随着深度学习的发展,图像到图像的转换取得了显著进展,尤其是通过生成对抗网络(GANs)(Goodfellow等人,2014年)。早期的条件GANs如Pix2Pix(Isola等人,2017年)解决了配对域映射问题,而CycleGAN(Zhu等人,2017年)通过循环一致性处理非配对图像,实现了跨域的转换。Pix2PixHD(Wang等人,2018年)进一步扩展了这些技术
方法
我们的目标是将RGB图像
转换为红外(IR)图像
,从而在不同对象类别之间实现更一致的对象特定IR强度(例如,人在夜间通常比道路更亮)。为此,我们提出了SpectraDiff,它将RGB图像和分割图整合到一个扩散框架中。如图2所示,SpectraDiff由三个主要部分组成:(i)语义分割图生成和分类;(ii)
数据集
我们在包含多种红外波长的多个数据集上评估了我们的方法性能,特别关注近红外(NIR)和长波红外(LWIR)图像。对于热红外范围,我们在FLIR Thermal Dataset(FLIR,2024年)、FMB Dataset(Liu等人,2023年)和MFNet Dataset(Ha等人,2017年)上评估了我们的方法。这些数据集包含数千张配对的RGB和热图像,常用于各种多模态计算机视觉任务
结论
我们提出了SpectraDiff,这是一种新颖的基于扩散的框架,用于跨不同光谱域的图像到图像转换,包括近红外(NIR)和长波红外(LWIR)。通过我们的RGB-Seg Object-Aware模块(RSOA)整合语义分割图,SpectraDiff有效地学习和利用了对象特定的IR强度,从而实现了更准确的光谱转换。在多种公共红外数据集上的广泛实验表明,SpectraDiff取得了
CRediT作者贡献声明
Incheol Park:撰写 – 审稿与编辑,原始草稿撰写,项目管理,方法论,调查,概念化。Youngwan Jin:方法论,调查。Nalcakan Yagiz:撰写 – 审稿与编辑,可视化,验证。Hyeongjin Ju:验证。Sanghyeop Yeo:验证。Shiho Kim:撰写 – 审稿与编辑,概念化。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Shiho Kim报告称获得了韩国科技信息通信部的财政支持。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本工作得到了信息与通信技术规划与评估研究所(IITP)的资助,该资助由韩国政府(MSIT)提供(RS-2025-02218237,用于开发提高复杂自主移动安全性的数字创新技术)。