NM-FlowGAN：一种基于像素级噪声和空间相关性的模型，用于在没有配对图像的情况下生成sRGB格式的噪声图像

《Expert Systems with Applications》：NM-FlowGAN: Pixel-wise Noise and Spatial Correlation Modeling for sRGB Noise without Paired Images in Generation Time

【字体：大中小】 时间：2026年03月24日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　sRGB噪声建模需同时捕捉像素级噪声与空间相关性，本文提出NM-FlowGAN结合正常化流与GAN，前者建模多因素依赖的像素噪声，后者捕捉ISP引入的空间关联，仅需清洁图像及相机参数即可生成合成数据对，实验验证其优于基线方法。

韩英珠|余海珍

研发中心，Vieworks，安养市，14055，韩国

摘要

sRGB噪声建模指的是在标准RGB颜色空间中复制相机噪声，这在收集真实的噪声-清晰图像对困难或不可能时，对于训练鲁棒的图像去噪网络至关重要。准确建模真实的sRGB噪声需要捕捉两个关键组成部分：像素级的噪声特性和相邻像素之间的空间相关性。像素级噪声取决于多种因素，如清晰图像的强度、相机类型和ISO设置，而空间相关性则源于复杂的图像信号处理（例如去马赛克），这会导致像素间的依赖性。为了有效建模像素级噪声和空间相关性，我们提出了NM-FlowGAN，该模型专门用于建模真实sRGB图像中的像素级噪声和空间相关性。特别是，我们的基于归一化流（Normalizing Flows）的像素级噪声建模网络利用其高训练稳定性来学习受多种因素影响的噪声特性，而基于GAN的空间相关性网络则能够高效捕捉像素间的关系。此外，与最近提出的在生成过程中依赖真实噪声-清晰图像对的方法不同，我们的方法只需要清晰图像和容易获得的相机参数，使其在收集噪声-清晰图像对不切实际的场景中具有广泛的应用性。实验结果表明，NM-FlowGAN不仅在sRGB噪声合成方面优于其他基线方法，而且当使用合成的图像对来训练去噪网络时，也能获得更好的去噪性能。

引言

现实世界中的图像去噪是低级视觉中的一个关键任务，然而训练有效的神经网络进行图像去噪却极具挑战性。主要障碍在于难以获取完美对齐的噪声-清晰图像对以进行监督学习。为了获得真实的噪声-清晰图像对，必须两次拍摄同一场景：一次在有噪声的情况下（例如在低光或高ISO设置下），另一次在无噪声的情况下（在接近理想的条件下）。然而，即使是轻微的照明变化或物体/相机的移动也可能导致像素级别的错位，从而降低它们用于直接监督学习的实用性。

因此，现有的现实世界图像去噪数据集仅限于在受控环境中拍摄的数据集，这些环境中使用固定的成像设备来捕捉静态场景（Abdelhamed, Lin, & Brown (2018); Brummer & De Vleeschouwer (2019); Xu, Li, Liang, Zhang, & Zhang (2018)）。因此，仅在 such 条件下获得的数据上训练的图像去噪神经网络在处理来自不受控环境（如动态场景）的图像时可能会表现不佳。

一种有效的方法是噪声建模，它涉及估计成像设备（如智能手机相机）的噪声特性。具体来说，可以使用在受控环境中捕获的数据来训练噪声建模神经网络，以模拟成像设备的噪声。一旦训练完成，这些噪声建模神经网络就可以将噪声合成到在各种环境中捕获的清晰图像中，从而生成大量用于训练图像去噪网络的噪声-清晰图像对。即使在由于物理限制而无法获取噪声-清晰图像对的不受控环境中，这种方法也能生成这样的图像对。因此，在这样的合成噪声-清晰图像对上训练的图像去噪神经网络可以在各种环境中表现出强大的性能。图1展示了训练噪声建模网络并用其来训练图像去噪网络的过程。

由于这些优势，许多研究都集中在准确的噪声建模上。最简单和最常用的噪声模型包括加性高斯白噪声（AWGN）和泊松噪声。然而，这些简单的模型不足以捕捉现实世界噪声的复杂分布。为了解决这个问题，提出了更先进的模型，如泊松-高斯噪声模型（Foi, Trimeche, Katkovnik, & Egiazarian (2008)）和异方差高斯噪声模型（Abdelhamed et al. (2018); Foi (2009)）。尽管这些方法比简单的模型表现更好，但它们仍然未能完全捕捉到现实世界噪声的复杂特性。

最近，基于深度学习的许多数据驱动方法（Abdelhamed, Brubaker, & Brown (2019); Chang et al. (2020); Chen, Chen, Chao, & Yang (2018); Guo, Yan, Zhang, Zuo, & Zhang (2019); Maleky, Kousha, Brown, & Brubaker (2022); Song, Zhang, Ayd?n, Mansour, & Schroers (2023)）已被提出。这些方法比之前的方法更复杂，能够表示更复杂的分布。它们使用在大规模噪声图像数据集上训练的神经网络来学习噪声分布，专注于建模来自原始传感器图像的信号依赖性和信号独立性噪声。这些方法可以更准确地建模噪声，而在建模噪声上训练的去噪神经网络也表现出良好的性能。

基于从原始传感器图像进行噪声建模的成功，人们提出了在标准RGB（sRGB）颜色空间中进行噪声建模的研究（Fu, Guo, & Wen (2023); Jang, Lee, Son, & Lee (2021); Kousha, Maleky, Brown, & Brubaker (2022); Lee & Kim (2022); Song et al. (2023)）。通常，噪声建模根据其进行的图像域进行分类，要么在原始RGB域，要么在sRGB域。原始RGB域中的图像是未经图像信号处理（ISP）的原始传感器数据，保持了传感器捕获的原始数据。相比之下，sRGB域中的图像已经经过了ISP处理，从而产生了适合各种显示器和环境的标准化和增强后的视觉效果。

由于ISP对清晰信号和噪声的影响，sRGB域中的噪声建模比原始RGB域中的噪声建模要困难得多（Nam, Hwang, Matsushita, & Kim (2016）。尽管如此，sRGB域中的噪声建模仍然是必要的，因为从原始RGB到sRGB的转换是通过相机内部处理完成的（Kousha et al. (2022)）。通常，在ISP之前不会应用或应用不足的图像去噪。因此，在sRGB域中进行有效的噪声建模变得必要。

最近的研究强调，真实的sRGB噪声取决于两个关键因素：

像素级噪声特性，随清晰图像的强度、相机类型和ISO设置而变化。

空间相关性，源于相机内部的ISP（如去马赛克），并引入了像素间的噪声依赖性。

因此，sRGB噪声建模必须同时捕捉像素级噪声及其空间相关性，以表示完整的噪声分布。

大多数用于sRGB噪声建模的深度学习方法采用生成模型，因为它们可以学习复杂的高维数据分布。生成对抗网络（GAN）（Goodfellow et al. (2020）和归一化流（Normalizing Flows）（Papamakarios, Nalisnick, Rezende, Mohamed, & Lakshminarayanan (2021); Rezende & Mohamed (2015)）已被用来建模sRGB噪声，并且它们表现出了良好的性能。然而，每种方法都有其优势和劣势，这可能会限制它们捕捉像素级和像素间噪声特性的全部范围。

基于GAN的方法（Fu et al. (2023); Jang et al. (2021); Lee & Kim (2022）非常适合处理高维和复杂的数据分布，使它们能够在sRGB域生成逼真的噪声图像。然而，当数据集较小或变化较大（例如，不同的相机类型和ISO设置）时，训练基于GAN的模型会变得不稳定。这种不稳定性使得难以覆盖像素级噪声特性的全部范围，例如那些随相机类型和ISO设置变化的特性，从而限制了准确表征像素级噪声的能力。

相比之下，基于归一化流的方法（Kim, Jung, Baik, & Kim (2024); Kousha et al. (2022）通过直接学习数据的概率密度函数，在小数据集上表现出更高的训练稳定性。然而，由于归一化流的每一层都存在可逆性限制，转换函数的表达能力受到根本性的限制。这种结构上的限制使得难以捕捉空间相关性中固有的像素间依赖性，这对于建模由去马赛克引起的复杂sRGB噪声模式至关重要。因此，生成逼真的噪声图像仍然是一个挑战。

为了解决基于GAN和基于归一化流方法的局限性，我们提出了一种新的数据驱动的sRGB噪声建模方法，称为NM-FlowGAN，这是一种结合了归一化流和GAN优势的混合方法。通过将归一化流的高训练稳定性与GAN的强大表达能力结合起来，NM-FlowGAN能够有效建模像素级噪声特性和像素间依赖性，克服了每种方法的单独局限性。我们的方法旨在有效建模sRGB图像域中发现的复杂噪声分布，从而在各种相机条件下实现更准确和鲁棒的噪声建模。

最近，NeCA-W Fu et al. (2023) 和 NAFlow Kim et al. (2024) 在噪声建模方面展示了有希望的性能。然而，它们的方法在生成过程中依赖于真实的噪声-清晰图像对，这意味着需要从原始的噪声-清晰图像对生成额外的合成噪声-清晰图像对。通过使用这样的对，这些方法表明它们可以生成与真实噪声样本分布非常接近的合成噪声图像。虽然这种方法可以简化噪声合成任务，但它限制了在没有噪声-清晰图像对的场景中扩展数据集的应用性。

为了克服这一限制，我们提出的NM-FlowGAN仅依赖于清晰图像和容易获得的影响噪声特性的因素来生成合成的噪声-清晰图像对。这种设计使得该方法可以在收集真实噪声-清晰图像对不切实际的更广泛环境中应用。具体来说，通过在受控环境中训练噪声建模网络，然后在不受控环境中部署它们，我们可以开发出在各种现实世界场景中都能保持鲁棒的图像去噪网络。在第4.5节中，我们提供了这一策略有效性的实验证据。

在我们提出的方法中，我们首先利用归一化流提供的高训练稳定性来建模像素级噪声。我们对sRGB域中噪声的分析表明，像素级噪声取决于清晰图像的强度、周围图像结构和相机条件。为了解决这个问题，我们设计了新的可逆层，可以有效建模这些依赖性。此外，我们使用GAN来建模高维噪声特征，例如由相机内部成像过程（如去马赛克）引起的空间相关性。这种组合方法能够生成逼真的sRGB噪声图像，同时确保高训练稳定性。为了验证我们的方法，我们比较了在真实世界场景中sRGB图像域中的噪声建模性能。在实验中，我们的方法表现优于其他基线方法。

部分片段

生成对抗网络

GAN已被积极用于建模现实世界场景中出现的复杂噪声。有一些尝试将其应用于sRGB图像域中的噪声建模。首先，C2N Jang et al. (2021) 尝试使用未配对的噪声-清晰图像对来建模sRGB图像域中的噪声。然而，由于他们没有考虑影响噪声分布的相机条件，因此从模型生成的噪声图像存在颜色偏移问题。

为了解决这个问题，一个噪声

分析sRGB噪声

sRGB噪声具有不可预测和复杂的分布。为了准确建模噪声，识别影响其分布的因素至关重要。因此，我们分析了SIDD数据集在不同场景下的sRGB噪声分布。我们对SIDD数据集的分析（总结在图2和3中）确认，sRGB噪声受到三个主要因素的影响：清晰图像的强度、图像结构和空间相关性。为了准确建模噪声，考虑这些因素是必要的

数据集

为了评估sRGB噪声建模的性能，我们使用了智能手机图像去噪数据集（SIDD Abdelhamed et al. (2018)）。SIDD数据集包含320对使用不同相机类型（LG G4、Google Pixel (GP)、iPhone 7 (IP)、Motorola Nexus 6 (N6) 和 Samsung Galaxy S6 Edge (S6)）在各种ISO设置下捕获的噪声-清晰图像对。为了公平比较，我们遵循sRGBFlow Kousha et al. (2022) 数据集的设置，使用80%的数据进行训练，20%的数据用于

结论

在本文中，我们介绍了一种结合了归一化流和GAN的混合方法来建模sRGB噪声。我们首先分析了sRGB噪声的特性及其分布的影响因素，并利用这些见解设计了NM-FlowGAN，该方法使用归一化流建模像素级噪声分布，并使用GAN建模空间相关性。这种设计使我们能够从清晰输入和元数据（如相机类型和ISO设置）合成逼真的噪声图像，而无需

CRediT作者贡献声明

韩英珠：概念化、方法论、软件、验证、形式分析、调查、资源管理、数据整理、写作——原始草稿、可视化。余海珍：写作——审阅与编辑、监督、项目管理、资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

摘要

引言

部分片段

生成对抗网络

分析sRGB噪声

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行