现实世界中的图像去噪是低级视觉中的一个关键任务,然而训练有效的神经网络进行图像去噪却极具挑战性。主要障碍在于难以获取完美对齐的噪声-清晰图像对以进行监督学习。为了获得真实的噪声-清晰图像对,必须两次拍摄同一场景:一次在有噪声的情况下(例如在低光或高ISO设置下),另一次在无噪声的情况下(在接近理想的条件下)。然而,即使是轻微的照明变化或物体/相机的移动也可能导致像素级别的错位,从而降低它们用于直接监督学习的实用性。
因此,现有的现实世界图像去噪数据集仅限于在受控环境中拍摄的数据集,这些环境中使用固定的成像设备来捕捉静态场景(Abdelhamed, Lin, & Brown (2018); Brummer & De Vleeschouwer (2019); Xu, Li, Liang, Zhang, & Zhang (2018))。因此,仅在 such 条件下获得的数据上训练的图像去噪神经网络在处理来自不受控环境(如动态场景)的图像时可能会表现不佳。
一种有效的方法是噪声建模,它涉及估计成像设备(如智能手机相机)的噪声特性。具体来说,可以使用在受控环境中捕获的数据来训练噪声建模神经网络,以模拟成像设备的噪声。一旦训练完成,这些噪声建模神经网络就可以将噪声合成到在各种环境中捕获的清晰图像中,从而生成大量用于训练图像去噪网络的噪声-清晰图像对。即使在由于物理限制而无法获取噪声-清晰图像对的不受控环境中,这种方法也能生成这样的图像对。因此,在这样的合成噪声-清晰图像对上训练的图像去噪神经网络可以在各种环境中表现出强大的性能。图1展示了训练噪声建模网络并用其来训练图像去噪网络的过程。
由于这些优势,许多研究都集中在准确的噪声建模上。最简单和最常用的噪声模型包括加性高斯白噪声(AWGN)和泊松噪声。然而,这些简单的模型不足以捕捉现实世界噪声的复杂分布。为了解决这个问题,提出了更先进的模型,如泊松-高斯噪声模型(Foi, Trimeche, Katkovnik, & Egiazarian (2008))和异方差高斯噪声模型(Abdelhamed et al. (2018); Foi (2009))。尽管这些方法比简单的模型表现更好,但它们仍然未能完全捕捉到现实世界噪声的复杂特性。
最近,基于深度学习的许多数据驱动方法(Abdelhamed, Brubaker, & Brown (2019); Chang et al. (2020); Chen, Chen, Chao, & Yang (2018); Guo, Yan, Zhang, Zuo, & Zhang (2019); Maleky, Kousha, Brown, & Brubaker (2022); Song, Zhang, Ayd?n, Mansour, & Schroers (2023))已被提出。这些方法比之前的方法更复杂,能够表示更复杂的分布。它们使用在大规模噪声图像数据集上训练的神经网络来学习噪声分布,专注于建模来自原始传感器图像的信号依赖性和信号独立性噪声。这些方法可以更准确地建模噪声,而在建模噪声上训练的去噪神经网络也表现出良好的性能。
基于从原始传感器图像进行噪声建模的成功,人们提出了在标准RGB(sRGB)颜色空间中进行噪声建模的研究(Fu, Guo, & Wen (2023); Jang, Lee, Son, & Lee (2021); Kousha, Maleky, Brown, & Brubaker (2022); Lee & Kim (2022); Song et al. (2023))。通常,噪声建模根据其进行的图像域进行分类,要么在原始RGB域,要么在sRGB域。原始RGB域中的图像是未经图像信号处理(ISP)的原始传感器数据,保持了传感器捕获的原始数据。相比之下,sRGB域中的图像已经经过了ISP处理,从而产生了适合各种显示器和环境的标准化和增强后的视觉效果。
由于ISP对清晰信号和噪声的影响,sRGB域中的噪声建模比原始RGB域中的噪声建模要困难得多(Nam, Hwang, Matsushita, & Kim (2016)。尽管如此,sRGB域中的噪声建模仍然是必要的,因为从原始RGB到sRGB的转换是通过相机内部处理完成的(Kousha et al. (2022))。通常,在ISP之前不会应用或应用不足的图像去噪。因此,在sRGB域中进行有效的噪声建模变得必要。
最近的研究强调,真实的sRGB噪声取决于两个关键因素:
1.像素级噪声特性,随清晰图像的强度、相机类型和ISO设置而变化。
2.空间相关性,源于相机内部的ISP(如去马赛克),并引入了像素间的噪声依赖性。
因此,sRGB噪声建模必须同时捕捉像素级噪声及其空间相关性,以表示完整的噪声分布。
大多数用于sRGB噪声建模的深度学习方法采用生成模型,因为它们可以学习复杂的高维数据分布。生成对抗网络(GAN)(Goodfellow et al. (2020)和归一化流(Normalizing Flows)(Papamakarios, Nalisnick, Rezende, Mohamed, & Lakshminarayanan (2021); Rezende & Mohamed (2015))已被用来建模sRGB噪声,并且它们表现出了良好的性能。然而,每种方法都有其优势和劣势,这可能会限制它们捕捉像素级和像素间噪声特性的全部范围。
基于GAN的方法(Fu et al. (2023); Jang et al. (2021); Lee & Kim (2022)非常适合处理高维和复杂的数据分布,使它们能够在sRGB域生成逼真的噪声图像。然而,当数据集较小或变化较大(例如,不同的相机类型和ISO设置)时,训练基于GAN的模型会变得不稳定。这种不稳定性使得难以覆盖像素级噪声特性的全部范围,例如那些随相机类型和ISO设置变化的特性,从而限制了准确表征像素级噪声的能力。
相比之下,基于归一化流的方法(Kim, Jung, Baik, & Kim (2024); Kousha et al. (2022)通过直接学习数据的概率密度函数,在小数据集上表现出更高的训练稳定性。然而,由于归一化流的每一层都存在可逆性限制,转换函数的表达能力受到根本性的限制。这种结构上的限制使得难以捕捉空间相关性中固有的像素间依赖性,这对于建模由去马赛克引起的复杂sRGB噪声模式至关重要。因此,生成逼真的噪声图像仍然是一个挑战。
为了解决基于GAN和基于归一化流方法的局限性,我们提出了一种新的数据驱动的sRGB噪声建模方法,称为NM-FlowGAN,这是一种结合了归一化流和GAN优势的混合方法。通过将归一化流的高训练稳定性与GAN的强大表达能力结合起来,NM-FlowGAN能够有效建模像素级噪声特性和像素间依赖性,克服了每种方法的单独局限性。我们的方法旨在有效建模sRGB图像域中发现的复杂噪声分布,从而在各种相机条件下实现更准确和鲁棒的噪声建模。
最近,NeCA-W Fu et al. (2023) 和 NAFlow Kim et al. (2024) 在噪声建模方面展示了有希望的性能。然而,它们的方法在生成过程中依赖于真实的噪声-清晰图像对,这意味着需要从原始的噪声-清晰图像对生成额外的合成噪声-清晰图像对。通过使用这样的对,这些方法表明它们可以生成与真实噪声样本分布非常接近的合成噪声图像。虽然这种方法可以简化噪声合成任务,但它限制了在没有噪声-清晰图像对的场景中扩展数据集的应用性。
为了克服这一限制,我们提出的NM-FlowGAN仅依赖于清晰图像和容易获得的影响噪声特性的因素来生成合成的噪声-清晰图像对。这种设计使得该方法可以在收集真实噪声-清晰图像对不切实际的更广泛环境中应用。具体来说,通过在受控环境中训练噪声建模网络,然后在不受控环境中部署它们,我们可以开发出在各种现实世界场景中都能保持鲁棒的图像去噪网络。在第4.5节中,我们提供了这一策略有效性的实验证据。
在我们提出的方法中,我们首先利用归一化流提供的高训练稳定性来建模像素级噪声。我们对sRGB域中噪声的分析表明,像素级噪声取决于清晰图像的强度、周围图像结构和相机条件。为了解决这个问题,我们设计了新的可逆层,可以有效建模这些依赖性。此外,我们使用GAN来建模高维噪声特征,例如由相机内部成像过程(如去马赛克)引起的空间相关性。这种组合方法能够生成逼真的sRGB噪声图像,同时确保高训练稳定性。为了验证我们的方法,我们比较了在真实世界场景中sRGB图像域中的噪声建模性能。在实验中,我们的方法表现优于其他基线方法。