通过图像提取的视角重新审视低级视觉模型的泛化问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　低级视觉模型在泛化到未见退化模式时存在核心问题：网络倾向于过度拟合简单退化特征（如雨痕），而忽视复杂背景内容，导致在真实场景中性能下降。本文通过系统实验提出两种解决策略：1）平衡训练数据中背景与退化模式的复杂度，迫使网络关注内容重建；2）引入预训练生成模型（如Stable Diffusion）的强内容先验约束，将网络引导至高质量图像流形。实验验证了该方法在去雨、去噪、去模糊等任务中的有效性，并建立了"学习图像内容分布而非特定退化特征"的核心原则。

中国科学院深圳先进技术研究院，中国深圳，518055

摘要

对于低级视觉模型而言，泛化到未见过的退化情况仍然是一个根本性挑战。本文旨在研究这一失败现象的潜在机制，以图像去雨为例进行主要研究，因为其结构明确且易于分离。通过系统实验，我们发现泛化问题主要不是由网络容量有限引起的，而是由图像内容与退化模式之间的相对复杂性驱动的“捷径学习”现象所致。我们发现，当背景内容过于复杂时，网络会优先过拟合较简单的退化特征以最小化训练损失，从而无法学习到图像的潜在分布。为了解决这个问题，我们提出了两种原则性策略：（1）平衡训练数据的复杂性（背景与退化），以引导网络关注内容重建；（2）利用预训练生成模型的强内容先验，对网络进行物理约束，使其保持在高质量图像流形上。在图像去雨、去噪和去模糊方面的广泛实验验证了我们的理论见解。我们的工作为提高低级视觉模型的鲁棒性和泛化能力提供了基于可解释性的方法和原则性指导。

引言

泛化挑战仍然是深度学习中的一个根本性限制，尤其是在低级视觉（LV）领域，因为在合成数据上训练的模型往往无法捕捉自然图像的复杂性。LV的泛化并不是高级视觉研究的简单扩展。当与图像内容纠缠在一起时，量化这一问题变得非常困难。这种复杂性使得重建保真度和泛化的评估变得复杂；因此，我们以加性退化作为起点进行研究。

选择图像去雨作为主要研究案例，是因为其具有明确的线性叠加特性和空间可分离性，这使得我们可以对雨滴去除和背景重建进行具体的定量评估。这种清晰的分离使得去雨成为了一个直观的起点，有助于将泛化问题与其他因素区分开来。虽然我们最初从去雨开始研究，但我们的研究进一步扩展到了其他代表性任务，包括图像去噪和去模糊，以验证我们的发现具有更广泛的适用性。

我们认为，泛化失败是由于网络过度拟合了训练模式，这一问题的根源在于一个未经验证的假设，即更大、更多样化的数据集必然能提高性能。然而，这种方法并不能有效解决这个问题。我们认为，过复杂的背景会促使网络寻找“捷径”：它们会过拟合较简单的退化模式，而不是学习内容重建这一困难任务。通过分别测量背景和雨滴去除的效果，我们得出了反直觉的结论。

我们的主要发现：在区分内容和退化时，深度网络会优先拟合较简单的元素，以最小化训练损失。因此，当背景复杂且雨滴简单时，网络会在真实数据上出现过拟合和失败的情况。相反，在较简单的背景上进行训练（见图1（e）时，背景成为更容易学习的元素，从而激励网络关注重建。关键在于，我们的结论并不是数据量越少越好，而是内容和退化之间的相对复杂性才是决定学习和泛化的关键因素。设计不当的目标为网络创造了“漏洞”，使网络通过记忆简单的退化模式而不是丰富的自然图像模式来“偷懒”。这种捷径导致在未见数据上的表现不佳，从而确立了这样一个核心原则：鲁棒模型应该学习图像的分布，而不是特定的退化特征。

这项工作在2023年NeurIPS会议上发表的论文[1]的基础上进行了多项新的扩展。首先，我们扩展了分析，表明背景的清晰度至关重要；网络更容易学习低清晰度的内容，从而提高了泛化能力。我们通过一个视觉-语言模型[2]进行了全面评估。其次，我们设计了一个一维的“玩具任务”，直观地展示了网络倾向于拟合混合物中较简单元素的倾向。最后，我们提出了一种利用生成内容先验的策略，强制网络关注内容，这一策略在去雨、去噪和去模糊任务中都取得了显著的改进。

本文的其余部分组织如下：第2节回顾相关工作；第3节概述我们的分析框架；第4节展示关键实验发现；第5节介绍玩具任务；第6节提出实际改进策略；第7节对本文进行总结。

图像去雨与泛化

已经提出了许多针对图像去雨的最新方法[3]、[4]。早期的研究集中在照片级合成[5]或手动编辑[6]、[7]上，但由于领域差异，基于合成数据训练的模型在实践中往往表现不佳。为了缓解这一问题，研究人员提供了真实世界的数据集[8]或半监督方法[9]、[10]。尽管这些方法提高了性能，但它们在很大程度上绕过了核心的泛化问题。

训练目标的构建

在本小节中，我们通过设置不同的训练目标来分析不同去雨模型的泛化性能，以观察它们的效果。训练数据和损失函数共同决定了深度网络的训练目标。如图2（左）所示，一张雨天图像I可以用线性模型

I = B + R

来建模，其中B代表图像背景，R代表加性的雨滴。我们使用不同的背景图像来改变训练目标。

雨滴去除的泛化

我们分析了雨滴去除效果在未见雨滴情况下的表现。重要的是，由于我们在训练和测试中使用了不同类型的雨滴，因此本节展示的结果都反映了泛化性能。经过大量实验后，我们得出了以下观察结果。

通过类似任务的进一步验证

在本节中，我们通过一个更直观的实验进一步验证了网络的“偷懒”行为。我们设计了一个类似的任务，提供了一个更简单、更可控的场景，以便清楚地观察网络的行为。

结论

本文得出结论，提高低级视觉网络泛化能力的关键是引导网络学习所需的图像内容。在本节中，我们基于这一见解提出了一些可行的解决方案。

限制与结论

限制：尽管内容先验方法具有较好的泛化能力，但它也存在一些局限性。与轻量级的端到端网络相比，它需要更高的计算开销和内存需求，增加了推理延迟。此外，其效果取决于预训练先验的质量和领域覆盖范围，而获取这些先验需要大量的数据和计算资源，这对资源有限的部署构成了挑战。

CRediT作者贡献声明

Jinfan Hu：撰写——审稿与编辑、撰写——初稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。Zhiyuan You：撰写——审稿与编辑、撰写——初稿、验证、软件、方法论、调查、数据管理。Jinjin Gu：撰写——审稿与编辑、监督、调查、概念化。Kaiwen Zhu：验证、软件、数据管理。Tianfan Xue：撰写——审稿与编辑，

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

这项工作部分得到了国家自然科学基金（项目编号62276251）以及中国科学院-香港理工大学联合实验室早期职业计划（ECS）（项目编号24209224）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究