通过局部约束扩散引导实现领域自适应的零样本图像增强

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Graphics》：Domain-adaptive Zero-Shot Image Enhancement via Locality-Constrained Diffusion Guidance

【字体：大中小】 时间：2026年05月11日 来源：Computers & Graphics 2.8

编辑推荐：

　　**Theresa Neubauer | Dimitrios Lenis | Astrid Berg | Maria Wimmer | Gaia Romana De Paolis | Philip Matthias Winter | David Major | Johannes Novotny | Ariharasudhan Muthusami | Katja Bühler**

**VRVis GmbH, 维也纳, 奥地利**

**摘要**
去噪扩散概率模型在无条件图像生成方面表现出色。为了生成具有所需语义的图像，近期研究通过在扩散采样过程中添加引导约束来限制解的空间。然而，对于不同领域的图像增强，这些方法在平衡两个主要要求方面存在困难：在目标领域看起来逼真（照片级图像）并保留源领域的相关特征（例如，低质量的渲染或艺术画作）。在这里，小的局部变化可能会完全改变图像的真实性，而在其他区域的大变化可能并不显著。我们引入了LocDiff，这是一种基于局部性的引导方法，用于图像增强，作为预训练扩散模型的零样本扩展，确保在领域适配过程中保留关键特征。通过这种方式，我们保留了重要的局部特征，同时允许不太关键的区域保持不受约束，不会干扰相关区域的引导过程。我们在两个不同的领域转换任务上评估了我们的方法：对于艺术到照片的转换，我们在完全零样本的情况下应用该方法，保留了绘画中的面部特征，同时生成了照片级细节；对于增强低质量的胎儿超声渲染，我们展示了使用辅助先验对齐的零样本推理。其目标是在没有真实分布的目标领域人工添加高分辨率特征并生成照片级超声渲染。我们的实验结果表明，与最先进的方法相比，LocDiff实现了有利的真实性与忠实度之间的平衡，实现了可控的跨领域增强。

**引言**
深度学习技术彻底改变了图像生成方式，为普通大众开辟了新的创造性表达途径，而无需技术专长（如Stable Diffusion [1]、DALL-E 2 [2]）。虽然这些工具通常根据描述期望结果的文本提示生成内容，但也非常需要增强现有图像，这可以通过修复、编辑和超分辨率技术来实现 [3], [4]。当前的生成对抗网络（GAN）和基于扩散的方法产生的图像看起来越来越逼真 [1]。然而，为了成功增强源图像，至关重要的是生成的图像要保持源图像的独特特征（忠实度）[4]，如结构和颜色细节。现有的照片级图像增强方法往往难以同时满足这些要求 [5], [6]，方法通常需要在生成逼真细节和保留源图像特征之间进行权衡。基于GAN的方法（如条件GAN和GAN逆向方法）在保留源领域特定语义方面控制有限 [7], [8]。此外，当面临领域转换时，它们缺乏鲁棒性，需要在新领域重新训练 [9], [10], [11]。

**最近进展**
基于扩散的零样本图像生成技术利用了预训练扩散模型的生成先验和额外的引导，使得无需重新训练即可更精细地控制生成过程 [12], [13]。然而，这些方法主要对与训练扩散先验对应的输入有效，例如来自高分辨率肖像领域的去噪模糊面部图像 [12]，而忽略了表现出显著领域转换的输入图像。对于图像增强，提供一个低质量的输入图像，目标是用高质量的视觉特征对其进行增强。与从随机噪声开始的常规扩散过程不同，低质量图像是在具有相应噪声级别的中间采样步骤引入的。这一过程使模型对各种类型的退化具有鲁棒性，并在一定程度上起到了领域适应的作用 [14]。然而，与扩散先验（通常是照片级图像领域）有显著分布差异的图像通常需要更多的扩散步骤来获得高分辨率特征，因为需要更高的噪声级别来将输入图像与学习到的分布对齐。这些较高的噪声级别可能会影响忠实度，导致细节对应关系的减弱和关键结构（如面部）的保存效果降低 [13]。因此，实施能够尽可能精确地保留底层结构的引导机制至关重要，同时生成逼真的自然图像。

我们提出了一种适用于未见目标领域的领域自适应零样本图像增强的扩散引导机制。遵循 [15], [16]，我们将零样本学习定义为在训练期间完全未观察到的目标领域上的推理，至关重要的是没有任何访问领域特定样本的途径。我们使用“领域自适应”来描述在这种零样本约束下调整模型的隐式先验。虽然所提出的引导方法不需要重新训练扩散模型，但我们展示了在强语义不匹配的情况下（例如胎儿超声渲染），通过使用辅助真实图像数据集的可选先验对齐步骤，性能可以显著提升。重要的是，这个对齐步骤不涉及任何目标领域数据，并且目标领域的推理仍然是零样本的。

在本文中，我们提出了LocDiff，一种在图像生成方法中平衡真实性和忠实度要求的方法，特别是在领域转换的情况下。与依赖在整个图像上均匀应用引导的现有零样本图像增强技术不同，我们通过引入基于局部性的引导来解决领域转换任务。这种方法实现了区域特定的灵活性，允许在不同的图像区域应用多样化的条件方法和不同的引导强度。通过这种方式，我们可以确保保留重要的局部特征，同时允许不太关键的区域（如背景）保持不受约束，不会干扰其他相关区域的引导过程。

**贡献：**
- 我们引入了LocDiff，一种新的基于局部性的引导方法。通过利用灵活的条件区域和对各个图像区域的自适应采样计划，我们的方法作为反向扩散过程的零样本扩展，能够在从输入到扩散先验领域的领域适配过程中选择性地保留关键细节。
- 我们的消融结果表明，我们可以通过独立调节反向扩散过程中该区域的引导来精确地针对特定图像区域。
- 我们展示了LocDiff在不同领域中的有效性：(1) 艺术到照片和 (2) 渲染到照片。我们使用图像恢复来评估LocDiff，其目标是在保留源领域面部特征的同时，添加照片级领域的高频细节。我们的实验结果表明，LocDiff在艺术到照片和渲染到照片任务上与最先进的方法相比表现具有竞争力，实现了有效的真实性与忠实度之间的平衡。
- LocDiff支持完全零样本场景（无需微调的艺术到照片）和使用辅助先验对齐的零样本推理（具有语义空间对齐的超声任务），确保了跨领域的灵活性，而无需目标领域训练数据。

**相关工作**
扩散模型的引导策略。去噪扩散概率模型 [17] 以从随机噪声生成令人印象深刻的照片级图像而闻名。在正向扩散过程中，高斯噪声被迭代地添加到输入图像中。在反向采样过程中，扩散模型学习逆向这一过程，从而迭代地去除噪声，旨在重建原始图像。先前的研究表明，扩散模型天生适合...

**方法**
我们通过利用在高质量照片级图像上训练的预训练扩散模型来解决从转换领域（例如艺术画作、超声渲染）增强低质量图像的挑战。我们的方法LocDiff（局部性约束扩散）在反向扩散过程中引入了区域特定的引导。与在整个图像上应用统一约束不同，这要么过度保留了输入图像（失去真实性），要么过度增强了它（失去...

**实验**
本研究评估了我们的局部性约束引导对特定图像区域的影响。我们在艺术到照片和渲染到照片的转换中展示了其有效性，目标是将低质量的（艺术/超声）图像转换为照片级图像，同时保留面部特征。我们关注面部，因为这是一个具有挑战性的任务，并且由于有精确的评估指标来衡量面部保留情况。

**结论与未来工作**
受到跨领域图像增强中平衡真实性与忠实度挑战的启发，我们提出了一种名为LocDiff的基于局部性的引导方法。我们的方法实现了预训练扩散模型的区域自适应控制，提供了灵活的集成，支持完全零样本场景和带有轻量级先验对齐的场景。

**致谢**
VRVis GmbH 由BMIMI、BMWET、蒂罗尔州、福拉尔贝格州和维也纳商业机构资助，属于COMET - 优秀技术能力中心（911654）的范围，该中心由FFG管理。

联系信箱：

粤ICP备09063491号

热点排行