利用视觉语言模型来选择由扩散模型生成的可靠超分辨率样本

《IEEE Transactions on Circuits and Systems for Video Technology》:Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models

【字体: 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  本文提出基于视觉语言模型(VLMs)的扩散超分辨率(SR)可靠样本选择框架,通过语义推理评估生成图像的语义正确性、视觉质量和伪影,集成顶部候选者生成单一可靠输出。创新性提出混合可信度评分(TWS),融合CLIP语义相似度、SSIM结构完整性及多级小波伪影敏感度,验证其与人类偏好强相关且优于传统PSNR/LPIPS指标,有效解决SR不确定性问题。

  

摘要:

超分辨率(SR)是一个病态逆问题,存在许多与给定低分辨率图像一致的可行解。一方面,回归型SR模型旨在平衡图像的保真度和感知质量以得到一个唯一解;但这种权衡往往会导致伪影的出现,从而在识别数字或字母等信息关键应用中引入歧义。另一方面,扩散模型可以生成多种SR图像;但从这些图像中选择最可靠的解则成为一项挑战。本文提出了一种基于视觉语言模型(VLM)的语义推理能力的鲁棒自动化框架,用于从扩散生成的图像集中识别最可靠的SR样本。具体来说,使用BLIP-2、GPT-4o及其变体等VLM,通过结构化查询来评估图像的语义正确性、视觉质量以及伪影的存在情况。然后将排名最高的SR候选图像进行集成,以经济高效的方式得到一个可靠的输出。为了严格评估VLM选择的样本的有效性,我们提出了一种新颖的可靠性评分(TWS)——这是一种混合指标,基于三个互补组件来量化SR的可靠性:使用CLIP嵌入进行语义相似性评估,通过SSIM分析边缘图来评估结构完整性,以及通过多级小波分解来评估伪影敏感性。实证研究表明,TWS与人类偏好在模糊图像和自然图像中都有很强的相关性,并且VLM引导的选择始终能获得较高的TWS值。与PSNR、LPIPS和DISTS等传统指标相比(这些指标无法反映信息保真度),我们的方法提供了一种原则性、可扩展且通用的解决方案,用于应对扩散SR空间中的不确定性。通过使模型输出与人类期望和语义正确性保持一致,这项工作为生成式SR任务中的可靠性树立了新的基准。

引言

图像超分辨率(SR)本质上是一个病态逆问题,因为可以从单个低分辨率(LR)图像生成多个合理的高分辨率(HR)图像[1]。这种固有的歧义在需要SR重建结果精确性的信息关键应用中带来了重大挑战,例如数字或字母识别。早期的监督学习方法[2]、[3]、[4]、[5]、[6]将SR视为一个正则化问题,并使用成对的LR-HR数据进行处理。这些方法依赖于图像先验来减少歧义并产生一个唯一输出。然而,这种方法往往会导致高频伪影,从而在后续任务中得出错误结论,如图1所示。

SR中的歧义:在Urban100数据集的img-6图像片段上,最先进模型的SR重建结果。SOTA方法将“5”重建为“6”,而我们的结果显示“5”下部的开口是可见的,这证实了我们提出的策略有助于解决歧义,从而提供更可靠的解决方案。请注意,像PSNR、DISTS这样的定量评分并不能很好地反映信息的可靠性。相比之下,我们的可靠性评分(TWS)反映了LDM-VLM的优势,表明其重建结果更加可靠且语义上更准确。

引言

图像超分辨率(SR)本质上是一个病态逆问题,因为可以从单个低分辨率(LR)图像生成多个合理的高分辨率(HR)图像[1]。这种固有的歧义在需要SR重建结果精确性的信息关键应用中带来了重大挑战,例如数字或字母识别。早期的监督学习方法[2]、[3]、[4]、[5]、[6]将SR视为一个正则化问题,并使用成对的LR-HR数据进行处理。这些方法依赖于图像先验来减少歧义并产生一个唯一输出。然而,这种方法往往会导致高频伪影,从而在后续任务中得出错误结论,如图1所示。

SR中的歧义:在最先进模型对Urban100数据集img-6图像片段进行SR处理的结果[15]中,“5”被重建为“6”,而我们的结果显示“5”下部的开口是可见的,这证实了我们提出的策略有助于解决歧义,从而提供更可靠的解决方案。请注意,像PSNR、DISTS这样的定量评分并不能很好地反映信息的可靠性。相比之下,我们的可靠性评分(TWS)反映了LDM-VLM的优势,表明其重建结果更加可靠且语义上更准确。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号