
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用视觉语言模型来选择由扩散模型生成的可靠超分辨率样本
《IEEE Transactions on Circuits and Systems for Video Technology》:Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models
【字体: 大 中 小 】 时间:2026年02月22日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
本文提出基于视觉语言模型(VLMs)的扩散超分辨率(SR)可靠样本选择框架,通过语义推理评估生成图像的语义正确性、视觉质量和伪影,集成顶部候选者生成单一可靠输出。创新性提出混合可信度评分(TWS),融合CLIP语义相似度、SSIM结构完整性及多级小波伪影敏感度,验证其与人类偏好强相关且优于传统PSNR/LPIPS指标,有效解决SR不确定性问题。
图像超分辨率(SR)本质上是一个病态逆问题,因为可以从单个低分辨率(LR)图像生成多个合理的高分辨率(HR)图像[1]。这种固有的歧义在需要SR重建结果精确性的信息关键应用中带来了重大挑战,例如数字或字母识别。早期的监督学习方法[2]、[3]、[4]、[5]、[6]将SR视为一个正则化问题,并使用成对的LR-HR数据进行处理。这些方法依赖于图像先验来减少歧义并产生一个唯一输出。然而,这种方法往往会导致高频伪影,从而在后续任务中得出错误结论,如图1所示。
SR中的歧义:在Urban100数据集的img-6图像片段上,最先进模型的SR重建结果。SOTA方法将“5”重建为“6”,而我们的结果显示“5”下部的开口是可见的,这证实了我们提出的策略有助于解决歧义,从而提供更可靠的解决方案。请注意,像PSNR、DISTS这样的定量评分并不能很好地反映信息的可靠性。相比之下,我们的可靠性评分(TWS)反映了LDM-VLM的优势,表明其重建结果更加可靠且语义上更准确。
图像超分辨率(SR)本质上是一个病态逆问题,因为可以从单个低分辨率(LR)图像生成多个合理的高分辨率(HR)图像[1]。这种固有的歧义在需要SR重建结果精确性的信息关键应用中带来了重大挑战,例如数字或字母识别。早期的监督学习方法[2]、[3]、[4]、[5]、[6]将SR视为一个正则化问题,并使用成对的LR-HR数据进行处理。这些方法依赖于图像先验来减少歧义并产生一个唯一输出。然而,这种方法往往会导致高频伪影,从而在后续任务中得出错误结论,如图1所示。
SR中的歧义:在最先进模型对Urban100数据集img-6图像片段进行SR处理的结果[15]中,“5”被重建为“6”,而我们的结果显示“5”下部的开口是可见的,这证实了我们提出的策略有助于解决歧义,从而提供更可靠的解决方案。请注意,像PSNR、DISTS这样的定量评分并不能很好地反映信息的可靠性。相比之下,我们的可靠性评分(TWS)反映了LDM-VLM的优势,表明其重建结果更加可靠且语义上更准确。