通过联合文本模板和多粒度相似性进行的多维度AI生成图像质量评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Multi-Dimensional AI-Generated Image Quality Assessment viaJoint Text Template and Multi-Granularity Similarity

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　多维度图像生成质量评估方法，通过联合文本模板协同评估视觉质量与真实性，结合细粒度图像分块与文本片段化分析，实现多粒度图像-文本对应评估，在AGIQA-1K、AGIQA-3K和AIGCIQA2023数据集上验证有效。

作者：吴毅、罗航、梁金星

单位：武汉纺织大学计算机与人工智能学院，中国武汉，430200

摘要

AI生成图像质量评估（AGIQA）旨在客观量化生成图像的感知质量。现有方法从三个维度评估生成图像：质量、真实性和对应性，但它们存在质量和真实性维度之间的孤立性问题，并忽略了图像与文本的局部对应关系。为了解决这一限制，我们提出了一个多维度评估框架，该框架能够同时评估质量和真实性，以及进行多粒度图像-文本对应性评估。具体来说，我们构建了一个联合文本模板来共同评估图像质量和真实性。通过将图像分割成块并将提示分割成片段，我们的方法通过相似性计算进行多粒度对应性分析，最终预测出三维分数。在AGIQA-1K、AGIQA-3K和AIGCIQA2023数据集上的实验结果证明了所提出方法的有效性。源代码可在此处获取：https://github.com/YiWu02/MGS。

引言

AI生成图像（AGI）技术可以根据文本提示自动生成相应的图像。然而，由于硬件限制、模型能力和提示质量的原因，AGI可能会出现某些质量问题，如细节模糊、结构扭曲或逻辑错误。如图1所示，第一行的图像质量较差，存在模糊、扭曲和图像-文本对应性低的问题。相比之下，第二行的图像清晰、逼真，并与提示很好地对齐。因此，准确评估AGI的质量已成为一个关键问题，吸引了全球研究人员的广泛关注。

图像质量评估（IQA）已经从手工制作的特征[1]、[2]发展到深度学习方法[3]、[4]、[5]。早期研究主要依赖于参考图像，并通过比较扭曲图像和参考图像之间的像素级或结构差异来评估质量。随着深度学习的发展，无参考IQA逐渐成为主要方法。它旨在利用大量标注数据学习图像特征与人类主观质量分数之间的关系。这些方法在自然场景图像上表现良好，但在应用于AGI时存在局限性。传统的IQA关注常见的视觉问题，如模糊、噪声和压缩伪影。AGI经常表现出新的问题类型，如不自然的结构、逻辑错误或语义错误，这些传统IQA难以识别。此外，传统的IQA方法通常只将图像作为输入并输出一个质量分数。评估AGI的质量需要使用文本提示，检查图像是否与文本匹配，并测量文本和图像之间的语义对应关系，而这正是传统IQA无法实现的。这种语义对应关系对于评估AGI的质量至关重要。

AGIQA方法根据AGI的特性和任务要求对其进行评估。早期方法通常只输出一个反映感知质量或图像-文本对应性的综合分数，无法描述AGI的多方面特性。近年来，出现了多维度评分方法，量化了不同的质量维度，如美学质量、视觉真实性和语义对应性。这些方法通常同时将图像和提示作为输入，并对各个维度进行回归评分。然而，多维度评分引入了新的问题：不同维度之间的分数通常是独立计算的，缺乏跨维度协调，而且这些方法通常关注整体图像-文本对应性，而忽略了图像特定区域与文本部分之间的局部对齐。这些问题可能会影响AGIQA的准确性。

为了解决这些问题，我们的方法构建了一个联合文本模板，用于协同评估质量和真实性，同时进行提示分割和多粒度对应性评估以提高对应性准确性。本文的主要贡献包括：

•

我们构建了一个结合了视觉质量和真实性的联合文本模板，并利用预训练的CLIP模型来计算其与图像的对应关系，在统一的框架内实现了AGI的视觉质量和真实性的协同评估。

•

我们对提示进行了语义分割，得到了一组细粒度的文本片段，并利用CLIP模型计算图像与提示之间以及图像块与单个文本片段之间的多粒度对应关系，建立了多粒度对应性评估。

•

我们将所提出的方法与公开可用的数据集上的最先进方法进行了比较，并进行了消融研究以分析其组成部分。实验结果证明了我们方法的有效性。

小节片段

IQA

IQA研究主要针对自然图像，旨在预测感知质量。刘等人[6]提出了一种多尺度盲IQA模型，可以捕捉全局和局部扭曲。DPHN[7]引入了一种结合感知先验和深度特征的双感知混合网络。DBCNN[8]通过双线性特征交互来建模复杂扭曲。MANIQA[9]使用多维注意力来突出显示对扭曲敏感的区域。LIQE[10]将对应性整合到

方法

我们的方法概述如图2所示。其核心基于预训练的CLIP[30]模型，该模型包括一个基于Transformer的文本编码器和一个Vision Transformer（ViT-B/16）图像编码器。我们的方法构建了一个结合了视觉质量和真实性的联合文本模板。利用25个候选文本描述，我们使用CLIP来测量这些描述与图像及其块之间的对应关系，从而实现协同评估

数据集和评估标准

数据集 为了验证和分析所提出的方法，我们在三个基准数据集上进行了广泛的实验：AGIQA-1K[31]、AGIQA-3K[32]和AIGCIQA2023[33]。AGIQA-1K包含由两个代表性文本到图像（T2I）模型生成的1,080张图像，提供了平均意见分数（MOS）。AGIQA-3K包括来自六个T2I模型的2,982张图像，提供了质量和对齐分数。AIGCIQA2023包含由六个高级T2I模型生成的2,400张图像，并附有质量注释

结论

在本文中，我们提出了一种基于多粒度相似性的AGIQA方法。该方法设计了一个用于协同评估质量和真实性的联合文本模板，并通过提示分割和图像块划分实现了多粒度对应性评估。实验结果证明了其在三个基准数据集上的领先性能。然而，当前方法在细粒度对应性分割中依赖于介词和标点符号

CRediT作者贡献声明

吴毅：撰写——原始草案、可视化、验证、软件、方法论、调查。罗航：撰写——审阅与编辑、监督、资金获取、概念化。梁金星：监督、资源提供。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了湖北省服装信息工程研究中心（项目编号2024HBCI03）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号