KRCapVLM：利用视觉-语言模型实现基于光束引导的知识回放，以生成内容丰富的图像标题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Patient Education and Counseling》：KRCapVLM: Beam-Guided Knowledge Replay for Knowledge-Rich Image Captioning using Vision-Language Model

【字体：大中小】 时间：2026年03月26日 来源：Patient Education and Counseling 3.1

编辑推荐：

　　知识回放图像描述生成框架KRCapVLM通过束搜索解码、注意力图像编码器和训练调度器提升知识表达与生成质量，在KnowCap数据集上实现63.30%的准确率提升和CIDEr+2.3的改进，同时增强泛化能力。

Reem Aljunaid|Qasim Umer|Sajjad Mahmood|Mahmood Niazi|Muzammil Behzad

沙特阿拉伯达兰的法赫德国王石油与矿业大学

摘要

为图像生成信息丰富、知识含量高的字幕仍然是许多现有字幕模型的挑战，这些模型通常产生的描述较为泛化，缺乏具体性和上下文深度。为了解决这一局限，我们提出了KRCapVLM，这是一个基于知识回放的图像字幕框架，建立在视觉-语言模型之上。我们的方法通过引入束搜索解码来增强基础模型，以鼓励显式的知识表达；将基于注意力的模块整合到图像编码器中以改善视觉特征表示；并使用训练调度器来提高优化的可靠性和下游性能的一致性。这些组件共同显著提升了字幕质量和知识识别的能力。在KnowCap数据集上，识别准确率从50.40%提高到了63.30%，同时CIDEr得分也略有提升（+2.3），表明在保持字幕流畅性的同时增强了事实依据。此外，KRCapVLM在面对之前未见过的知识类别时表现出强大的泛化能力，当存在明确的现实世界概念时，能够生成更具信息性和上下文依据的字幕。总体而言，我们的结果凸显了KRCapVLM在推进知识感知图像字幕方面的有效性，同时在通用字幕基准测试中仍保持了稳健的性能。

引言

图像字幕是利用计算机视觉和自然语言处理技术为图像生成描述的任务[1]。它有多种应用，例如增强多媒体的内容理解[2]、[3]，以及帮助视障人士[4]、[5]。然而，现有的模型往往生成缺乏现实世界概念（如上下文细节和命名实体[6]、[7]）的泛化字幕。这种缺失的知识通常是理解图像内容的关键信息。此外，这些详细知识还可以提升依赖图像字幕系统输出的其他模型（如问答系统[8]、[9]）的性能。

已经有许多努力试图将现实世界知识融入描述中[10]、[11]。然而，这些工作大多依赖于外部资源（如图像元数据或对象识别模型）在生成描述之前检测现有实体。为了解决这个问题，视觉-语言预训练（VLM）模型[12]、[13]为这一领域提供了强大的解决方案。早期的VLM模型，如UNICODER-VL[12]和CLIP[13]，通过大规模预训练展示了强大的跨模态对齐能力。更近期的模型，包括BLIP[14]、OFA[15]和VinVL[16]，进一步改善了知识转移和生成质量。尽管表现优异，VLM模型仍存在两个主要问题：（1）零样本推理导致描述虽然安全但质量较低[17]、[18]、[19]；（2）由于预训练中图像-文本对中的噪声导致知识幻觉[17]、[18]。此外，在下游任务上对VLM模型进行微调会引入“泛化偏见”，限制了它们表达详细知识的能力[19]。

为了解决这些局限，提出了知识引导回放（K-Replay）框架[20]。K-Replay在微调过程中保留了原始模型结构，同时帮助VLM模型保留知识。它是通过从预训练数据中选择知识丰富的样本，并根据句子中所需关键词的存在计算覆盖损失来强化对这种知识的记忆，从而避免生成泛化描述。此外，为了减少幻觉并确保描述的真实性，还应用了基于知识蒸馏的约束。K-Replay在未见过的场景中表现出色，有效帮助模型回忆和表达预先学习到的知识。

尽管有这些优势，K-Replay也存在一些局限性。首先，它使用贪婪解码为回放样本生成伪字幕，这往往会产生多样性低且过于泛化的句子。这些字幕可能无法捕捉到详细知识，从而削弱了回放机制的有效性。其次，其框架中多个损失项的结合常常导致训练动态不稳定和收敛问题。最后，K-Replay缺乏图像块之间的显式自注意力，限制了其捕捉对现实世界知识至关重要的细粒度视觉模式的能力。

此外，本研究侧重于通过使用KnowCap[20]数据集来评估VLM模型生成知识丰富且准确的图像字幕的能力。因此，所评估的知识范围仅限于KnowCap数据集中预定义的关键词类别所代表的现实世界知识类型，包括食物、品牌、地标和电影角色。该研究并不试图捕捉或评估所有形式的通用知识，而是关注模型将特定知识关键词（根据该基准定义）融入生成字幕的能力。

文献综述

图像字幕技术经历了从传统的编码器-解码器架构到基于变换器的模型的发展，这一过程在多篇综述论文[21]、[22]、[23]、[24]中有所总结。在传统技术中，图像使用卷积神经网络（CNN）进行编码，文本使用循环神经网络（RNN）进行解码，将视觉特征线性转换为语言。尽管这些模型效果不错，但它们往往无法捕捉到更复杂的依赖关系

提出的方法

本节描述了我们为开发知识丰富的字幕模型所做的贡献。它概述了我们的关键贡献，并概述了基于视觉-语言模型的知识回放字幕模型（KRCapVLM）的总体架构。

实验设计与评估

本节介绍了我们实验中使用的数据集、评估指标以及训练设置。我们展示了模型的结果，并将其性能与基线方法进行了比较，以突出其有效性。此外，还进行了消融研究，以调查模型内部各个组件的贡献，从而更好地理解它们对整体性能的影响。

对比分析

我们在KnowCap和MSCOCO数据集上评估了我们的模型，主要关注CIDEr得分和识别准确率，这两个指标分别衡量了字幕的流畅性和在通用视觉领域的泛化能力，以及在存在明确现实世界概念时的知识识别能力。结果如表1所示，其中B1-B4、M、R、C和Rec列分别代表BLEU-1到BLEU-4、METEOR、ROUGE-L和识别准确率。我们注意到MSCOCO数据集主要包含

结论

在这项工作中，我们提出了KRCapVLM，这是一个旨在提高字幕生成质量和现实世界知识识别的知识感知图像字幕框架。我们的方法通过引入束搜索解码、在图像编码器中加入基于注意力的模块以及使用训练调度器来提高优化可靠性和下游性能的一致性，从而增强了强大的视觉-语言基础模型。

在KnowCap和MSCOCO数据集上的广泛实验表明，KRCapVLM

CRediT作者贡献声明

Reem Aljunaid：撰写——初稿、可视化、方法论。Qasim Umer：撰写——审阅与编辑。Sajjad Mahmood：撰写——审阅与编辑。Mahmood Niazi：撰写——审阅与编辑。Muzammil Behzad：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言