基于检索的对象和关系提示用于图像字幕生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Retrieval-based objects and relations prompt for image captioning

【字体：大中小】 时间：2026年03月21日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　图像描述生成方法，基于检索的对象关系提示（RORPCap），通过对象关系提取模型（OREM）获取视觉信息，结合Mamba映射网络减少计算量，在MS-COCO和nocaps数据集上表现优异，训练时间仅需2.6小时。

Jinjing Gu|Tianbao Qin|Yuanyuan Pu|Zhengpeng Zhao

云南大学信息科学与工程学院，昆明，650500，中国

摘要

图像字幕生成的目标是以开放的形式为输入图像生成自然语言描述。为了准确生成与图像相关的描述，图像字幕生成中的一个关键步骤是识别图像中的对象并理解它们之间的关系。现代方法通常利用对象检测器或将检测器与图卷积网络（GCN）结合使用。然而，这些模型存在检测信息冗余、GCN构建困难以及训练成本高的问题。为了解决这些问题，提出了基于检索的对象和关系提示图像字幕生成方法（RORPCap），该方法受到图像-文本检索可以为输入图像提供丰富语义信息的启发。RORPCap使用对象和关系提取模型从图像中提取对象和关系词，然后将这些词纳入预定义的提示模板中并编码为提示嵌入。接下来，设计了一个基于Mamba的映射网络，将对比语言-图像预训练模型提取的图像嵌入快速映射为视觉-文本嵌入。最后，将得到的提示嵌入和视觉-文本嵌入连接起来，形成文本增强的特征嵌入，再输入到GPT-2模型中生成字幕。在广泛使用的MS-COCO数据集上进行的广泛实验表明，RORPCap仅需要2.6小时的交叉熵损失训练，即在‘Karpathy’测试分割上获得了120.5%的CIDEr分数和22.0%的SPICE分数。RORPCap在训练时间最短的情况下取得了与基于检测器和基于GCN的模型相当的性能指标，显示出其作为图像字幕生成替代方案的潜力。源代码可在以下链接获取：https://github.com/jinjinggu00/RORPCap。

引言

图像字幕生成是计算机视觉中的一个高级语义理解任务，旨在生成一个视觉上有依据且语言上连贯的句子，涵盖图像中值得提及的大部分语义内容。但要实现这一目标，面临视觉领域和语言领域之间巨大差异的问题（Yan等人，2020年）。为了准确生成与图像相关的描述，图像字幕生成中的一个关键步骤是识别图像中的对象并理解它们之间的关系。现代方法通常利用对象检测器或将检测器与图卷积网络（GCN）结合使用。然而，如图1所示，这些模型存在检测信息冗余、GCN构建困难以及训练成本高的问题。

如图2所示，为了获取对象的特征，一些基于检测器的方法（Yu等人，2019年；Pan等人，2020年；Li等人，2023年；Hossen等人，2024年）使用检测器对对象进行编码。这些方法表现良好，但检测器可能受到预训练模型中对象类别的限制（Li等人，2022年）。例如，仅在80个类别上训练的DETR（Zhu等人，2020a年）难以识别“太阳镜”等对象及其关系。使用更多样化的检测器（Anderson等人，2018年）可能会引入冗余检测并增加计算成本。为了捕捉图像中的关系，一些工作使用GCN（Kipf和Welling，2016年）引入语义和空间关系（Yao等人，2018年；Hong等人，2021年；Xiao等人，2024年），如图2(b)所示。基于GCN的方法也能取得良好结果，但它们面临GCN构建复杂和计算成本高的挑战（Ghandi等人，2023年）。

Feng等人（2019年）指出，图像字幕生成系统需要额外的文本概念（Pan等人，2017年；Yao等人，2017年）作为监督信息，以确保生成的描述性句子与输入图像的相关性。文本概念可以是对象词（例如，椅子、计算机、人）和关系词（例如，站立、坐着、与），这些词在语言领域中携带重要的视觉信息。之前的研究（B?rjars和Burridge，2019年）也证明了名词、动词、动词等词在句子结构、意义和流畅性中的重要性。这些研究表明，文本模态信息有助于为输入图像生成语义上和语法上正确的描述性句子。为了捕捉文本概念，一些基于检索的图像字幕生成模型（Ramos等人，2023b；Ramos等人，2023a）主要使用输入图像从仓库中搜索字幕。如图2(c)所示，检索方法用于搜索与输入图像相似的字幕，这些字幕作为提示信息指导描述生成。然而，使用多个完整句子可能会增加冗余，影响描述质量并延长训练时间。为了解决上述问题，本研究提出了基于检索的对象和关系提示图像字幕生成方法（RORPCap）。如图2(d)所示，设计了一个对象和关系提取模型（OREM）来获取图像中的对象和关系词，这些词主要由名词、动词、动词和介词表示，可以有效避免检测器和GCN带来的问题。

仅使用图像中的对象和关系词不足以准确生成字幕；还必须考虑视觉信息。随着视觉-语言模型（CLIP）（Radford等人，2021年）的出现，它能够将视觉和文本映射到一个共享的向量空间。许多研究（Mokady等人，2021年；Ramos等人，2023b年；Kim等人，2025年）利用CLIP丰富的视觉-文本表示来实现模型轻量化。为了减少模型训练时间，我们也利用了CLIP。然而，从CLIP获得的表示仍然独立于语言模型的潜在空间。我们需要一个桥梁来连接视觉和文本领域。受到ClipCap（Mokady等人，2021年）的启发，该模型基于Transformer（Vaswani等人，2017年）构建了映射网络，我们的RORPCap基于Mamba（Gu和Dao，2023年）构建了这一桥梁。Mamba是一种新的选择性状态空间模型，其状态转移矩阵可以根据当前输入动态调整。这使得模型能够更灵活地捕捉序列中的关键信息，并且网络为较长的序列提供更快的计算速度。

如图3所示，RORPCap利用OREM获得的关于图像的对象和关系词，并将这些词填充到模板中，然后使用语言模型GPT-2的 tokenizer将其转换为提示嵌入（Radford等人，2019年）。为了弥合视觉和文本模态之间的差距，使用基于Mamba的映射网络将CLIP提取的图像嵌入映射为视觉-文本嵌入。接下来，将提示嵌入和视觉-文本嵌入连接起来形成一个前缀。在训练过程中，前缀与真实（GT）嵌入连接，然后输入到GPT-2中。在推理过程中，语言模型根据前缀逐词生成描述。在MS-COCO（Lin等人，2014年）数据集和nocaps（Agrawal等人，2019年）数据集上进行了广泛实验，以衡量对未见类别和概念的泛化能力。结果表明，我们的RORPCap模型有潜力作为基于检测器和基于GCN的图像字幕生成模型的替代方案。RORPCap不需要检测器或构建GCN，这有助于减少训练参数和模型的训练时间。本研究的贡献可以总结如下：

•
提出了OREM来提取图像对象和关系词，并构建提示模板以提高图像字幕生成性能。这是一个可重用的集成模块，适用于其他工作。
•
设计了一个快速简单的映射网络，基于Mamba来弥合视觉和文本领域之间的差距。我们进行了消融实验，以验证Transformer和Mamba作为视觉和语言映射网络之间的性能差异。
•
在MS-COCO的标准图像字幕生成基准测试上进行了广泛实验，在‘Karpathy’分割上取得了与最先进模型相当的性能。此外，RORPCap是训练时间最短的模型，具有可比的性能指标，并在nocaps数据集上展示了良好的零样本能力。

本文的结构如下：第2节介绍先前的研究。第3节介绍我们的框架和方法。第4节展示实验和结果分析。第5节提供定性结果，第6节总结并提出未来研究的建议。

方法

图3提供了RORPCap方法的总体示意图，主要包括OREM和一个映射网络。为了获取文本概念，我们使用图4中的OREM来检索与输入图像最相似的句子并提取对象和关系词。我们使用GPT-2（小型）作为我们的语言模型，并利用其tokenizer将提示和字幕投影为嵌入序列

p^{j}

c^{j}

x^{j}

，。为了从输入图像中提取视觉信息

x^{j}

，我们使用预训练的CLIP模型

实验和结果分析

在本节中，我们介绍了实验，包括数据集、评估指标、实现细节和结果分析。

定性结果

我们展示了RORPCap的几个定性结果，以定性证明其有效性。在图7中，比较了RORPCap、基线模型ClipCap、基于检测器的模型LSTNet、基于检索的模型SMALLCAP以及人工注释的GT句子的结果。我们用绿色和红色分别突出显示了我们模型中的正确对象和关系词。总体而言，四种方法都能够识别图像中的对象及其关系以生成

局限性和未来工作

RORPCap是一个基于检索的图像字幕生成模型，数据存储中的知识可能包含固有的偏见和幻觉。为了缓解这个问题，RORPCap应该优化视觉编码器和解码器以提供可解释性解释，这与主要依赖视觉注意力图进行解释的模型不同。RORPCAP的另一个局限性是它是在以英语为主的MS-COCO数据集上训练的，可能无法高效地扩展到其他应用（例如，医疗、交通等）

结论

在本文中，提出了一种基于检索的图像字幕生成方法RORPCap，用于提取图像中的对象和关系词。传统的图像字幕生成模型存在检测信息冗余、构建GCN困难以及训练成本高等问题。RORPCAP中设计的OREM从检索到的句子中提取对象和关系词，并构建输入的提示模板，使模型能够有效提取主要的描述对象

CRediT作者贡献声明

Jinjing Gu：撰写 – 审稿与编辑，资金获取。Tianbao Qin：撰写 – 原始草稿，软件，项目管理，方法论。Yuanyuan Pu：撰写 – 审稿与编辑，监督。Zhengpeng Zhao：撰写 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了云南基础研究项目（项目编号：202501AT070234、202401CF070164）的支持，部分得到了上海铁路基础设施耐久性和系统安全重点实验室项目（项目编号：R202403）的支持，部分得到了国家自然科学基金（项目编号：52102382）的支持，部分得到了云南星电人才计划青年项目（2023年）的支持，以及部分得到了云南省教育厅科学研究基金项目（项目编号：2025Y0008）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作