OACI：基于对象的图像字幕上下文整合技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：OACI: Object-Aware Contextual Integration for Image Captioning

【字体：大中小】 时间：2026年01月24日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　图像描述生成中融合全局上下文与局部物体细节，提出OACI框架，通过OAPL模块学习高置信度物体原型，CAC约束优化类别亲和性，OCI模块整合上下文增强物体关系理解，实验验证在MSCOCO等数据集上显著提升生成质量。

徐书汉|韩梦雅|于伟|何正|周欣|罗勇

中国武汉大学计算机科学学院

摘要

图像字幕生成是视觉理解中的基本任务，旨在为给定的图像生成文本描述。当前的图像字幕方法正逐渐转向完全端到端的范式，这种范式利用预训练的视觉模型直接处理图像并生成字幕，从而无需单独使用对象检测器。这些方法通常依赖于全局特征，而忽略了局部特征的精确感知。对对象的精细关注不足可能导致原型特征受到周围噪声的干扰，从而影响与对象相关的字幕生成质量。为了解决这个问题，我们提出了一种称为“对象感知上下文整合”（OACI）的新方法，该方法通过利用整个场景的全局上下文来捕捉单个对象的显著特征并理解它们之间的关系。具体来说，我们提出了一个对象感知原型学习（OAPL）模块，该模块专注于包含对象的区域以增强对象感知，并选择最可信的区域来学习对象原型。此外，我们还设计了一个类别亲和力约束（CAC）来促进这些原型的学习。为了理解对象之间的关系，我们进一步提出了一个对象-上下文整合（OCI）模块，该模块将全局上下文与局部对象原型相结合，从而增强对图像内容的理解并提高生成的字幕质量。我们在流行的MSCOCO、Flickr8k和Flickr30k数据集上进行了广泛的实验，结果表明，将全局上下文与局部对象细节相结合显著提高了生成字幕的质量，验证了所提出的OACI方法的有效性。

引言

图像字幕生成是视觉理解中的基本任务，其目标是使用自然语言描述图像的内容[1]、[2]、[3]、[4]。这项任务要求算法捕捉与对象相关的视觉信息，并理解视觉元素和文本元素之间的复杂关系[5]，最终生成连贯的文本描述[6]、[7]。

在早期阶段，大多数图像字幕方法采用了两阶段训练范式[8]、[9]、[10]、[11]、[12]。首先，使用预训练的检测器（如Faster R-CNN[13]）识别和检测图像中的对象区域。然后提取区域级特征，并将其输入到字幕生成器中以生成文本描述。这种两阶段训练范式通过将任务分为两个相对独立的子任务——对象检测和字幕生成——简化了图像字幕生成的过程。然而，预训练的对象检测器主要捕捉单个对象区域，往往无法考虑视觉场景中对象之间的上下文关系。这一限制限制了对象之间结构关系的准确建立，而这对生成详细和精确的字幕至关重要。最近，计算机视觉领域的重大进展促进了替代模型的发展，特别是Vision Transformer（ViT[14]）及其变体。受这些进展的启发，一些研究[15]、[16]、[17]通过利用预训练的视觉模型在统一的端到端框架内处理图像并生成字幕，从而避免了单独使用对象检测器的需要。将所有必要的信息处理步骤集成在一个模型中，使得能够更全面地捕捉图像中的复杂关系和上下文信息，从而生成更丰富、更精确的字幕。例如，PureT[15]直接使用Swin Transformer[18]提取视觉信息进行学习，从而提高了字幕生成的性能。为了将语义概念与视觉信息联系起来，一些研究[16]、[17]引入了额外的语义线索，以帮助模型学习更多语义信息并生成更具语义深度的描述。然而，这些方法仅关注全局上下文，而对局部信息不敏感，这使得难以捕捉具有丰富细节的对象原型，从而导致生成的字幕可能遗漏对象信息。例如，在图1(a)中，生成的字幕中缺少了“书”和“钱包”这些对象。为了进一步说明这些问题，图2展示了两种信息缺失的情况：1）生成的字幕可能缺少对象细节，如左侧面板所示的“黄色”；2）生成的字幕也可能缺少某些对象，如右侧面板所示的“猫”。

为了解决上述问题，我们旨在通过隐式学习对象级特征并利用全局上下文信息来理解对象之间的结构关系，从而增强图像中的对象感知，如图1(b)所示。在本文中，我们提出了一种新的端到端图像字幕框架，称为“对象感知上下文整合”（OACI），该框架旨在隐式识别与对象相关的区域以生成对象原型，并构建对象之间的结构关系。具体来说，我们设计了一个对象感知原型学习（OAPL）模块，该模块采用无监督方法来感知对象信息。OAPL模块预测每个像素的对象类别，以生成分割掩码和对象原型。为了减少分割掩码中的语义噪声，OAPL模块进一步关注每个对象区域内置信度最高的像素，从而生成更具代表性的对象原型。此外，我们引入了类别亲和力约束（CAC）来促进对象原型的学习，使同一类别的像素更紧密地聚集在一起，不同类别的像素相距更远。为了全面捕捉图像中对象之间的结构关系，我们开发了一个对象-上下文整合（OCI）模块，将全局上下文与获得的对象原型相结合，从而增强对图像内容的理解并提高生成的字幕质量。

总结来说，本研究的主要贡献如下：

•

我们提出了一种新的端到端图像字幕框架，称为“对象感知上下文整合”（OACI），该框架从与对象相关的局部区域学习对象原型，并结合全局上下文来建立对象之间的结构关系，从而提高生成字幕的准确性和全面性。

•

我们引入了类别亲和力约束，通过最小化同一类别像素之间的距离并最大化不同类别像素之间的距离来增强对象感知原型的学习。

•

我们提出了一个对象-上下文整合模块，该模块结合全局上下文以更好地构建对象之间的关系，从而更全面地理解视觉内容并提高生成详细字幕的质量。

我们在广泛使用的图像字幕数据集MSCOCO[19]、Flickr8k[20]和Flickr30k[21]上进行了广泛的实验。实验结果证明了所提出方法的有效性。例如，在MSCOCO数据集的XE阶段，该方法超越了所有现有的最先进方法，并在SCST阶段的BLEU-1、BLEU-4和ROUGE指标上取得了最佳性能。在Flickr30k数据集上，BLEU-4、METEOR和SPICE指标的表现也优于现有的最先进方法。

章节片段

两阶段图像字幕生成

图像字幕模型通常采用编码器-解码器架构[8]、[9]、[10]、[17]、[22]、[23]、[24]、[25]，其中编码器从图像中提取视觉信息，解码器生成文本描述。早期的图像字幕方法使用卷积神经网络（CNN）创建网格特征[22]，然后使用循环神经网络（RNN）将特征向量逐个单词地解码成句子，直到构建出完整的字幕句子[22]、[26]。

方法

在本节中，我们介绍了一种无需检测器的字幕生成框架，称为“对象感知上下文整合”（OACI）。该框架通过隐式学习对象原型并从全局上下文中学习对象之间的关联来感知图像中的单个对象。我们框架的整体结构如图3所示。

我们的模型主要由三个部分组成：对象感知原型学习（OAPL）、类别亲和力约束（CAC）和对象-上下文整合

实验

为了验证我们提出的模型在图像字幕任务中的有效性，我们在广泛使用的公共数据集MSCOCO[19]、Flickr8k[20]和Flickr30k[21]上进行了一系列实验。接下来，我们将提供详细的描述。

结论

在本文中，我们提出了用于图像字幕生成的对象感知上下文整合（OACI）方法。与现有的端到端字幕模型相比，它可以隐式地从视觉特征中提取与对象相关的局部视觉信息，并构建对象之间的结构关系。所提出的对象-上下文整合（OCI）模块通过全局上下文的帮助连接独立学习到的对象原型，而引入的类别亲和力约束（CAC）则优化了...

CRediT作者贡献声明

徐书汉：软件、方法论、概念化。韩梦雅：撰写——原始草稿、数据整理。于伟：可视化、调查。何正：验证、软件。周欣：撰写——审阅与编辑。罗勇：监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了国家自然科学基金（资助编号：U23A20318、62276195、62401407）和湖北省创新研究群体基金（资助编号：2024AFA017）的支持。本文中的数值计算是在武汉大学超级计算中心的超级计算系统上完成的。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

两阶段图像字幕生成

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行