基于Sigmoid损失和双令牌对比变化定位器的视觉-语言对齐技术，用于精确的变化字幕生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Vision-language alignment with sigmoid loss and dual-token contrastive change localizer for precise change captioning

【字体：大中小】 时间：2026年02月03日 来源：Neurocomputing 6.5

编辑推荐：

　　图像变化描述任务旨在生成对两幅相似图像细粒度差异的详细描述，需同时分析视觉内容和精准定位变化区域。本文提出双标记对比变化定位器（DTCCL），通过分离变化与不变特征，利用多头注意力机制分别提取共同特征和差异特征，并引入视觉-文本对齐模块（VTAM）以sigmoid损失替代传统InfoNCE损失，有效抑制无关干扰。实验表明，该方法在CLEVR-Change、Image Editing Request和Spot-The-Diff数据集上显著优于基线模型。

余子阳|顾晓东

复旦大学未来信息技术学院电子工程系，上海，200438，中国

摘要

变化字幕生成的任务侧重于生成一对相似图像之间细微差异的详细描述。与单图像字幕生成不同，这项任务要求模型不仅全面分析视觉内容，还要准确识别图像对中发生变化的区域。在这一过程中，一个重大挑战是在噪声和视角变化中检测变化。为了解决这一挑战，我们提出了一个双标记对比变化定位器（Dual-Token Contrastive Change Localizer），它将图像对中的变化区域和未变化区域分开处理。具体来说，我们使用两种不同的标记来学习共同特征和差异特征，分别受共同约束和差异约束的指导。然后利用这些标记生成变化区域和未变化区域的表示，再通过Transformer解码器将其转换为描述性句子。此外，我们引入了Sigmoid损失函数来替代传统的InfoNCE损失函数，以增强视觉特征和文本特征之间的对齐性。广泛的实验表明，我们的模型在各种变化场景下都取得了先进的性能。

引言

近年来，由于深度学习和多模态表示技术的进步，视觉-语言理解和生成领域取得了显著成就。作为该领域的一个新兴任务，变化字幕生成旨在描述一对相似图像之间的细微差异。图1展示了一个示例。这项任务不仅需要对视觉内容有深刻的理解，还需要能够以连贯且有意义的方式表达微妙的变化。其实际应用范围广泛，包括遥感图像分析[13]、[16]（有助于监测环境变化、城市发展和灾害响应），以及医学图像分析[19]、[24]（支持诊断成像的解释和疾病进展的跟踪）。

虽然图像字幕生成本身就是一个具有挑战性的任务，涉及理解视觉内容并生成语言上准确的描述，但变化字幕生成引入了额外的复杂性。其中一个最大的挑战是在视角变化的情况下准确检测和描述变化，因为视角变化可能会改变物体的外观而不会反映实际的变化，而无关噪声可能会掩盖有意义的差异。最近在图像字幕生成方面的进展通过整合更丰富的语义和空间先验，显著提高了生成描述的质量和粒度。例如，ARAFNet[12]和ICEAP[11]展示了细粒度属性信息的力量，提出了复杂的机制来动态细化和融合相关属性（如物体属性、动作）与视觉特征以指导字幕生成。此外，GAVA[9]强调了显式空间推理的关键作用，通过将几何特征（包括物体位置、大小和纵横比）直接整合到注意力机制中，以产生空间上连贯的描述。尽管这些模型在单图像字幕生成方面取得了很大进展，但变化字幕生成任务则提出了一个独特且更复杂的挑战：它不仅需要描述一个静态场景，还需要精确地定位和表达两个高度相似场景之间的差异。困扰变化字幕生成的干扰因素（如视角变化）很容易破坏大多数图像字幕模型所依赖的视觉、属性和几何线索。因此，直接将这些强大的单图像字幕生成范式应用于变化字幕生成任务的一个关键限制是它们对这些干扰因素的脆弱性，这可能导致伪变化的误识别或忽略微妙但真实的变化。

早期在变化字幕生成领域的方法依赖于直接减去两张图像的表示[10]、[29]、[37]、[48]，或计算它们的特征相似性[30]、[34]、[52]、[53]，这往往会导致由于视角变化和图像之间的无关变化而产生的伪变化。最近的进展如DIRL[43]通过对比学习来对齐成对的视觉和文本特征，从而解决了这些问题。然而，这些方法的一个显著限制在于它们的对比学习方法，其中不同图像对之间的相似变化被过度抑制。这种过度抑制阻碍了模型学习可靠和具有区分性的视觉特征的能力，最终影响了其捕捉有意义差异的效果。

为了解决这些问题，我们提出了一个双标记对比变化定位器（Dual-Token Contrastive Change Localizer，简称DTCCL），它有效地分离了图像对中的变化区域和未变化区域。具体来说，我们使用两种不同的标记通过多头注意力机制[49]独立捕获共同特征和差异特征，分别受共同约束和差异约束的指导。然后利用这些标记生成变化区域和未变化区域的稳健表示，再将其输入Transformer解码器[49]以生成连贯且描述性强的句子。此外，之前的研究[43]、[45]使用带有InfoNCE损失[26]的对比学习来对齐视觉和文本特征，这强制在所有负样本之间进行严格的全局排序。然而，这种对比学习方案在训练过程中存在假负样本的问题，即语义上相似但未被视为正样本的不同图像对。图2展示了一个典型的例子。之前的研究[15]、[32]、[33]、[56]表明，过度抑制假负样本可能会损害表示学习。相比之下，[54]中提出的Sigmoid损失函数允许模型独立评估每个视觉-文本对应关系的相关性，而不受无关图像对的假负样本的影响。这一特性特别有利于将细粒度的变化描述与其对应的视觉区域对齐。因此，我们引入了一个视觉-文本对齐模块（Visual-Textual Alignment Module，简称VTAM），使用Sigmoid损失[54]替代了以往工作中使用的传统InfoNCE损失函数，显著提高了视觉特征和文本特征之间的对齐性，从而提升了模型的整体性能。

总结来说，我们的主要贡献如下：

•

我们提出了一个双标记对比变化定位器（DTCCL），用于在视角变化的情况下学习可靠的视觉表示。

•

我们提出了一个视觉-文本对齐模块（VTAM），以更好地对齐视觉和文本特征，从而提升整体性能。

章节片段

变化检测

变化检测是一项识别给定系统或环境随时间变化的任务。它在各种领域都有应用，如监控系统[1]、自动驾驶汽车[40]和机器人[2]。也有基于3D场景的变化检测研究[8]、[27]。然而，我们的主要目标是通过识别变化来生成精确的文本描述。

变化字幕生成

变化字幕生成是一个新兴的视觉-语言任务。与单图像字幕生成不同，这项任务需要

方法

我们模型的整体结构如图3所示。我们的模型可以分为四个部分：（1）在ImageNet[5]上预训练的ResNet-101[7]作为特征提取器。（2）提出的双标记对比变化定位器，用于从原始图像表示中分离差异特征和共同特征，以获得全面的视觉特征。（3）Transformer解码器，将视觉表示转换为句子。（4）提出的视觉-文本对齐模块，用于对齐

数据集和评估指标

我们在三个开放数据集上进行实验：CLEVR-Change数据集[29]、Image Editing Request数据集[38]和Spot-The-Diff数据集[16]。CLEVR-Change数据集包含79,606对图像和493,735个相应字幕的基本几何对象。该数据集有五个变化类别，分别是“颜色”、“纹理”、“添加”、“删除”和“移动”。我们使用官方划分，其中67,660个样本用于训练，3,976个用于验证，7,970个用于

结论

总之，我们通过引入DTCCL模块以及一种新的带有Sigmoid损失的视觉-文本对齐方法，提出了一种生成高质量图像变化字幕的新模型。实验结果证明了我们方法的有效性。尽管取得了有希望的结果，但在生成精确的图像变化字幕方面仍有改进的空间，未来的研究将致力于使模型更加稳健。

CRediT作者贡献声明

余子阳：撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、方法论、调查、形式分析、概念化。顾晓东：撰写 – 审稿与编辑、撰写 – 原稿、监督、资源管理、项目管理、方法论、调查、资金获取、形式分析、概念化。

CRediT作者贡献声明

余子阳：撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、方法论、调查、形式分析、概念化。顾晓东：撰写 – 审稿与编辑、撰写 – 原稿、监督、资源管理、项目管理、方法论、调查、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62176062）的支持。

余子阳目前在上海复旦大学未来信息技术学院电子工程系攻读硕士学位。他的研究兴趣包括变化字幕生成、图像处理和深度学习。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号