通过与表达相关的对象精炼和多阶迭代推理来增强视觉基础

《Knowledge-Based Systems》：Improving visual grounding with expression-relevant object refinement and multi-order iterative reasoning

【字体：大中小】 时间：2026年05月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　王群|朱峰|李翔|叶瑞达|王建宇|赵鹏飞中国科学院光电信息处理国家重点实验室，沈阳，110016，中国摘要视觉定位的目标是将自然语言表达描述的目标对象定位在图像中。目标对象通过其具有区分性的特征（包括视觉属性和上下文）与其他对象区分开来。现有方法通常以任务未指定的方式提取这些特征

王群|朱峰|李翔|叶瑞达|王建宇|赵鹏飞

中国科学院光电信息处理国家重点实验室，沈阳，110016，中国

摘要

视觉定位的目标是将自然语言表达描述的目标对象定位在图像中。目标对象通过其具有区分性的特征（包括视觉属性和上下文）与其他对象区分开来。现有方法通常以任务未指定的方式提取这些特征，迫使模型相互编码视觉属性和上下文。尽管这些方法在定位准确性方面取得了显著进展，但任务未指定的方式限制了模型的表示能力，导致区分性特征不足。为了解决这个问题，我们提出了一个新颖的视觉定位框架，该框架包括三个任务明确的组件：视觉细化模块（VRM）、多阶上下文编码器（MCE）和迭代目标解码器（ITD）。具体来说，VRM从视觉特征提取器的多阶段特征中细化与表达相关的对象及其视觉属性，降低了后续上下文编码的难度。基于表达指导，MCE迭代编码与表达相关的对象的多阶上下文，作为补充证据以提高对象的可辨识度。为了精确定位目标，ITD通过分析对象区分性特征与表达中的区分性描述之间的对应关系来逐步收集目标特征。在三个基准数据集RefCOCO、RefCOCO+和RefCOCOg上的广泛实验验证了我们框架的有效性，并展示了其在处理长复杂句子时的领先性能。

引言

视觉定位是一种多模态任务，使代理能够理解自然语言并找到语言中提到的对象。在这个任务中，目标对象通常根据表达中的一个或多个区分性指导信息进行定位，即其视觉属性或上下文。例如，“穿红衣服的人”，其中“红衣服”和“人”都是该对象的视觉属性；再比如“左边第二个香蕉”，其中“左边第二个”和“香蕉”是该对象的上下文。因此，代理必须能够表示各种区分性特征以实现准确的视觉定位。

当人类处理视觉定位时，他们首先使用视觉属性在图像中找到与表达相关的对象。然后分析这些对象之间的上下文关系。视觉属性和关系被视为每个对象的区分性特征。最后，人类将表达提供的区分性指导与对象的区分性特征进行比较，以区分和定位目标对象。在最近的发展中，主流方法通常使用现成的视觉特征提取器来提取对象的视觉属性，并设计各种跨模态模块进行上下文分析和定位。例如TransVG [1] 和 VLTVG [2] 直接将基于Transformer [3] 的跨模态模块附加到来自视觉特征提取器的原始视觉特征图上。然而，原始视觉特征图通常包含大量与表达无关的噪声，这可能会干扰后续的上下文分析和定位，增加难度。为了解决这个问题，TransVG++ [4] 和 VG-LAW [5] 将跨模态模块嵌入到视觉特征提取器中以修改视觉特征。尽管这些方法在定位准确性方面取得了显著进步，但它们偏离了人类的推理过程。它们强制视觉提取器同时处理多个任务，包括特征提取、上下文分析和目标定位。这些混合方法由于任务未指定，增加了模型的表示负担，导致表示能力减弱。因此，我们认为设计任务明确的模块来模拟人类推理是提升模型性能的一个有前景的方法。

在本文中，我们介绍了一个名为EORMIR的新框架，该框架具备执行表达相关对象细化和多阶迭代推理的能力。如图1所示，EORMIR通过三个步骤模仿人类类似的视觉定位推理：首先，视觉细化模块（VRM）细化与表达相关的对象，以降低后续上下文编码和目标解码的难度。其次，多阶上下文编码器（MCE）编码细化后的对象的多阶上下文，使其更具区分性。最后，迭代目标解码器（ITD）根据上述获得的对象区分性特征定位目标对象。具体来说，VRM利用其核心组件——权重共享细化门（WSRG），通过比较对象的视觉属性与表达的语义来聚焦与表达相关的对象。此外，我们在视觉特征的多个阶段累积使用WSRG，以减少信息损失。随后，MCE通过堆叠多个上下文聚合模块（CAM）来编码多阶上下文，每个模块都受到语言的指导进行相应的上下文聚合。最后，ITD根据表达中提供的描述，逐步收集目标特征并创建查询目标，并堆叠多个特征收集模块（FCM）来收集有关目标对象的信息。所有FCM关于目标对象信息的输出经过加权融合，以实现精确定位。

总之，我们的贡献有四点：

•
我们提出了一个名为EORMIR的新框架，旨在通过使用三个任务明确的模块来模拟人类推理过程，从而增强模型在视觉定位中的表示能力。
•
我们提出了一个语言受限的、级联的VRM，它使用WSRG来积累和细化与表达相关的对象特征，同时逐步抑制来自多阶段视觉特征的噪声。
•
我们引入了一个语言引导的MCE，利用堆叠的CAM来编码多阶上下文并增强对象区分性。
•
我们设计了一个目标引导的ITD，利用堆叠的FCM根据视觉属性和上下文信息迭代定位目标对象。

本文的其余部分组织如下：第2节回顾了最近的相关文献。第3节详细介绍了我们的方法，包括其整体架构和三个模块：VRM、MCE和ITD，以及损失函数。第4节描述了实验程序。第5节展示了比较实验和综合消融实验，以证明所提方法的有效性。第6节讨论了可视化方法。最后，在第7节中，我们对论文进行了总结并分析了局限性和未来方向。

节片

提出的模型

在本节中，我们详细介绍了我们的视觉定位框架EORMIR。首先，介绍了整体架构。随后，我们详细介绍了三个任务明确的组件：VRM、MCE和ITD。最后，我们介绍了用于训练的损失函数。

数据集和评估协议

数据集。为了评估我们方法的有效性，我们使用三个广泛可用的数据集进行了实验：(1) RefCOCO [44] 包含142,210个表达式和19,994张图像，涉及50,000个目标对象，分别分为“训练/验证/测试A/测试B”，对应“120,624/10,834/5,657/5,095”个表达式。测试A集合包含多个人物，而测试B集合包含多个对象。(2) RefCOCO+ [44] 包含141,564个表达式和19,992张图像

与最先进方法的比较

我们在表1中展示了与RefCOCO [44]、RefCOCO+ [44] 和 RefCOCOg [45] 数据集上最先进方法的比较结果。可以看出，两阶段方法[11]、[17]逐渐被淘汰，其他方法在各方面都超过了它们的性能。与最先进的两阶段方法Ref-NMS [17]及其改进版本VL-NMS [18]的结果相比，我们的方法在RefCOCO（测试A）上分别获得了5.11%、8.38%和7.51%的绝对提升

讨论

在图11中，我们展示了几个成功案例（第1-3列）、失败案例（第4-6列）以及表达相关对象注意力和迭代目标解码器注意力的可视化结果。第一行显示了输入图像和表达式。如第二行所示，基于我们的VRM，我们可以关注与表达相关的对象区域，这有助于降低后续编码和解码的复杂性。在第一个案例中，我们的VRM准确识别了“橙色”和“香蕉”

结论和局限性

在本文中，我们提出了一个新颖的任务明确框架EORMIR，该框架能够进行类似人类的视觉定位推理。EORMIR细化了包含视觉属性的表达相关对象特征，然后根据表达指导编码它们的多阶上下文，并最终从视觉属性和多阶上下文中迭代收集目标特征以实现定位。我们的方法在任务明确的情况下显著增强了模型的表示能力

CRediT作者贡献声明

王群：写作 – 审阅与编辑，概念化，方法论，初始草稿。朱峰：监督，写作 – 审阅与编辑。李翔：写作 – 审阅与编辑，方法论。叶瑞达：写作 – 审阅与编辑。王建宇：写作 – 审阅与编辑。赵鹏飞：写作 – 审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言

节片

相关工作