利用大型语言模型和数字孪生表示进行文本到图像的推理检索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Reasoning Text-to-Image Retrieval with Large Language Models and Digital Twin Representations

【字体：大中小】 时间：2026年01月17日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　推理型文本到图像检索通过数字孪生表示实现跨模态理解与分层检索，在RT2I等数据集上显著优于传统全局特征匹配方法。

Zexu Lin|Dell Zhang|Yiqing Shen|Xuelong Li

小米公司，北京，100085，中国

摘要

文本到图像检索的目标是从大规模集合中识别与给定文本查询在语义上相关的图像。现有的嵌入相似性方法依赖于全局特征匹配，这只能捕捉到表面层次的相似性，限制了它们处理需要推理对象属性、空间关系和场景语义的隐式查询的能力。虽然一些最近的方法采用了多阶段处理流程来增强跨模态理解，但它们仍然难以应对复杂的隐式推理任务。此外，这些方法通常返回整个图像，而无法定位满足查询约束的特定对象，因此不适用于需要细粒度检索的应用。为了解决这些限制，我们定义了一个新的任务，称为推理文本到图像检索，这是一个超越简单相似性匹配的新任务。其目标不仅是检索相关图像，还包括其中满足隐式推理查询的特定对象。为了应对这一任务，我们提出了一个称为DTIR（数字孪生图像检索）的两阶段框架。它通过引入中间数字孪生（DT）表示来桥接视觉和文本模态，以实现大型语言模型（LLM）的推理。具体来说，DTIR首先将图像转换为DT表示，这些表示是编码了对象语义、属性和空间关系的文本描述，同时保留了细粒度的视觉上下文。随后，基于LLM的代理执行推理和分层检索，以确定目标图像以及图像中的对象。为了评估基于推理的检索能力，我们构建了一个新的基准数据集RT2I，其中包含1,260对需要推理的查询-图像对。在RT2I上，DTIR的召回率为37.38%，相比最强的基线提高了61%，并在4个传统基准测试中建立了新的最佳结果。代码和数据集可在https://github.com/oneoflzx/DTIR获取。

引言

视觉内容的增长使得文本到图像检索成为多种应用中的重要能力，从电子商务产品发现[1]和医学图像分析[2]到安全监控[3]和数字资产管理[4]。从形式上讲，这项任务要求从大规模集合中识别与给定文本查询在语义上相关的图像[5]。

当前的方法采用基于嵌入的方法，特别是那些利用对比学习框架（如CLIP[6]及其变体[7]、[8]）的方法。这些框架将图像和文本投影到共享的嵌入空间中，通过计算学习到的表示之间的余弦相似性来实现检索。尽管它们在标准检索场景中取得了成功，但它们面临两个限制，这些限制限制了它们的实际应用性。首先，它们擅长处理直接描述可见内容的显式查询（例如，“停车场里的红色汽车），但在处理需要推理的隐式查询时却遇到困难（例如，“适合越野露营的车辆”），如图1(a)和(b)所示。这是因为这些方法依赖于捕捉表面层次视觉-语义对应关系的全局特征表示[6]。它们缺乏解释隐式文本查询中的抽象要求或功能约束所需的推理能力。其次，现有方法在图像层面进行检索，并返回整个图像。它们无法识别图像中哪些特定对象满足查询约束。这是因为图像是整体编码的，难以区分相关的前景对象和无关的背景元素。在包含多个实体的复杂检索场景中，这一限制尤其成问题，用户需要定位满足隐式查询的特定目标，如表1所总结的。

为了解决这些推理和定位挑战，人们可能会转向现代的视觉语言模型（VLMs）[7]、[9]、[10]、[11]、[12]、[13]。VLMs展示了有前景的零样本推理能力。然而，它们存在一个固有的架构限制，因为视觉感知和语义推理在单一模型中交织在一起。这种耦合迫使VLMs将其参数和计算资源分配到低级视觉处理和高级推理任务中。因此，它们在复杂推理上的性能往往不够理想。同时，大型语言模型（LLMs）[9]、[10]、[11]在更大、更多样化的文本语料库上进行了训练。它们一致地展示了优于多模态模型的多步推理能力和更高的效率。然而，它们主要设计用于处理文本，无法直接处理视觉数据。

在这项工作中，我们引入了推理文本到图像检索，这是一个新的任务表述，它需要多步推理来解释隐式查询，并同时定位检索到的图像中满足给定约束的特定对象。与传统的检索任务不同，传统任务的查询明确描述了可见内容（例如，“海滩上的一艘小船），我们的任务使用通过功能或属性描述目标的隐式查询。例如，如图1(b)所示，查询“连接到固定物体的轻量个人运输设备”要求系统推断目标（即自行车）并检查空间约束（即连接到固定物体）以检索图像并定位实例。这一要求使得依赖表面层次的视觉-语义对应关系变得不足。为了评估这项任务的性能，我们构建了RT2I（推理文本到图像），一个包含1,260对精心策划的查询-图像对的新基准数据集。这些查询需要对对象功能、空间关系和抽象属性进行复杂的推理。最后，为了解决这个任务，我们提出了DTIR（数字孪生图像检索），一个通过中间数字孪生（DT）表示将视觉感知与推理分离的新代理框架。创新地，这些DT表示将视觉内容转换为结构化的文本描述。它们以LLM可以直接解释的格式编码了对象语义、属性、空间关系和整体场景上下文。利用这些表示，DTIR将推理文本到图像检索重新定义为两个阶段的过程，包括离线感知阶段和在线推理阶段。离线感知阶段为集合中的所有图像生成文本DT表示。在线推理阶段使用基于LLM的代理执行分层检索和多步推理，以识别目标图像以及图像中的特定对象，这些对象满足隐式查询约束。

我们的贡献有三个方面。首先，我们正式化了推理文本到图像检索的任务，建立了一个新的范式，该范式超越了相似性匹配，要求在检索过程中进行推理和对象级别的定位。其次，我们引入了RT2I，一个包含需要多步推理对象属性、空间关系和功能属性的隐式查询的基准数据集。第三，我们提出了DTIR，一个利用DT表示的两阶段代理框架。它使LLM能够在不进行直接图像处理的情况下执行复杂的视觉推理，并弥合了视觉感知和语义推理之间的差距。

本文的其余部分结构如下：第2节讨论相关工作。第3节介绍问题表述和提出的DTIR框架。第4节展示了在RT2I和传统基准测试上的实验结果，并对前者进行了消融研究。最后，第5节总结了本文。

章节片段

文本到图像检索

当前的文本到图像检索方法依赖于学习图像和文本查询之间的共享嵌入空间[6]。最近的尝试采取了几个主要方向来提高检索性能。第一个方向涉及扩展模型架构，例如InternVL[7]，它使用更大的视觉编码器来捕获更丰富的视觉表示。第二个方向探索了结构化处理范式。例如，Multi-SEA[21]提出了一个多阶段流程，包括

问题表述

我们将推理文本到图像检索形式化为一个超越传统相似性匹配的跨模态任务。这项任务需要对图像和文本查询进行多步推理。给定一个具有隐式约束的自然语言查询，目标是通过推理检索相关图像并定位其中满足查询的特定对象。设I=I1,I2,…,IN}表示N张图像的集合，其中每张图像I_i可能包含多个对象

O_{i} = {o_{i}^{1},o_{i}^{2},\dots,o_{i}^{m_{i}}

数据集

我们在我们提出的RT2I基准测试上评估了DTIR，同时还评估了传统的文本到图像检索数据集，包括Flickr30K [5]和Flickr30K-CN [35]（1K测试集）、MSCOCO 5K [36]和MSCOCO-CN 1K [37]。Flickr30K包含31,000张图像，每张图像都附有五个涵盖不同主题和场景的英文句子。我们在广泛使用的1,000张图像测试集上报告了我们的结果。MSCOCO是一个更大规模的数据集，包含123,287张图像，每张图像也附有五个英文标题。我们的评估

结论

我们引入了推理文本到图像检索，这是一个新的任务，它超越了相似性匹配，要求进行多步推理和对象级别的定位。我们的DTIR通过一种将感知与推理分离的两阶段方法，解决了使LLM能够大规模执行视觉推理的挑战

CRediT作者贡献声明

Zexu Lin：撰写——原始草稿、验证、软件、方法论、数据整理、概念化。Dell Zhang：可视化、项目管理。Yiqing Shen：撰写——审阅与编辑、监督。Xuelong Li：监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号