《Neurocomputing》:DiCo: Disentangled concept representation for text-to-image person re-identification
编辑推荐:
提出基于分层槽与概念分解的跨模态对齐框架DiCo,通过共享槽式表示实现图像与文本的层次化对齐,将每个槽进一步分解为颜色、纹理等细粒度概念块,有效解决视觉与文本模态差异及精细属性对齐难题,实验在多个基准数据集上达到SOTA性能。
作者:Kim Giyeol | Eom Chanho
韩国首尔中央大学高级成像科学研究生院多媒体与电影系,成像科学系,邮编06974
摘要
文本到图像的人重识别(TIReID)旨在根据自由形式的文本描述从大型图像库中检索人物图像。由于视觉外观和文本表达之间存在显著的模态差异,以及需要建模区分具有相似属性(如服装颜色、纹理或服装风格)的个体的细粒度对应关系,TIReID具有挑战性。为了解决这些问题,我们提出了DiCo(解耦概念表示)这一新颖框架,该框架实现了层次化和解耦的跨模态对齐。DiCo引入了一种基于插槽的共享表示方法,每个插槽作为跨模态的部分级锚点,并进一步分解为多个概念块。这种设计能够在保持图像和文本之间一致的部分级对应关系的同时,解耦互补的属性(例如颜色、纹理、形状)。在CUHK-PEDES、ICFG-PEDES和RSTPReid上的广泛实验表明,我们的框架与最先进的方法相比具有竞争力,同时通过明确的插槽和块级表示提高了检索结果的可解释性。
引言
文本到图像的人重识别(TIReID)旨在仅根据自然语言描述从大规模图像库中检索特定个体[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]。与传统的基于图像的ReID[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]不同,TIReID允许直接用自然语言表达查询,提供了更灵活和实用的检索范式。尽管具有实际优势,但由于两个关键问题,TIReID仍然极具挑战性:(1) 视觉和文本表示之间的显著模态差异,这源于它们本质上不同的表达形式。图像由密集连续的视觉信号组成,能够捕捉姿势、视角和照明等外观变化,而文本描述依赖于离散的语言标记来传达高级语义属性。这种差异使得直接对齐两种模态变得困难,因此需要学习一个统一的嵌入空间以实现可靠的跨模态匹配。(2) 另一个挑战在于建模文本属性与图像中微妙视觉线索之间的细粒度对应关系。由于真实世界数据集中很少有部分级注释,因此开发无需显式监督即可自动发现和对齐区分性局部特征的模型至关重要。
为了解决这些挑战,早期的方法[1]、[2]、[3]、[4]、[5]、[6]通常采用双编码器框架,其中图像和文本使用全局表示和度量学习目标投影到共享的嵌入空间中(图1a)。然而,这种全局对齐往往无法捕捉到区分性的局部细节。为了克服这一限制,基于部分和区域级别的方法[7]、[8]、[9]、[10]、[11]、[12]、[14]将人物图像分解为身体部位,并将其与词级文本标记对齐以建立局部对应关系(图1b)。最近,视觉-语言模型(VLM)[31]被用来增强文本理解和上下文推理,从而实现更准确的语义表示[11]、[32]、[33]。尽管取得了这些进展,现有方法仍然难以从根本上弥合视觉和文本模态的异质性。为了缓解这个问题,先前的方法[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[32]、[33]试图通过度量目标在共享嵌入空间中对齐双编码器特征或在对双编码器表示之上引入跨注意力机制来缩小模态差异。尽管这些策略允许跨模态交互,但它们通常导致浅层特征融合而不是深层语义对齐。此外,先前方法[7]、[8]、[9]、[10]、[11]、[12]中的对齐通常仅限于全局身份特征或粗略的部分级对应关系,无法明确解耦颜色、纹理或形状等细粒度语义概念。因此,对于区分视觉上相似的个体至关重要的微妙但具有区分性的线索可能会经常被忽略。
在本文中,我们提出了DiCo(解耦概念表示)这一新颖框架,该框架通过结构化的插槽分解和概念解耦来实现层次化和可解释的跨模态对齐(图1c)。DiCo引入了一组统一的可学习插槽,这些插槽作为跨身体区域的模态共享锚点,并进一步将每个插槽分解为捕获语义连贯属性(如颜色、纹理和形状)的多个概念块。这种插槽-概念结构使DiCo能够通过迭代和注意力的交互逐步细化跨模态的语义一致性,而不是通过浅层融合来弥合固有的模态差异。此外,通过从全局身份线索到特定概念子空间的层次化组织表示空间,DiCo即使在没有显式部分级注释的情况下也能自动定位和对齐微妙的视觉属性与其文本对应项。这种设计使我们的模型能够同时处理粗粒度和细粒度的语义,显著提高了其区分具有细微属性变化的个体的能力。通过多级对比目标和重建约束在全局、部分和概念级别上监督对齐,DiCo学习了稳健且语义上有根据的嵌入。在三个公共基准测试上的广泛实验验证了DiCo的有效性,其性能与最先进的方法相当。
本工作的主要贡献如下:
- •
我们提出了DiCo,这是一种新颖的框架,它引入了基于插槽的统一分解和概念级分解,实现了跨全局身份线索、身体区域和细粒度语义概念(如颜色、纹理和形状)的层次化对齐。
- •
我们设计了一种插槽-概念注意力机制,该机制共同学习模态共享的部分锚点和解耦的概念块,从而实现无需显式部分级注释的可解释和稳健的跨模态匹配。
- •
我们通过在CUHK-PEDES、ICFG-PEDES和RSTPReid上的广泛实验证明了DiCo的有效性,其性能与最先进的方法相当。
部分摘录
文本到图像的人重识别
文本到图像的人重识别(TIReID)旨在根据自由形式的文本描述从大型图像库中检索正确的人物图像。早期的方法[1]、[2]、[3]、[4]、[5]、[6]通常采用双编码器架构,其中图像和文本使用全局对齐目标嵌入到共享空间中。虽然这些方法为跨模态检索奠定了基础,但它们难以捕捉区分视觉上相似个体所需的细粒度属性
提出的方法
我们提出了DiCo(解耦概念表示),它学习了用于文本到图像人重识别的层次化和语义解耦的跨模态对应关系。整体架构在第3.1节中介绍,插槽-概念解耦机制在第3.2节中详细说明,训练和推理策略在第3.3节中讨论。
数据集
我们在三个广泛使用的基于文本的人重识别基准测试集上进行了实验:CUHK-PEDES [57]、ICFG-PEDES [58] 和 RSTPReid [59]。CUHK-PEDES 包含40,206张图像,涉及13,003个身份,每张图像配有两个自然语言描述,总计80,440个句子。数据集分为34,054张用于训练,3,078张用于验证,3,074张用于测试。该数据集提供了描述服装、属性和上下文细节的多样化句子注释。ICFG-PEDES 是由...
限制和未来工作
尽管我们的框架表现出强大的性能和可解释性,但有几个方面表明了进一步研究的有希望的方向。例如,尽管插槽表示通常在捕获与人物相关的区域方面有效,但有时也会对背景区域产生响应。结合引导机制或可控约束可能会促进前景语义的更精确定位。此外,尽管块级设计成功捕获了概念级因素...
结论
在这项工作中,我们提出了解耦概念表示(DiCo),这是一种用于文本到图像人重识别的新颖框架,它解决了模态差异和细粒度对应关系的挑战。通过将表示分解为共享的部分级插槽和解耦的概念块,我们的方法实现了跨全局、部分和概念层次的层次化对齐,而无需显式部分注释。在三个公共基准测试上的广泛实验表明...
CRediT作者贡献声明
Kim Giyeol:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,方法论,概念化。Eom Chanho:写作 – 审稿与编辑,撰写原始草稿,监督,资源获取,方法论,资金获取,概念化。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
Eom Chanho 报告称获得了韩国国家研究基金会(NRF)的财务支持。Eom Chanho 报告称获得了韩国创意内容机构的财务支持。Eom Chanho 报告与SensorWay存在关系,包括董事会成员身份。如果有其他作者,他们也会进行声明
致谢
本工作得到了韩国国家研究基金会(NRF)的资助,该基金会由韩国政府(MSIT)资助(项目编号:RS-2024-00355008)。它还得到了2024年韩国文化、体育和旅游部通过韩国创意内容机构资助的文化、体育和旅游研发计划的支持(项目名称:基于生成式人工智能和云的内容制作研发专业人才培养,项目编号:RS-2024–00352578,贡献比例:30%)。此外,...
Kim Giyeol 目前正在首尔中央大学高级成像科学、多媒体与电影研究生院(GSAIM)攻读联合硕士学位。他目前的研究兴趣包括计算机视觉和机器学习,特别是在人物搜索、扩散模型和多模态学习方面,涵盖理论和应用。