《Neurocomputing》:TINCLIP: Improving compositional reasoning of CLIP via textual inversion with no
编辑推荐:
提出基于文本反转的TINCLIP方法,通过将图像表示映射到文本空间并引入“否”逻辑正则化和知识蒸馏,有效解决CLIP模型在 compositional reasoning 中的信息密度不均衡问题,在SugarCREPE和Winoground基准测试中性能提升超过8%。
Jiahe Wan|ZhongHao Wang|Yang Yu|Jun Ge|Zheng Ye
中国中南民族大学计算机科学与信息物理学院,国家民族事务委员会融合智能计算重点实验室,武汉
摘要 对比语言-图像预训练(CLIP)模型显著增强了文本和视觉表示之间的跨模态交互。然而,现有图像-文本数据集中两种模态之间的固有信息密度不平衡从根本上限制了CLIP的组合推理能力。本文提出了一种创新的基于反转的方法,通过将图像表示映射到文本空间中的语义表示来弥合模态之间的信息差距,从而消除了对硬负样本的依赖。为了解决反转表示的交互挑战和反转过程的效率问题,我们引入了“否”逻辑正则化机制和知识蒸馏技术。实验表明,基于硬负数据的训练方法无法真正提高对比学习范式下视觉-语言模型的组合推理能力,而我们的方法从根本上解决了这一问题。相比之下,我们的方法克服了这一限制,在SugarCREPE和Winoground基准测试中实现了超过8%的性能提升。
引言 组合性是视觉信息和自然语言共有的基本属性[7],任何复杂场景都可以通过其组成元素及其组合结构来确定。通过组合推理,人类可以依靠熟悉场景中的组成元素及其结构来理解新的变体场景。例如,人类可以轻松区分“一些植物围绕着一个灯泡”和“一个灯泡围绕着一些植物”。尽管这两个句子包含相同的词汇,但由于结构上的差异,它们的含义不同。然而,对于这样的组合场景,视觉-语言模型通常表现出“词袋”行为,无法在语义上进行区分。如图1(a)所示,CLIP对匹配场景和组合场景赋予了几乎相同的相似度分数。
对比视觉-语言模型通常从图像-文本对中学习跨模态表示,这在图像分类和分割等各种视觉任务中显著提高了性能[28]、[42]、[49]。此外,这些模型通常是现代多模态基础模型(例如LLaVA中的视觉编码器[25])的关键组成部分。然而,传统图像-文本数据集中的文本描述与其对应的图像相比,信息密度(编码过程中每个标记所包含的语义信息量)要低得多。简单来说,虽然图像包含丰富的像素级细节,但它们的配对文本通常仅限于大约十几个词的简短描述。这种信息密度差异使得文本单独难以完全捕捉所有视觉信息,从而导致模型难以区分新的组合场景和正确匹配的场景。
当前解决组合推理问题的工作[16]、[30]、[50]依赖于将硬负样本纳入训练语料库,旨在通过微调或预训练来增强模型的组合推理能力。例如,Structure-CLIP [16]为硬负数据集VG-Attribution [50]构建了场景图,并利用场景图知识(SGK)来增强CLIP的组合推理能力。TripletCLIP [30]首先生成硬负样本,然后交替使用这些样本来训练CLIP,进一步提高了其组合推理能力。尽管现有方法已经展示了有希望的结果,但组合推理数据无法直接从互联网上获得,这使得构建合成组合推理数据集的成本非常高昂。虽然自动生成与原始标题对应的硬负描述是可行的,但这种方法可能会引入隐性问题,如不合理的描述或缺乏流畅性[14]。获取硬负图像则更具挑战性。同时,最近的一项研究[54]表明,要达到与真实数据相当的性能,需要超过三倍的数据量。此外,基于硬负样本的监督学习方法不可避免地会导致模型过拟合。
因此,我们探索了一种无监督的解决方案,以避免依赖昂贵的硬负数据,旨在增强CLIP的组合推理能力,而不是学习样本之间的人为特征。人为特征是指从合成构建的硬负样本中产生的虚假相关性或表面词汇对比[14]。在5.7节中,我们观察到在 such 数据上训练的模型在基准评估中获得了高分,但无法区分两个组合样本的分布。这表明它们记住了数据集特定的模式,而不是获得了稳健的组合语义。我们的方法基于一个直观的想法:将更丰富的视觉信息注入文本表示中。
在图像生成领域,可以将图像反转为生成模型对应的潜在序列,然后将这个潜在序列反馈到模型中以实现局部图像编辑。反转后的潜在序列保留了细粒度的视觉细节,为我们的想法提供了坚实的基础。因此,我们提出了一种名为TINCLIP(通过无文本反转改进CLIP的组合推理)的方法,该方法基于一个预训练的CLIP [32]视觉-语言模型。所提出的方法首先将特定图像的视觉表示反转为语言空间中的反转表示,然后将这些反转表示与文本表示连接起来,以增强文本信息密度。这些反转表示源自视觉表示,同时作为文本空间中的元素。这种双重性质使得基于这些表示区分组合场景和匹配场景成为可能。受到[11]的启发,我们采用文本反转来实现映射过程,我们将其称为基于优化的文本反转(OTI)。在这个阶段,通过迭代优化图像特征获得文本空间中的反转表示,并在推理阶段直接使用这种表示。为了确保这些表示能够有效建模边界区域,我们引入了“否”逻辑提示来辅助反转过程。同时,在反转过程中应用两种正则化技术,以确保嵌入反转表示后文本表示的整体流畅性。第二阶段旨在解决基于优化的反转一次只能处理单个图像的限制。为了克服这一点,我们采用知识蒸馏来构建一个能够反转任意图像的单一模块。
在推理过程中,我们在每个文本描述前添加提示,而反转网络将查询图像反转为反转表示,然后将其与文本表示连接起来形成
。然后我们计算每个
与查询图像之间的相似度,以评估它们的对应关系。图1(b)展示了我们的图像到文本组合推理工作流程。对于文本到图像的组合推理,我们的方法从多个图像中提取多个反转表示,将每个表示与查询文本连接起来,并通过计算原始图像及其对应的增强文本表示之间的相似度来评估匹配度。在SugarCREPE和Winoground基准测试上的广泛实验结果表明,TINCLIP显著增强了CLIP的组合推理能力。值得注意的是,TINCLIP在SugarCREPE基准测试中的表现平均优于StructureCLIP 8%。此外,我们分析了基于硬负样本的方法在不同基准测试中表现不同的原因。我们工作的主要贡献包括:
• 本文提出了一种新方法,通过使用“否”进行文本反转将视觉信息注入文本表示,从而消除了图像和文本之间的信息密度不平衡,最终增强了CLIP的组合推理能力;
• 通过视觉分析,我们对基于硬负样本的方法提供了更深入的见解:这些方法本质上是在训练模型进行多项选择,而不是真正增强它们的推理能力;
• TINCLIP在SugarCREPE和Winoground基准测试中实现了最先进(SOTA)的性能,而消融研究验证了所提出方法每个组件的有效性。
部分片段 组合推理 组合推理反映了模型在语义上区分高度相似场景的能力。现有研究主要集中在两个方面:评估和增强这种能力。ARO [50]引入了第一个基准,系统地评估视觉-语言模型对对象顺序、属性和关系的理解,并率先使用硬负样本来提高组合推理能力。后续工作扩展了评估维度——Winoground
研究目标 本研究旨在解决对比视觉-语言模型组合推理的两个根本限制:(1)现有解决方案过度依赖硬负样本;(2)CLIP的组合推理能力不足源于预训练过程中的信息密度不平衡。我们提出了TINCLIP,这是一个无需注释数据和硬负样本即可增强组合推理的新框架。
方法论 在本节中,我们首先在4.1节提供了CLIP的概述。然后,在4.2节介绍了基于优化的文本反转方法。最后,在4.3节中,我们将知识蒸馏应用于OTI,使其适用于更广泛的场景。我们方法的总体结构可以在图2中找到。
数据集 在训练阶段,我们使用ImageNet1K [34]的测试集作为未标记的图像数据集,其中包含仅100,000张图像。在构建训练数据时,我们将这些未标记的图像进行零样本分类,将其分为OpenImagesV7 [19]的20,932个类别。虽然我们不训练CLIP,但其预训练数据集对其性能有一定影响。因此,我们选择了多个不同大小的预训练版本作为基线,包括CC3M [38]、CC12M [3]
结论 本文提出了一种零样本方法,通过将图像表示反转为文本表示,并将这些反转表示注入原始文本嵌入中来增强CLIP的组合推理能力。这一过程在推理过程中增加了文本的信息密度,从而提高了CLIP的组合推理能力。我们在SugarCREPE和Winoground基准测试上进行了全面实验,证明了所提出的方法TINCLIP的效果。
CRediT作者贡献声明 Jiahe Wan: 写作——审阅与编辑,撰写——原始草稿,可视化,验证,项目管理,方法论,调查,形式分析,数据策划,概念化。ZhongHao Wang: 写作——审阅与编辑,监督,资源,调查,资金获取。Yang Yu: 写作——审阅与编辑,监督,资源,调查,资金获取。Jun Ge: 监督,资源,数据策划,概念化。Zheng Ye: 写作——审阅与编辑,撰写——原始
利益冲突声明 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢 本工作得到了中南民族大学基本研究基金(授权号:CZZ24009)和中南民族大学学术创新团队及研究平台(授权号:XTZ24003)的支持。
Jiahe Wan 于2023年在中国江西科技学院获得软件工程学士学位,2026年在中国湖北中南民族大学获得计算机科学技术硕士学位。他的研究兴趣包括视觉-语言模型和组合推理。