基于语言引导的视觉-语言模型不变性探测

《Pattern Recognition Letters》:Language-Guided Invariance Probing of Vision–Language Models

【字体: 时间:2026年02月15日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  视觉语言模型语义鲁棒性评估方法研究,提出LGIP基准测试,通过生成语义保持改写和语义翻转文本,量化模型在语言不变性和语义敏感性方面的表现。实验表明EVA02-CLIP和大型OpenCLIP模型在语义保持与翻转检测间取得平衡,而SigLIP家族模型存在显著语义不敏感问题。

  
Jae Joong Lee
普渡大学计算机科学系,美国印第安纳州西拉斐特市大学街305号,邮编47907

摘要

视觉-语言模型(VLMs)在零样本任务中表现出色,但它们对受控语言扰动的鲁棒性尚未得到充分研究。我们提出了“语言引导的不变性探测”(Language-Guided Invariance Probing,简称LGIP)这一评估方法,该方法可以量化模型对保持语义的改写语句的不变性,以及对图像-文本匹配中语义变化的影响。在40,000张MS COCO图像(每张图像配有五个标题)的基础上,我们生成了修改对象类别、颜色或数量的改写语句和基于规则的语义翻转,并使用不变性误差、敏感性差距和正面率指标来评估模型的性能。
对九种VLMs的实验表明,EVA02-CLIP和大型OpenCLIP变体在不变性与敏感性之间取得了良好的平衡,而SigLIP和SigLIP2则表现出较高的不变性误差,并且在对象和颜色编辑方面,它们的表现甚至优于人类描述。这些行为在传统的检索指标中往往被掩盖,因此LGIP作为一种轻量级的、与模型无关的诊断工具,能够揭示语言鲁棒性的本质。

引言

像CLIP [1]、OpenCLIP [2]、EVA02-CLIP [3]和SigLIP [4]这样的视觉-语言模型(VLMs)支持零样本识别、检索以及多种多模态系统。通过将图像和文本对齐到共同的嵌入空间中,它们能够在无需特定任务微调的情况下实现出色的基准性能。然而,现有的评估方法对于一个基本问题——即当文本表述发生变化而图像保持不变时,VLMs会如何反应——提供的洞察有限。
我们认为,两个互补的特性对于鲁棒的图像-文本对齐至关重要。首先,语言不变性:在保持语义的改写语句下,相似性应该保持稳定。其次,语义敏感性:当标题被编辑以与显著的视觉属性(如对象类别、颜色或数量)相矛盾时,相似性应该降低。现有的评估方法大多将这些行为合并为总体准确率或检索分数,这使得很难判断模型是对表面形式敏感、对语义冲突反应迟钝,还是对特定类型的扰动具有选择性脆弱性。
为了解决这一问题,我们引入了“语言引导的不变性探测”(Language-Guided Invariance Probing,简称LGIP),这是一种针对VLMs的轻量级诊断工具。利用MS COCO数据集(40,000张图像,每张图像配有五个标题),LGIP自动为每对图像-标题生成两类文本扰动:(i)在保持语义的同时改变风格和框架的改写语句;(ii)修改目标属性(对象、颜色或数量)的语义翻转语句。对于给定的固定编码器,LGIP通过不变性误差来总结模型在改写语句下的相似性变化,以及语义敏感性正面率来衡量原始标题相对于翻转后的标题的排名稳定性。
在九种流行的VLMs中,LGIP揭示了传统零样本评估方法无法发现的明显差异。CLIP系列和大型OpenCLIP模型,特别是EVA02-CLIP,在不变性与敏感性之间取得了良好的平衡;而SigLIP系列模型则表现出较高的不变性误差,并且在对象和颜色编辑方面,它们的表现有时甚至优于人类描述。这些行为直接影响了那些依赖于语义等效但风格各异的多样提示、标题或指令的应用场景。
LGIP与模型无关且易于部署:它使用现有的标题语料库和基于规则的扰动方法,无需访问模型内部结构,并且可以统一应用于不同的架构和训练流程。尽管简单,但它揭示了模型在语言鲁棒性和语义理解方面的系统性弱点。
我们的贡献有三个方面:
  1. 我们引入了
    “语言引导的不变性探测”(Language-Guided Invariance Probing,简称LGIP),这是一种用于评估VLMs在保持语义的改写语句和语义变化的情况下的鲁棒性的诊断工具。
  2. 我们在MS COCO数据集上应用了LGIP,生成了改写语句和针对属性的翻转语句(对象、颜色、数量),并定义了区分不变性误差、语义敏感性和正面率的指标。
  3. 我们分析了九种广泛使用的VLMs,发现EVA02-CLIP和大型OpenCLIP变体在不变性与敏感性之间取得了良好的平衡,而SigLIP系列模型则表现出标准评估方法未能捕捉到的属性级失败。

相关工作

视觉-语言预训练 CLIP通过大规模图像-标题对的对比预训练来学习图像-文本表示[1]。OpenCLIP提供了可复制的扩展研究以及在LAION [2]上训练的公开模型,而EVA-CLIP改进了训练方法和架构,以实现更强的零样本迁移[3]。SigLIP用成对的sigmoid目标函数替代了softmax对比学习,减少了了对全局批量统计的依赖,从而提高了训练效率[4];SigLIP2

问题设置

我们考虑一个包含图像编码器fimg和文本编码器ftext的视觉-语言模型,并将图像-文本相似度定义为?2标准化嵌入之间的余弦相似度:
s(I,c)=sim(fimg(I),f(c)) D={(Ii,{ci(n}n=1M(MS COCO数据集:M=40,000),对于每对基础数据(I, c),LGIP构建了(i)一个保持语义的改写语句集PI,c)和(ii)一个至少与一个显著属性相矛盾的语义翻转集FI,c)。LGIP通过这两种方法来探测模型的行为。

实验设置

数据集。我们在MS COCO [5]上使用M40,000张训练图像和每张图像N5个人类标题来评估LGIP。对于每个标题,我们根据第3.2节生成最多K相同=6个改写语句和K不同=6个语义翻转。经过过滤和去重后,每模型得到了约120万个改写语句对比和80,632个有效的翻转三元组。
模型。我们测试了九种冻结的双编码器VLMs:CLIP ViT-B/16和ViT-L/14 [1];OpenCLIP ViT-L/14和ViT-H/14(LAION-2B)[2];EVA02-CLIP L/14 [3];SigLIP基础模型(224个模型)

讨论与结论

我们提出了“语言引导的不变性探测”(Language-Guided Invariance Probing,简称LGIP),这是一种在图像固定不变的条件下,通过受控文本扰动来评估视觉-语言模型的行为基准。通过区分保持语义的改写语句和语义变化的语义翻转,LGIP测量了两个互补的属性:语言不变性语义敏感性
在九种VLMs中,我们发现这些属性并非总是由模型的规模或强大的零样本准确率所保证的。EVA02-CLIP和大型OpenCLIP模型

CRediT作者贡献声明

Jae Joong Lee:负责撰写——审稿与编辑、撰写——原始草稿、可视化、验证、监督、软件开发、资源管理、方法论设计、调查分析、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号