《Neural Networks》:Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
编辑推荐:
为系统评估多模态大语言模型(MLLMs)的低级视觉感知能力,研究者受人类心理物理学启发,开发了一种“黑箱”行为学方法,通过结构化提示和带通滤波噪声刺激估计模型的对比敏感度函数(CSF)。研究发现,不同MLLMs的频率调谐模式存在系统性差异,其CSF预测了模型在频率滤波和对抗条件下的性能。该方法无需依赖内部激活,为评估下一代多模态模型的视觉感知提供了可扩展、可解释的新框架。
你是否想过,那些能看懂图片并流畅对话的多模态大语言模型(Multimodal Large Language Models, MLLMs),它们的“视力”究竟如何?它们能否像人类一样,敏锐地察觉图像的细微明暗变化(即对比度)?这种对对比度的感知能力,是视觉系统的基础,在人类视觉中,它被一个名为对比敏感度函数(Contrast Sensitivity Function, CSF)的曲线所量化。CSF描述了视觉系统在不同空间频率(可以粗略理解为图像的粗细纹理)下感知对比度的能力,它决定了我们能看清多少细节,直接影响着从阅读路牌到欣赏风景等各种视觉任务。理解MLLMs的CSF,对于评估它们的感知能力、预测其性能瓶颈至关重要。
然而,尽管先前已有研究探索了卷积神经网络和视觉Transformer模型的CSF,但这些工作主要集中于单模态的视觉架构,并且所采用的方法严重依赖于对模型内部表征的任意解读策略(如训练分类器或计算特征空间距离),这引入了额外假设,使结果难以解释。更重要的是,目前尚无工作系统性地探究过能够通过生成式响应整合视觉与语言、并维持对话的MLLMs的CSF。这留下了一个关键的研究空白:我们如何才能像测试人类视力一样,直接、无偏地测量这些“黑箱”模型的低级视觉感知能力?
为了解决这一问题,来自西班牙瓦伦西亚大学图像处理实验室的Pablo Hernández-Cámara等研究人员在《Neural Networks》期刊上发表了一项创新性研究。他们从经典人类心理物理学实验中获得灵感,提出了一种全新的行为学方法来估计MLLMs的CSF。该方法的核心思想是将模型视为一个端到端的观察者,绕过对其内部机制的探究。研究人员向模型呈现一系列在特定空间频率下进行带通滤波的噪声刺激图像,并辅以自然语言提示(例如“<图像> 图像中有可观察到的模式吗?”),要求模型给出“是”或“否”的二元言语回应。通过系统性地改变刺激图像的对比度,研究人员为每个空间频率和提示构建了心理测量函数,并从中提取出对比度检测阈值,其倒数即为对比敏感度。最终,得到模型的CSF曲线。这种方法完全不依赖于模型的内部激活、无需训练额外分类器、也无需预先定义相似性度量,实现了对MLLMs对比敏感度的直接测量。图像>
研究采用了多项关键技术方法。在刺激设计上,生成了覆盖0-32周期每度(cpd)的带通滤波噪声图像,每个频率-对比度组合生成25个独立样本以提高可靠性。在任务设计上,系统构建了25种不同措辞的提示,以评估模型对语言变化的鲁棒性。在CSF测算上,通过拟合韦布尔累积分布函数构建心理测量函数,并以50%检测概率对应的对比度作为阈值。研究所评估的模型包括Qwen2.5VL、InternVL、LLaVA-1.5、Magma等多个开源MLLMs,参数规模覆盖3B和7B。此外,研究还将模型的CSF与人类标准空间观察者的CSF进行了对比,并使用熵和一致性指标量化了提示依赖性。为验证CSF的诊断价值,研究进一步设计了频率滤波和频率特定对抗噪声实验,在图像分类任务(使用Imagenette数据集)中检验模型CSF峰值与其性能脆弱性之间的关联。
模型对比敏感度函数揭示频率调谐多样性
研究人员首先计算了所有测试模型的平均对比敏感度函数。结果显示,不同模型的CSF在形状和量级上均存在显著差异。有些模型(如某些InternVL变体)的曲线在中等频率处呈现可辨别的峰值,表现出一定的带通特性,而其他模型(如某些Qwen2.5VL变体)则显示出更平坦或单调的轮廓。在敏感度量级上,大多数模型在人类最敏感的低频处普遍低估了敏感度,而在高频处则可能高估。这些发现揭示了MLLMs在处理低级空间结构时存在系统性差异,也证明了该方法能够产生可解释且可区分的CSF,具备作为通用诊断工具的潜力。
模型感知估计受提示措辞显著影响
由于MLLMs对提示措辞敏感,研究系统评估了语言变化对CSF估计可靠性的影响。通过计算模型在所有频率-对比度条件下对25种提示的平均响应熵和一致性,发现不同模型表现出显著差异。例如,InternVL2.5系列模型表现出高熵和低一致性,意味着其检测行为对措辞变化非常敏感;而LLaVA-1.5-7B则显示出较低的熵和较高的一致性,响应更为稳定。这一结果强调,即使在视觉刺激固定的情况下,自然语言输入的微小变化也会显著影响模型感知能力的评估,提示措辞是多模态感知探测中一个关键的变异性来源。
模型与人类CSF部分对齐但存在显著差异
研究人员将模型CSF与人类标准空间观察者的CSF进行了比较,使用皮尔逊相关系数(ρPearson)评估形状相似性,使用均方根误差(RMSE)评估绝对偏差。结果显示,所有模型CSF与人类CSF均呈正相关,但程度不一。例如,Qwen2.5VL-3B在形状上最接近人类(ρPearson= 0.86),而LLaVA-1.5-7B在绝对敏感度量级上偏差最小(RMSE = 109.8)。然而,配对威尔科克森符号秩检验表明,所有模型的CSF在统计上均与人类观察者的CSF存在显著差异。这表明,尽管某些模型部分再现了人类CSF的定性形状,但没有任何一个模型在定量水平上与人类对比敏感度相匹配。这种调谐模式具有模型特异性,甚至在同一架构家族内,随着参数规模增加也会发生显著变化。
对比敏感度函数可预测模型频率特异性脆弱性
研究的核心假设是,模型在其最敏感的频率处也应最脆弱。为验证这一点,研究进行了两类实验:频率特定信息滤除和频率特定对抗噪声添加。在保证所有频率带造成的图像失真具有相同均方根误差的前提下,评估模型在Imagenette分类任务上的性能下降。结果明确显示,对于InternVL3-2B和InternVL3-8B等表现出带通行为的模型,其分类准确率下降最大的频率,恰好对应其CSF的峰值频率。皮尔逊相关系数分析证实,模型的CSF与其在各类攻击下的性能下降存在高度相关(相关系数常超过0.90)。这表明,CSF不仅描述了模型的频率调谐特性,还能预测其功能性的关键脆弱点:模型最依赖其能最佳检测的频率信息进行决策,这使得这些频段既是其感知优势,也成为了信息被移除或破坏时的潜在弱点。
本研究成功引入了一种受心理物理学启发的创新方法,用于评估多模态大语言模型的对比敏感度函数。该方法将模型视为“黑箱”观察者,通过其端到端的言语行为输出直接测量CSF,避免了内部表征解读的任意性,为理解MLLMs的低级视觉感知提供了可扩展、可解释的新框架。
研究发现,不同MLLMs的CSF在形状和量级上呈现多样化的频率调谐模式,部分模型展现出与人类相似的带通形状,但所有模型在统计上都与人类CSF存在显著差异。更重要的是,研究揭示了模型感知评估对提示措辞的高度敏感性,强调了在多模态测评中考虑语言变异性的必要性。最具洞察力的结论是,模型的CSF能够有效预测其在面临频率特异性信息滤除或对抗噪声攻击时的性能脆弱性,表明CSF峰值频率既是模型的感知优势区,也是其功能脆弱点。这一发现将CSF从描述性工具提升为预测性诊断工具。
该研究的启示在于,它将视觉神经科学的经典原理融入了人工智能系统的评估,为超越传统任务基准、从感知基础层面理解和诊断多模态模型开辟了新途径。通过揭示模型在特定频率带的感知特性与鲁棒性之间的内在联系,这项工作不仅有助于识别现有模型的潜在弱点,也为未来设计更鲁棒、感知能力更可控的多模态系统提供了理论依据和评估手段。研究者指出,未来工作可扩展至更广泛的模型架构、纳入更自然的刺激图像,并探索将CSF分析延伸至阈上条件,从而构建对人工视觉系统更全面的感知刻画。