语言引导推理的视觉-语言模型（VLMs）捕获人类物体识别行为的语境敏感性

《Array》：VLMs Using Language-Guided Inference Capture Context-Sensitivity of Human Object Recognition Behavior

【字体：大中小】 时间：2026年03月01日 来源：Array 4.5

编辑推荐：

　　本研究旨在探究人工智能模型如何模拟人类视觉中依赖场景语境识别物体的能力。研究人员通过结合人类行为实验与计算建模，将目标物体嵌入室内场景，并操控语境相干性。结果显示，视觉-语言模型（VLMs），特别是采用视觉Transformer（ViT）架构并使用语言引导（如零样本分类）进行推理的模型，其行为最接近人类，能够利用全局场景结构。这揭示了富含语义的结构化表征以及推理时对表征的访问方式，对于实现语境敏感性至关重要，为零样本推理作为评估人工与生物视觉对齐度的新度量标准提供了依据。

在日常生活中，我们总能轻松地在杂乱的环境中认出物体——比如在堆满杂物的书桌上找到鼠标，或在拥挤的厨房里一眼看到水杯。这种看似不费吹灰之力的能力，实则是人类视觉系统的精妙之处：我们不仅仅依赖物体本身的局部特征，更会无意识地利用其所在的整个场景（语境）来辅助识别。这种“语境敏感性”长期以来被认为是人类视觉超越当前许多人工智能（AI）视觉模型的关键优势。尽管行为学研究早已证实场景语境能促进物体识别，但支撑这种能力的深层计算机制究竟是什么？当前飞速发展的人工视觉模型，又在多大程度上能够复现人类的这种能力？这些问题依然悬而未决。

传统上，在ImageNet等大型标注数据集上训练出的深度神经网络（DNNs），如卷积神经网络（CNNs）和视觉Transformer（ViTs），虽然在标准物体识别任务中表现出色，甚至能预测人脑活动，但在面对真实世界中物体被遮挡、尺寸过小或视角非常见的情况时，它们往往表现不佳。一个重要原因可能是，这些模型主要依赖从下而上的视觉特征，未能像人类一样有效整合自上而下的、基于语义知识的场景语境信息。相比之下，新兴的视觉-语言模型（Vision-Language Models, VLMs，例如CLIP）通过在海量图像-文本对上训练，学习了视觉与语言模态对齐的、富含语义的联合表征。它们支持“零样本”（zero-shot）分类，即直接比较图像与描述类别的文本提示的相似性来进行识别，这被认为是一种更灵活、更接近人类利用先验知识进行推理的方式。那么，VLMs是否因此能更好地模拟人类的语境敏感性呢？

为了回答这个问题，由Karim Rajaei、Radoslaw Martin Cichy和Hamid Soltanian-Zadeh组成的研究团队在《Array》期刊上发表了一项研究。他们巧妙地结合了人类心理物理学实验和广泛的模型评估，系统地探讨了结构化场景语境如何影响物体识别，并比较了不同类型AI模型与人类行为的相似程度。

研究人员采用了几个关键的技术方法来搭建研究框架。首先，他们利用OmniGibson这一3D仿真平台，生成了一个生态效度高的刺激材料集。他们从食物、电子产品、容器、植物、办公用品和家居装饰这六个高级类别中选取了48个独特目标物体，并将其嵌入多样化的室内场景中。通过操控物体大小、遮挡程度和视角，创建了“低难度”和“高难度”两种识别条件。更重要的是，为了分离“语境结构”的影响，他们为每张图片生成了一个对应的“相位打乱”（phase-scrambled）版本，该版本保留了原始图像的低级视觉统计特征（如对比度、空间频率），但破坏了有意义的全局布局和语义结构，从而形成“非相干”语境。其次，他们招募了31名参与者（20-35岁，11名女性）进行快速视觉分类行为实验，记录了在不同语境和难度下对物体进行六选一分类的准确率。最后，他们评估了涵盖CNN、ViT、自监督学习模型以及CLIP等VLMs在内的总计70个计算模型，并采用了两种评估方法：一是基于模型视觉表征训练线性支持向量机（SVM）进行分类；二是直接使用VLMs的零样本推理能力，将图像嵌入与类别文本提示进行匹配。

研究结果揭示了以下核心发现：

语境增强物体识别：人类行为数据显示，在连贯的（完好的）场景中识别物体的准确率显著高于在打乱的场景中，这种优势在识别难度高时（物体小、被遮挡等）依然存在。这表明有意义的场景语境确实促进了物体识别。

语言对齐训练驱动类人水平准确率：模型比较发现，传统的单模态视觉模型（无论是CNN还是ViT，无论是有监督还是自监督训练）在所有条件下的识别准确率都显著低于人类，且未能从连贯场景中获益。相反，经过多模态语言对齐训练的VLMs，在低难度条件下达到了与人类相当的识别准确率。其中，基于ViT架构的VLMs表现尤为突出。

ViT基VLMs在使用零样本推理时，在低难度条件下表现出相似的性能：当量化“语境效应”（在连贯场景与打乱场景中的准确率差值）时，一个关键模式出现了。除了基于ViT架构并使用零样本推理的VLMs外，几乎所有其他模型都显示出负的或不显著的语境效应，意味着连贯场景对它们识别物体构成了干扰而非帮助。而ViT基的零样本VLMs则表现出与人类相似的正向语境效应，在低难度条件下尤其显著。

ViT基VLMs受益于更广泛的场景结构：研究人员进一步将总语境效应分解为“局部语境效应”（物体紧邻周边的影响）和“场景级语境效应”（超出局部区域的全局场景结构的影响）。分析表明，ViT基零样本VLMs所表现出的类人语境敏感性，主要源于它们利用了场景级的全局信息。而单模态模型则对语境结构不敏感甚至受其干扰。

推广至独立刺激集：使用另一组完全不同的物体和场景进行的第二个实验，重复并验证了上述主要研究发现，证明了结果的稳健性和普遍性。

结论与讨论部分强调，这项研究为理解场景语境促进物体识别的计算机制提供了重要步骤。其核心结论在于两点：第一，多模态训练（特别是与语言对齐）是模型实现类人性能的关键。语言监督有助于形成语义结构化的视觉表征，支持更灵活、语境敏感的推理。第二，推理机制至关重要。仅仅拥有好的表征还不够，VLMs在使用语言引导的推理（如零样本分类）时，才最接近人类的语境敏感行为。这意味着，模型在测试时如何“访问”和运用其内部表征，与实现语境敏感性高度相关。

因此，这项研究不仅指出VLMs，特别是ViT架构并结合零样本推理的模型，是目前在模拟人类语境敏感性物体识别行为上最接近的AI模型，更重要的是，它提出了一个方法论上的深刻见解：在比较人工系统与生物视觉时，对齐的评估不应仅局限于模型学到的表征，还必须考虑其推理过程。零样本推理本身可作为一个有趣的对齐度量指标。当然，研究也指出了当前模型的局限，例如在高难度条件下对小物体的识别仍不如人类，这可能与模型输入分辨率有限有关。未来，探索更高分辨率或更广视野的VLMs，以及设计能分离语义、几何等不同语境线索的数据集，将有助于进一步缩小人工与生物视觉之间的差距。

热点排行