《Vision Research》:A compact perceptual space for natural textures emerges from natural image statistics
编辑推荐:
本文介绍了一项突破性研究,旨在解决自然纹理丰富感知难以用高维特征或语言精确描述的难题。研究人员通过无监督生成模型,直接从超过1.3万张自然纹理图像中学习,构建了一个仅需12-16维的紧凑“纹理感知空间”。该空间不仅能够合成高保真的纹理感知等价刺激,其内部距离与人类知觉相似性判断高度一致,并且与视觉诱发电位(VEP)的神经表征结构相似,甚至能依据VEP重建原纹理刺激。这项工作为理解复杂纹理知觉的底层神经编码机制提供了新框架,表明人类对难以言喻的纹理“质感”的感知,可能依赖于一个从自然环境中学习而来的、共享的低维结构。
我们生活的世界充满了丰富的纹理:树皮的粗糙、丝绸的光滑、水面的波光粼粼……这些纹理不仅帮助我们识别物体材质(比如区分木头和金属),更为我们的视觉体验增添了无比的丰富性与真实感。长久以来,科学家们试图理解大脑是如何感知并表征这些复杂多变的纹理的。传统模型认为,纹理的视觉表征需要成千上万个维度的神经信号,例如早期视觉皮层的图像统计特征,或深度神经网络中的相关特征。然而,这种高维度的假设与视觉系统高效编码的普遍原则似乎相悖——就像我们识别物体时,大脑最终使用的是远比原始视觉输入更紧凑的表示。
更棘手的是,以往试图探寻纹理感知核心维度的研究,大多依赖于“光滑”、“粗糙”等语言描述符。这种方法构建出的更像是一个“语义空间”,而非纯粹的“感知空间”,因为语言描述可能受到文化概念的塑造,无法完全反映底层的视觉本质。那么,是否存在一个更为本质的、直接从视觉输入中涌现出来的、紧凑的纹理感知结构呢?这正是发表在《Vision Research》上的一项新研究试图回答的核心问题。
为了探索这一问题,研究团队采用了一种“自下而上”的无监督学习策略。他们不再依赖主观的语言标签,而是让模型直接从大量真实的自然纹理图像中自主学习。关键技术方法包括:1. 构建并训练一个创新的无监督纹理生成模型,该模型将变分自编码器(Variational Autoencoder, VAE)的编码器与去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)的解码器相结合,在包含13,288张自然纹理图像(部分来自可描述纹理数据集DTD)的数据集上进行端到端训练,以学习图像的潜在表征。2. 设计系统的心理物理学实验,招募人类观察者评估模型生成纹理的感知保真度,并通过两择一强制选择(2AFC)任务量化潜在空间距离与人类相似性判断的一致性。3. 利用公开的脑电图(EEG)数据集,对166张自然纹理图像引发的视觉诱发电位(Visual Evoked Potentials, VEP)进行表征相似性分析(Representational Similarity Analysis, RSA),并训练基于EEGNet的映射模型,尝试从VEP信号中重建纹理图像。
2. 无监督纹理模型
研究人员训练了一个无监督生成模型,其编码器将输入图像转换为潜在表征,解码器则基于该表征合成图像。视觉检查和后续心理物理实验均表明,当潜在维度达到12-16时,模型合成的纹理图像在视觉上已与原始图像几乎无法区分,证明该模型能够用一个非常低维的空间捕捉自然纹理丰富复杂的外观。
3. 心理物理学验证
通过心理物理实验量化合成纹理的感知保真度。结果发现,无监督纹理模型的感知相似性评分随着潜在维度的增加而提高,在12-16维时达到平台期,其性能显著优于压缩到同维度的神经风格特征(Neural Style Features)和Portilla–Simoncelli(PS)统计模型。计算指标(风格损失和LPIPS)也呈现相同趋势。这表明仅需12-16维的潜在空间就能以高保真度捕捉多样自然纹理的视觉外观。
4. 与人类感知相似性的对齐
研究通过2AFC实验检验了潜在空间中的距离是否与人类感知相似性对齐。结果显示,当样本A在潜在空间中比样本B更接近参考图像时,观察者更倾向于判断A与参考更相似。热图分析清晰地展示了这种系统性关联。进一步比较显示,无监督纹理模型潜在空间对人类相似性判断的预测准确率(约79%)显著高于神经风格特征和PS统计等传统高维纹理表征。
5. 潜在空间中的语义属性
研究探讨了常用语义属性(如“光滑的”、“粗糙的”)在该潜在空间中的对应关系。潜在维度遍历分析显示,单个潜在维度引起的外观变化难以用简单的语义词汇描述。然而,通过对14对图像和表面属性(如光滑-哑光、粗糙-平坦)的分析发现,虽然单个维度无法解释这些属性,但通过支持向量机(SVM)分类,这些属性在潜在空间中是高度可分离的。这意味着语义属性可能对应于潜在空间中由多个维度组合定义的特定坐标区域,而非基础感知维度本身。
6. 与纹理空间相关的神经动力学
通过分析自然纹理诱发的VEP信号,研究发现潜在空间与VEP神经表征之间存在显著关联。表征相似性分析表明,在刺激呈现后约200-300毫秒,VEP信号与潜在空间表征的相似性达到峰值。更重要的是,研究训练了一个映射模型,能够从VEP信号中估算出潜在表征,并输入解码器成功重建出纹理图像,观察者在心理物理实验中能准确识别出与目标对应的重建图像。这证明该紧凑潜在空间与大脑中的纹理神经编码共享类似的结构。
这项研究最终得出结论:一个通过自然纹理图像无监督学习构建的低维(12-16维)潜在空间,能够统一地描述和预测人类对现实世界纹理的感知。这个紧凑空间在再现视觉印象、预测人类相似性判断方面超越了传统的高维模型。它表明,丰富多样且常难以言喻的自然纹理“质感”,可能由一个共享的、低维的结构所支撑,这个结构同时支配着知觉相似性、语义解释和神经编码。研究的意义在于,它提供了一个可能类似于颜色空间的标准描述框架,用于未来的纹理和材质外观研究,并提示视觉意识的丰富性可能根植于非语言的、从环境统计中学习而来的信息结构,而非语义范畴。同时,研究也指出了整合颜色与纹理感知的挑战,以及单个潜在维度难以对应简单语义或已知神经通道的复杂性,为未来探索感知与神经表征的对应关系指明了方向。