《PLOS Biology》:Characterization of the spatiotemporal representations of visual, semantic, and memorability features in the human brain
编辑推荐:
本文结合颅内脑电图(iEEG)、高分辨率7T功能磁共振成像(fMRI)及单神经元记录,系统描绘了人脑在处理自然物体图像时视觉、语义与记忆性(memorability)特征的时空编码模式。研究发现三者虽在腹侧颞叶皮层(VTC)有重叠表征,但整体分布于不同脑区且具有相继出现的时间动态(视觉特征在VTC于70毫秒最早出现,语义特征在MTL于90毫秒,记忆性特征在前额叶皮层(PFC)于170毫秒)。记忆性表征在PFC可能由VTC整合的视觉与语义信号形成,并反向调控VTC中的视觉与语义加工。研究通过多尺度神经信号验证了结果的鲁棒性,为理解物体识别与记忆形成的多维度神经机制提供了新见解。
引言
人类大脑具备仅单次暴露便能编码并保留详细视觉记忆的卓越能力,但其神经机制尚未完全阐明。这种能力依赖于视觉与语义处理的整合,并与物体图像的内在记忆性相互作用。记忆性指某些图像在同一类别内仍被一致记忆更牢的现象,其不能完全由注意力、语义或低阶视觉特征解释。近期,理解视觉图像记忆性变异的重要性日益凸显,因其与视觉记忆及预测记忆表现可靠测量的发展密切相关。
脑中视觉、语义与记忆性属性的神经编码
研究团队记录了20名神经外科患者(12名女性)在观看500张ImageNet图像时的iEEG活动,覆盖了VTC、颞上回(STG)、颞中回(MTG)、MTL和PFC等脑区。通过提取高伽马功率(HGP,70–170 Hz)作为局部神经元群体平均放电的指标,研究识别出1,678个视觉响应通道。利用表征相似性分析(RSA),研究者比较了基于深度神经网络(DNNs)提取的视觉(ResNet-101)、语义(SGPT)和记忆性(ResMem)特征空间与神经信号构建的表征不相似矩阵(RDMs)。
研究发现,视觉特征主要在VTC编码(13.64%的通道显著),语义特征在VTC(11.04%)和MTL(10.88%)编码,而记忆性特征则在PFC(10.71%)、MTL(7.72%)、MTG(8.47%)和VTC(6.93%)均有显著编码。群体水平的RSA进一步证实,VTC显著表征视觉特征(Spearman’s ρ = 0.22),MTL显著表征语义特征(ρ = 0.16),PFC显著表征记忆性特征(ρ = 0.09)。时间动态分析显示,VTC的视觉编码在刺激出现后70毫秒即开始,MTL的语义编码始于90毫秒,PFC的记忆性编码则始于170毫秒,峰值潜伏期依次为350毫秒、410毫秒和410毫秒,表明存在从感知到记忆的时序性处理流。
VTC中视觉、语义与记忆性表征的解离
尽管VTC同时参与三种属性的编码,但对VTC内选择性通道的分析表明,分别编码视觉、语义和记忆性的神经群体在很大程度上是独立的,重叠通道数量不显著。在三维表征空间中,这些通道也形成不同的簇。偏相关分析显示,每种属性对VTC中的物体编码均有独立贡献。群体水平的RSA还发现,视觉表征对记忆性表征有贡献(ρ = 0.082),但视觉与语义表征之间、语义与记忆性表征之间无显著直接关联,支持了VTC内不同属性由可分离的神经群体编码的结论。
记忆性编码与视觉、语义加工的交互作用
记忆性表征在PFC最为显著。进一步分析发现,PFC的记忆性表征与VTC的记忆性编码通道(ρ = 0.066)和语义编码通道(ρ = 0.051)的表征结构最相似,提示PFC的记忆性信息可能源于VTC中整合了视觉和语义信号的特定神经群体。此外,通过比较高记忆性图像与低记忆性图像在VTC视觉编码和语义编码神经群体中的种群动力学,研究发现记忆性调制了VTC中视觉和语义表征的轨迹,尽管总体神经反应强度无差异,表明记忆性在早期感知和语义加工阶段即产生影响。
高分辨率7T fMRI数据的验证与推广
为验证iEEG结果并与近期神经影像研究发现对齐,研究利用高分辨率7T fMRI数据集(NSD数据集)进行了分析。结果一致显示,梭状回(FG)对视觉模型的编码更强,而MTL对语义模型的编码更强。记忆性特征在FG和MTL均有编码,但FG中视觉编码强度显著高于记忆性,MTL中语义编码强度显著高于记忆性。空间对齐分析表明,在FG区域,iEEG中视觉、语义、记忆性编码通道与fMRI中相应编码体素重叠的比例均显著高于非编码通道,且重叠通道的模型编码强度也更高,有力支持了iEEG的发现。
额外数据集的验证与推广
使用Microsoft COCO数据集的独立验证结果与主实验一致:视觉特征在VTC和MTG编码显著,语义特征在MTL和VTC编码显著,记忆性特征在VTC、PFC和MTL编码显著。群体表征和时间动态(视觉编码峰值290毫秒,语义与记忆性编码峰值450毫秒)也重现了主实验的模式,证明了研究结果的普遍性。
单神经元水平的特征编码
在MTL(杏仁核和海马)记录的单神经元活动分析为上述发现提供了微观层面的证据。在ImageNet任务中,MTL神经元显著编码语义特征(10.17%的神经元显著);在COCO任务中,神经元显著编码语义(9.43%)和记忆性(13.21%)特征。群体水平的全相关和偏相关分析均证实了语义和记忆性表征在MTL单神经元水平的存在。
讨论
本研究通过多模态神经信号,全面揭示了视觉、语义和记忆性属性在物体感知过程中在大脑内的动态编码机制。这三种属性的表征在空间上可分离,在时间上相继出现,并且存在交互:PFC的记忆性表征可能源自VTC的整合信号,而记忆性又反过来调制VTC的早期感知与语义加工。这些发现增进了对感知与记忆复杂相互作用的理解,并提示当前的人工智能模型(如DNNs和LLMs)在捕捉这种多维度、交互式的人类认知架构方面尚有不足。未来的研究需要整合任务设计、行为数据、计算建模和神经记录,以进一步阐明物体识别的本质。