《Nature Neuroscience》:Fixation duration on natural scenes is explained by memory encoding not processing demand
编辑推荐:
研究人员结合脑磁图(MEG)、眼动追踪及语义标注任务,对大规模自然场景观看实验数据进行分析,发现注视时长并非反映视觉加工时间的延长,而是与下游记忆编码过程相关。首先,腹侧视觉流表征动态的时间变异性无法解释注视时长的差异。其次,注视时长与人工神经网络(ANN)估
研究人员结合脑磁图(MEG)、眼动追踪及语义标注任务,对大规模自然场景观看实验数据进行分析,发现注视时长并非反映视觉加工时间的延长,而是与下游记忆编码过程相关。首先,腹侧视觉流表征动态的时间变异性无法解释注视时长的差异。其次,注视时长与人工神经网络(ANN)估计的图像块分类难度呈负相关。第三,注视时长与ANN预测的斑块可记忆性及标注包含率呈正相关,并与额叶及海马区域增强的θ-γ相位-幅度耦合(theta–gamma phase–amplitude coupling, PAC)同步出现。结果表明,眼动时机决策受记忆编码需求塑造,而非感知加工能力的限制。
研究背景方面,人类每日约执行二十万次眼动,注视时长在自然场景中变化显著,从不足150毫秒到超过500毫秒不等。传统理论认为,较长的注视时间反映了大脑需要更多时间提取复杂视觉信息,即加工负荷驱动假说。然而,腹侧视觉流在不同注视间的信息整合有限,注视切换可能覆盖原有表征,因此另一种观点认为,长注视是为了在眼动前巩固当前注视内容的记忆编码,即记忆促进假说。为区分这两种机制,研究人员设计了结合脑磁图(MEG)、眼动追踪和语义标注的大规模自然场景观看实验,以揭示注视时长的神经基础。该研究发表于《Nature Neuroscience》。
关键技术方法包括:招募五名健康受试者,使用来自自然场景数据集(Natural Scenes Dataset, NSD)的4080幅自然场景图像,采用语义嵌入聚类实现平衡采样;同步记录MEG信号与眼动轨迹,利用源空间重构分析神经活动模式;使用人工神经网络(ANN)模型评估图像块的识别难度和可记忆性;采用线性混合效应模型和多变量解码技术分析行为与神经数据的关联;通过相位-幅度耦合(PAC)分析θ波与γ波的相互作用,并以单切置换法检验统计显著性。
研究结果分为四部分。第一部分为“不同注视时长下MEG模式稳定化潜伏期一致”。研究人员计算各视觉感兴趣区(ROI)中连续激活向量的相关性距离,发现无论最终注视时长如何,神经模式均在相似时间点达到稳定状态,不支持加工负荷假说。第二部分为“较易识别目标获得更长注视”。使用AlexNet模型估计注视位置图像块的分类熵,发现熵越低(识别越容易),注视时间越长,该结果在多种卷积神经网络结构中均稳健,且可由MEG信号解码验证。第三部分为“较长注视预测视觉信息的下游利用”。对场景描述任务的标注分析显示,被受试者后来提及的目标注视时间显著长于未提及目标,且该效应与个体自身的后续使用相关,而非目标本身的视觉属性。第四部分为“较长注视期间神经动态的θ–γ耦合增强”。在长注视结束前的250毫秒窗口内,额叶、眶额皮质、海马等区域的θ–γ PAC显著高于短注视,表明长注视伴随更强的记忆编码相关神经活动。
讨论部分指出,本研究推翻了注视时长由视觉加工复杂度决定的传统观点,证明记忆编码需求是关键驱动因素。神经表征在固定时间内完成稳定化,而长注视与高可记忆性目标及θ–γ耦合增强同步出现,支持记忆促进假说。该耦合模式与已知的工作记忆编码神经特征一致,并在空间分布上集中于前额叶和海马区域,与视觉加工区形成功能分离。研究还发现,即将发生的大幅度眼跳前,高可记忆性目标会诱发更长的注视,提示记忆编码策略与运动计划协同调整。这一发现将主动视觉与记忆系统的交互纳入统一框架,并为探索感知、记忆与动作协同的认知模型提供了实证依据。研究结论为:自然场景注视时长的变化主要由下游记忆处理需求驱动,而非视觉加工的复杂度;视觉表征的稳定时间不随注视长度改变,而长注视伴随更强的记忆相关θ–γ耦合,体现了大脑在眼动干扰前对高价值信息进行战略性时间投入。