Modeling attention and binding in the brain through bidirectional recurrent gating
基于双向循环门控的大脑注意力与绑定建模
《Nature Communications》:Modeling attention and binding in the brain through bidirectional recurrent gating
编辑推荐:
注意力是认知和神经计算的基石,使大脑能够选择相关信息、将特征绑定为连贯的物体并指导行为。然而,目前缺乏一个统一的、在单一且神经生物学合理的计算框架内连接空间与特征选择到基于物体的绑定等多种注意力现象的计算模型。在此,研究人员提出了一种集成于腹侧视觉通路(ven
注意力是认知和神经计算的基石,使大脑能够选择相关信息、将特征绑定为连贯的物体并指导行为。然而,目前缺乏一个统一的、在单一且神经生物学合理的计算框架内连接空间与特征选择到基于物体的绑定等多种注意力现象的计算模型。在此,研究人员提出了一种集成于腹侧视觉通路(ventral visual stream)原则性架构中的双向循环门控(bidirectional recurrent gating)机制。在该架构中,前馈通路提取视觉特征,而自上向下和侧向连接传递依赖于情境和任务的调制信号以控制信息流。研究表明,经过识别和分割问题训练的模型,在复杂场景中成功执行了定向、过滤和视觉搜索等典型注意力任务。它复制了关键的心理物理学现象,如知觉负载(perceptual load)和非注意盲视(inattentional blindness),同时其内部单元发展出了与灵长类动物生理学一致的神经特性,包括乘法增益调制(multiplicative gain modulation)和边界所有权编码(border-ownership coding)。这项工作提供的证据表明,这一系列多样的注意力和绑定现象可以从误差反向传播(error-backpropagation)结合信息流的架构约束中涌现出来,为神经科学提供了强大的工具,并为标准人工智能架构提供了引人注目的生物启发替代方案。
论文解读:基于双向循环门控的大脑注意力与特征绑定统一模型
研究背景与立项依据
注意力作为认知和神经计算的基础,负责在复杂的视觉场景中选择相关信息、将分散的特征绑定为连贯的物体表征,并最终指导行为。尽管现有研究已识别出空间注意、特征注意及物体注意等多种形式,但目前缺乏一个能够在单一、神经生物学合理的计算框架内统一解释这些多样现象的模型。长期以来,神经科学界面临着所谓的“绑定问题”(binding problem),即大脑如何将数百万神经元活动整合为单一物体感知的机制尚不明确。此外,现有的计算模型多侧重于单一机制,如显著性图谱(saliency map)或选择性路由(selective routing),难以全面复现从微观神经调制到宏观行为表现的连续谱系。因此,构建一个既能解释神经生理学数据,又能复现心理物理学现象的综合性计算架构显得尤为迫切。为此,研究人员在《Nature Communications》发表了相关研究,旨在通过引入双向循环门控机制,填补这一理论与实证之间的鸿沟。
关键技术方法概述
本研究主要采用改进型U-Net架构作为基础框架,集成了受生物学启发的多个关键模块。核心技术包括:利用层归一化(Layer Normalization)近似模拟大脑中的分裂归一化(divisive normalization)计算;通过密集循环层(dense recurrent layer)实现工作记忆功能;以及构建自下而上(bottom-up)的特征提取通路与自上而下(top-down)的注意力通路。模型训练结合了交叉熵(CE)损失和均方误差(MSE)损失,采用误差反向传播算法优化。实验设计涵盖了从简单手写数字(MNIST)到复杂自然图像(COCO数据集)的多任务学习验证,并通过心理物理学实验范式及神经生理学指标分析来评估模型的生物合理性。
研究结果
行为与多任务学习(Behavioral results and multitask learning)
研究人员通过在合成MNIST数据集和COCO自然图像数据集上的实验证明,该模型能够有效执行七种不同任务。在物体识别与恒常性任务中,模型在噪声和部分遮挡条件下仍达到99%的分类准确率。在基于空间线索和符号线索的定向任务中,模型表现出类似人类的“聚光灯”效应。此外,模型还成功复现了特征突显(pop-out)、自上而下的视觉搜索以及抑制返回(Inhibition of Return, IOR)等行为现象,证明了其在复杂动态环境中处理多目标序列的能力。
Bregman知觉错觉(Bregman’s perceptual illusion)
为了验证模型对Gestalt心理学原则的遵循,研究人员测试了模型对Bregman错觉的响应。结果显示,即使模型未针对该错觉进行显式训练,其依然表现出与人类相似的知觉偏好:即当存在可见遮挡物时,模型对字母的识别率显著高于移除遮挡物后的碎片化图像。这表明模型内部的注意力机制能够利用遮挡线索进行边界所有权分配,从而增强物体感知的连贯性。
特征注意力与掩蔽(Feature attention and masking)
在CelebA人脸数据集上的实验揭示了模型处理虚假相关性的能力。针对头发颜色与性别之间的共变关系(如金发常与女性标签相关),模型通过循环注意力机制学会了抑制无关的背景特征(如头发纹理),转而关注更具判别性的面部特征。这一结果表明,注意力门控有助于消除“捷径学习”(shortcut learning),提高分类决策的准确性。
心理物理学结果(Psychophysical results)
研究人员设计了对比度检测与辨别任务来验证模型的知觉表现。结果发现,注意力机制使模型表现出明显的对比度增益效应(contrast gain),即将心理测量函数向左偏移,降低了对比度阈值。同时,模型复现了知觉负载理论(Perceptual Load Theory)的预测:随着干扰项数量增加,目标检测准确率下降;并且在无效线索引导下,模型表现出显著的非注意盲视效应,即未能察觉明显的变化。
神经生理学结果(Neurophysiological results)
在曲线追踪任务中,模型展现出了基于物体的注意力特性。当指示模型追踪特定曲线时,其对应神经元活动受到显著的正向调制,这与猕猴初级视觉皮层(V1)的实验记录高度一致。进一步分析表明,模型神经元的调谐曲线(tuning curves)在受到注意力调制时保持形状不变,仅发生幅度的乘法缩放,证实了注意力不变调谐(attention-invariant tuning)的存在。此外,模型内部表征还表现出了边界所有权编码的特性,为解释图形-背景分离提供了计算层面的证据。
讨论与结论
综上所述,本研究提出的双向循环门控机制成功地将多种注意力现象统一在一个连贯的神经计算框架内。研究人员得出结论,该模型不仅在行为层面复现了人类的关键心理物理学特征,还在神经表征层面展现了与灵长类动物生理数据相符的特性。这项工作的重要意义在于,它证明了通过架构约束和误差反向传播训练,复杂的注意力与绑定功能可以从相对基础的神经网络组件中涌现出来。这不仅为理解大脑如何处理信息提供了强有力的计算工具,也为开发更具生物合理性和鲁棒性的人工智能视觉系统提供了新的思路。该研究标志着在计算神经科学领域,向着构建一个能够全面解释大脑信息处理机制的通用模型迈出了坚实的一步。