腹侧视觉皮层通路中不变性视觉物体与面孔学习的生物合理模型研究

《PLOS Computational Biology》:Invariant visual object and face learning in the ventral cortical visual pathway: A biologically plausible model

【字体: 时间:2026年02月12日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本综述推荐了一种生物合理的四层网络模型(VisNet3),该模型模拟从初级视觉皮层(V1)到颞下视觉皮层(IT)的腹侧视觉通路,通过局部突触学习规则(如包含长时程抑制的“标准竞争网络规则”)和短期记忆痕迹学习,实现了物体和面孔的变换不变性表征。文章重点阐述了突触权重限制、稀疏分布式表征以及网络可扩展性等关键机制,为理解大脑皮层计算提供了重要见解,并与依赖误差反向传播的人工智能模型(如深度卷积网络)进行了对比,凸显了其更高的生物合理性。

  
腹侧视觉皮层通路中不变性视觉物体和面孔学习的生物合理模型
引言
视觉系统如何从初级视觉皮层(V1)到颞下视觉皮层(inferior temporal cortex, IT)形成对物体和面孔的变换不变性(transform-invariant)表征,是一个巨大的计算挑战。Rolls及其同事在IT皮层发现了对物体和面孔具有变换不变性反应的神经元,这些神经元的表征在平移、大小、对比度、空间频率、观看距离甚至视角方面都表现出显著的不变性。这种不变性对于物体和面孔识别系统至关重要,使得后续脑区(如眶额皮层、杏仁核和海马)能够正确地将同一面孔或物体的不同视图关联起来。Rolls提出,这种学习可能基于自然视觉世界的统计特性,即同一物体的不同变换通常在时间上接近出现,并通过具有短期记忆痕迹的慢速学习规则在层次特征组合网络中实现。
VisNet3模型架构与方法
VisNet3是一个模拟腹侧视觉通路的四层前馈层次竞争网络,其架构对应于V2、V4、后部IT皮层和前部IT皮层。每一层神经元接收来自前一层局部区域的输入,并通过竞争学习形成稀疏分布式表征(sparse distributed representation)。模型输入通过模拟V1的Gabor滤波器生成,层与层之间具有收敛性,确保第四层神经元能够响应第一层任何位置的刺激。
短期记忆痕迹学习规则是VisNet的核心,其形式为Δwij= α · y · (xj- wij),其中y是神经元输出,xj是突触前输入,α是学习率。该规则通过将当前活动与近期活动(痕迹)关联,使神经元学习同一物体的不同变换。第一层使用纯关联学习规则,以解决特征绑定问题,形成空间特征组合神经元;更高层则应用痕迹规则学习不变性。
竞争与互抑制机制通过设置稀疏性参数(通常为0.01)实现,仅激活每个层中一小部分神经元。激活函数采用S型函数(sigmoid function)或阈值线性函数,将神经元激活转换为发射率,并通过调整斜率参数β限制低发射率神经元参与学习,模拟NMDA受体的电压依赖性非线性。
突触权重缩放与限制
VisNet3引入“标准竞争网络规则”(standard competitive net rule)替代传统的权重归一化,该规则在突触前活动低而突触后活动高时,根据突触权重强度进行异突触长时程抑制(heterosynaptic long-term depression, LTD),提高神经元选择性。与Oja规则相比,该规则更具生物合理性,且在非二元发射率下性能更优。
限制突触权重最大值(如MAX_WEIGHT = 0.06)不仅符合生物约束,还能促进分布式权重分布,避免少数强权重主导神经元响应,从而提高网络性能。权重截断(clipping)使神经元能够学习更多输入模式,尤其在网络负载较高时效果显著。
模型可扩展性与容量评估
VisNet3被扩展至每层256×256神经元、每个神经元1000个突触的大规模网络,使用Amsterdam Library of Images (ALOI)数据集中的800个物体(每个9个视图)进行训练。性能通过物体选择性指标(object selectivity)评估,即同一物体不同视图间相关性均值与跨物体相关性均值的比值。结果表明,容量随突触数量和神经元数量增加而提升,在优化参数(如稀疏性0.0025、β=1000)下,可存储数百个物体的不变性表征。
讨论与比较
VisNet3的生物合理性体现在多个方面:局部学习规则仅依赖突触前后活动,无需误差反向传播或权重归一化;使用短期记忆痕迹利用自然视觉统计特性;稀疏表征和受限突触权重提升容量与泛化能力。与人工神经网络(如深度卷积网络)相比,VisNet3避免了非生物操作(如权重跨层复制、教师监督),更贴近大脑皮层机制。此外,VisNet3仅需4-5层即可实现不变性识别,而人工网络常需上百层,且存在脆弱性、灾难性遗忘等问题。
对人工智能的启示
VisNet3的原理可为AI模型提供借鉴,例如通过基于物体变换的训练(而非大量静态图像)提升鲁棒性,或利用稀疏连接和分布式表征改善泛化能力。未来研究可进一步探索突触可塑性规则在皮层中的实验验证,以及多模块协作如何支持复杂视觉识别。
总结
本研究通过VisNet3模型展示了腹侧视觉通路中变换不变性表征的生物合理学习机制,突显了局部学习规则、突触权重限制和网络可扩展性的重要性,为理解大脑皮层计算及开发更鲁棒的AI系统提供了关键见解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号