《Nature Neuroscience》:Convolutional neural network models describe the encoding subspace of local circuits in auditory cortex
编辑推荐:
为解决传统编码模型在可解释性与复杂自然声音编码性能间的矛盾,研究人员通过开发一种“扁平化”的卷积神经网络模型,从听觉皮层单神经元活动中提取低维调谐子空间。研究表明,该子空间模型在预测精度上与完整CNN模型相当,同时揭示了不同神经元亚型间功能特性的差异,并描述了自然声音稀疏、高效编码的框架,为理解深度神经网络所模拟的复杂神经计算提供了新视角。
听觉系统如何从纷繁复杂的自然环境中高效地解析声音信息,一直是神经科学领域的一个核心挑战。过去,科学家们常用线性-非线性(LN)模型,尤其是谱时感受野模型,来描述神经元对声音的反应。这类模型将神经元对声音的响应,简单归结为一个线性滤波器(感受野)加上一个静态的非线性输出函数。然而,面对现实世界中高度变化、统计特性复杂的自然声音,这些简单模型的预测能力显得捉襟见肘。近年来,以卷积神经网络(CNN)为代表的深度学习方法异军突起,在图像、语音识别等领域取得突破性进展,其与生物感知系统的惊人相似性,也让神经科学家们看到了希望:或许可以用这些复杂的模型来直接建模神经感觉处理过程。确实,基于CNN的编码模型在对视觉和听觉皮层神经活动的预测上,其准确性已远超传统的LN模型。
然而,新的问题也随之而来。CNN虽然预测性能强劲,但其“黑箱”般的多层非线性处理结构却让人难以理解:究竟是哪些关键计算支撑了其卓越的表现?一个核心的关切是,这些深度学习模型解决问题的方式是否真的与生物大脑相似,它们对理解生物计算的潜在价值是否因此而受限?因此,开发一种既能保持高预测精度,又具备良好可解释性的编码模型,就成了一项重要的挑战。在此背景下,子空间模型(或称多滤波器模型)进入了研究者的视野。它源自LN模型框架,用少数几个滤波器定义神经反应,在准确性和可解释性之间取得了良好的平衡。但长期以来,由于难以拟合,尤其是在使用相关性高的自然声音刺激时,这类模型的应用受到了极大的限制。
为了突破这一瓶颈,Wingert、Parida及其同事在《Nature Neuroscience》上发表了一项研究,他们提出一个大胆的假设:一个庞大、复杂的CNN模型可以被“扁平化”成一个低维的编码子空间,同时保持其高预测精度。他们通过在清醒的雪貂初级和次级听觉皮层中记录大规模单神经元活动,并利用大量自然声音库进行刺激,成功训练了CNN模型。随后,他们发展了一种新方法,通过对CNN输出的梯度进行降维(主成分分析,PCA),提取出每个神经元最关键的线性调谐子空间,并在此基础上构建了一个非线性组合模型,即子空间感受野模型。研究结果显示,这个低维(3-13维)子空间模型对听觉皮层神经活动的预测准确性几乎与完整的CNN模型不相上下。更重要的是,这种“扁平化”模型不仅能近乎完美地保留CNN的功能,还提供了前所未有的可解释性窗口,使得研究者能够清晰地解析和可视化CNN所捕捉到的非线性调谐特性。这证明了深度神经网络能够被转换成一个更简单、更易于理解的子空间模型,从而为我们理解大脑如何进行复杂的感觉编码提供了强大的新工具。
关键技术方法
研究采用了以下关键技术:1. 高通量电生理记录:使用线性微电极阵列,在清醒、被动聆听的雪貂的初级(A1)和非初级(PEG)听觉皮层中,记录多个单神经元在自然声音刺激下的活动。2. 深度卷积神经网络建模:训练一个四层CNN来模拟声音谱图与神经响应之间的关系,并采用群体架构,共享前几层网络权重以提升统计效能。3. 动态谱时感受野分析与子空间提取:计算CNN模型输出相对于输入的梯度,得到动态谱时感受野,再通过主成分分析降维,提取出每个神经元的线性调谐子空间。4. 子空间感受野模型构建与验证:基于提取的子空间投影,拟合一个小型神经网络来预测神经活动,并与原始CNN、传统LN模型的预测性能进行比较。5. 神经元分类与功能分析:根据动作电位波形宽度(尖峰宽度)将神经元分为规则发放型(推测为兴奋性神经元)和窄发放型(推测为抑制性神经元),并结合皮层深度信息,分析其调谐特性的差异。
研究结果
A flattened convolutional neural network identifies the tuning subspace for auditory neurons
研究人员开发了一种将深层复杂CNN模型转化为可解释的子空间滤波模型的方法。他们利用线性微电极阵列,记录了清醒雪貂听觉皮层在自然声音刺激下的大量单神经元活动。在成功拟合CNN模型后,通过计算模型响应对输入刺激的梯度(动态谱时感受野,dSTRF),并对所有时间点的dSTRF集合进行主成分分析,提取出每个神经元最关键的线性调谐子空间。分析表明,对于大多数A1神经元,3-16个主成分就能解释dSTRF的大部分方差,平均11个维度可解释95%以上的方差。这些成分通常共享一个最佳频率,但在频谱和/或时间调制调谐上有所不同。通过将刺激投影到该子空间中,并计算平均神经响应,研究人员定义了子空间感受野,该感受野可以是非单调的,并具有多个峰值,直观地展示了神经元在调谐子空间内的非线性响应模式。
Subspace encoding model is functionally equivalent to the CNN
为了验证子空间表示能否准确解释时变神经响应,研究人员基于子空间投影拟合了一个新模型。结果发现,子空间模型预测神经响应的准确性与完整CNN模型几乎相同(中位数r=0.585 vs 0.600),平均可解释CNN所解释响应方差的95.4%。这表明,子空间模型在功能上与完整的CNN几乎等效。此外,研究还探索了子空间的维度选择和非线性映射形式。当使用线性组合或二阶多项式来约束从子空间到神经响应的映射时,模型性能均不及完整的子空间模型,说明需要更高阶的非线性才能完全描述子空间感受野。
Neurons within a cortical column sparsely tile the local tuning subspace
在同一记录位点(皮层柱)内,尽管神经元倾向于共享相似的调谐子空间(子空间相似性指数,SSI,在相同位点内高于不同位点间),但它们的子空间感受野在共享的子空间内呈现出“稀疏铺贴”的分布模式。这意味着,对于任何单一刺激,只有一小部分神经元会产生强烈反应,而其邻近神经元则受到抑制。这种分布使得即使共享基本调谐特性,相邻神经元对相同刺激的预测响应相关性也较低。稀疏铺贴表明局部群体形成了一种高效且去相关的稀疏编码。
Local subspace overlap depends on neuronal cell type and cortical depth
调谐子空间的相似性在神经元对之间并非均等,而是取决于神经元类型和皮层深度。研究发现,在浅层皮层的窄发放型(推测为抑制性)神经元之间,子空间相似性最高;而在深层皮层的规则发放型(推测为兴奋性)神经元之间,相似性最低。线性混合效应模型证实,平均深度和尖峰宽度都是SSI的显著预测因子。
Diversity of nonlinear responses within the tuning subspace
子空间模型揭示了神经元间非线性响应的多样性。通过计算每个子空间维度的边际调谐曲线,并定义一个调谐对称性指数(TSI),研究人员量化了非线性调谐的形状。大多数调谐曲线是向下对称的(倒U型),这与对比度增益控制效应一致;少数是向上对称的(U型),这可能产生对刺激相位的调谐不变性。值得注意的是,窄发放型神经元,尤其是在皮层第4层附近的,更可能出现向上对称的非线性调谐。此外,在一个神经元内部,对称调谐的非线性在所有子空间维度上倾向于具有一致的向上或向下方向。
研究结论与讨论
本研究证实,可以从CNN编码模型中轻松提取出低维感觉调谐子空间,且基于此的简化模型性能几乎与原始CNN相当。这为理解CNN所执行的关键计算提供了概念桥梁,并将其与经典的基于脉冲触发协方差的多滤波器编码模型联系起来。通过“扁平化”CNN,研究者获得了一个既准确又可解释的模型,能够清晰揭示不同神经元亚型(如抑制性与兴奋性神经元)以及不同皮层深度神经元之间的功能差异。
研究发现,听觉皮层局部群体中的神经元共享一个相似的调谐子空间,但它们的子空间感受野在该空间内稀疏铺贴,形成了一种稀疏群体编码。这可以解释为何即使相邻神经元共享基本调谐属性,其对自然声音的响应信号相关性也较低。这种稀疏、去相关的表征符合高效编码理论,并可能有助于在复杂声景中选择和绑定特征以引导行为。
子空间模型的调谐非线性形状揭示了不同的神经计算机制。向下对称的非线性可能解释了感觉皮层中常见的对比度增益控制现象,而向上对称的非线性则可能支持对频谱或时间调制相位的调谐不变性,这是一种在听觉皮层中此前报道较少的非线性计算。
最后,研究强调了细胞类型在塑造局部回路功能中的关键作用。特别是浅层抑制性神经元之间更高的子空间相似性,可能反映了自上而下信号对共享调谐子空间的特定调节,这种机制可能介导了对听觉特征的选择性注意。而不同细胞类型在非线性调谐特性上的差异(如第4层抑制性神经元更倾向于向上对称调谐),进一步揭示了局部微环路在实现复杂感觉计算中的分工。
总的来说,这项研究不仅提供了一种将强大的深度神经网络“翻译”成可理解的生物物理模型的通用方法,更重要的是,它利用这一工具揭示了听觉皮层局部群体如何通过共享但稀疏调谐的计算策略,高效编码复杂的自然声音,深化了我们对感觉信息处理基本规律的理解。