《Frontiers in Neuroscience》:Neural tracking of continuous speech reveals enhanced late responses to degraded speech
编辑推荐:
本研究通过脑电图(EEG)与时间响应函数(TRF)技术,系统探究了清晰语音与噪声声码化(vocoded)语音处理中的神经动态差异。结果发现,清晰语音在早期成分(N1TRF/P2TRF)诱发更强响应,而退化语音则在约376–408?ms引发显著的晚期成分(P400TRF),该成分源定位至右侧额下回(IFG)等语言处理区。这为预测编码(predictive coding)框架下听感知代偿机制提供了直接证据,对人工耳蜗(CI)用户的康复策略具有重要启示。
引言
在噪声、失真或难以理解的语音信号环境中,人脑通过整合高级认知过程与低级听觉机制进行代偿。以往研究虽已明确处理退化语音所涉及的神经通路,但其时间动态仍不清晰。本研究利用时间响应函数(TRF)分析,旨在揭示清晰与退化(即噪声声码化)语音信号处理的时间进程,特别关注神经响应如何随语音可懂度变化。
材料与方法
研究纳入50名正常听力受试者(20–33岁),在隔音室中通过被动聆听范式呈现清晰自然语句与4通道声码化语句。脑电(EEG)使用64导系统记录,采样率2048?Hz,后续降采样至256?Hz并分割为3?s时程。语音信号通过NSL工具箱生成128子带包络,TRF通过多变量时间响应函数(mTRF)工具箱估计,时间窗为?100至600?ms,采用留一交叉验证确定最佳岭参数(λ=750)。为控制警觉度影响,同时分析α功率(8–12?Hz),未发现条件间显著差异。源分析基于MNE-python工具箱,使用Destrieux图谱定义六对双侧感兴趣区:颞横回(HG)、颞极前区(PP)、颞平面(TP)、缘上回(SMG)、颞中回(MTG)与额下回(IFG)。
结果
在传感器层面,TRF分析识别出三个关键成分:N1TRF(80–103?ms)、P2TRF(131–185?ms)与P400TRF(376–408?ms)。清晰语音在N1TRF与P2TRF上表现出显著更强的响应,而退化语音则引发更广泛且幅度更大的P400TRF响应。地形图显示,N1TRF与P2TRF在自然条件下于中央区(如FC4、C3)占主导,而P400TRF在声码化条件下于Cz电极处最显著。模型性能指标显示,声码化条件的均方误差(MSE)显著更低,而包络-神经响应的皮尔逊相关性显著更高,表明退化语音诱发了更稳定、刺激锁定的神经跟踪。置换测试进一步验证,所有TRF成分的幅度均显著高于随机分布,确认其反映真实的刺激-响应耦合。
在源层面,自然条件在N1TRF期间于左MTG、在P2TRF期间于左SMG显示主导激活;而声码化条件则在P400TRF期间于右IFG呈现峰值激活。各感兴趣区内显著体素的比例分析一致表明,早期成分在自然条件下占优,晚期成分在声码化条件下占优。
讨论
本研究结果在预测编码框架下得到合理解释:清晰语音提供准确的声学线索,使自上而下的预测能够最小化预测误差,从而支持高效的早期感知与快速词汇选择,表现为增强的N1TRF/P2TRF。相反,退化语音因声学细节缺失而产生更大的预测误差,需要募集前额叶、颞叶等高级语言区域进行额外的误差校正与语义整合,这体现为延迟且增强的P400TRF响应。该成分在极性上虽为正波,与传统事件相关电位(ERP)研究中的负性N400不同,但TRF分析更注重响应的时间与功能背景,其延迟出现的时间特征与语义整合过程一致。
研究还观察到,尽管使用了被动聆听范式(受试者观看无声电影),仍可稳定引出与语言处理相关的早期与晚期TRF成分,这表明语音处理可在无显式注意下自动进行。这一发现支持了利用被动范式研究退化语音感知、特别是临床群体(如人工耳蜗用户)的可行性。
本研究的发现对听力康复具有重要意义。增强的早期响应提示,针对清晰语音的听觉训练可强化基于预测的快速处理;而增强的晚期响应则表明,对于声学信息受限的听者,干预措施应着重提升错误监控与语义整合能力,例如结合视觉或语境线索的训练。未来研究需在听力损失、老年或人工耳蜗用户等群体中检验行为可懂度与神经指标间的关联,并可通过纳入词汇起始、语义意外性等预测因子,进一步明确P400TRF成分的语言学含义。
结论
本研究通过TRF分析揭示了大脑在应对不同可懂度语音时的动态适应机制:清晰语音促进高效的早期感知,而退化语音则诱发延迟的晚期代偿响应。这些发现深化了对听觉皮层在挑战性聆听条件下处理机制的理解,并为改进听觉假体与康复策略提供了神经科学依据。