《Cortex》:Brain processes of loud speech and faking an accent as a window on motor speech planning/programming
编辑推荐:
本研究针对言语交流中不同发音模式(语音模式)的神经编码机制尚不明确的现状,通过高时间分辨率的脑电图(EEG)技术,对比分析了标准语音、高声语音(LS)和模仿英语口音(FA)三种条件下伪词产出的脑电活动。研究发现,LS和FA均在与标准语音相同的脑网络基础上,于发声前约200毫秒内诱发更强的神经活动,但二者在时空特征上存在差异,表明不同语音模式可能以特异性方式在运动言语编码晚期阶段被调控。该成果为理解言语运动控制的灵活性提供了重要电生理证据,发表于《Cortex》。
在日常对话中,我们常常需要调整说话方式:在嘈杂环境中提高音量让对方听清,或模仿他人的口音以达成幽默或沟通目的。这些被研究者称为“语音模式”(speech modes)的发音变化,涉及独特的发声(phonatory)和构音(articulatory)特征调整。然而,尽管这些模式在交流中无处不在,现有的言语产生理论模型(如Guenther提出的DIVA模型)主要基于标准语音数据构建,尚未能系统地解释不同语音模式背后的神经编码机制。具体而言,我们不清楚大脑是如何在极短的时间内(通常在几百毫秒内)为不同的发音目标“编程”的——是调用了全新的神经回路,还是仅仅对标准语音的加工网络进行参数上的“微调”?这个问题是理解人类言语运动控制灵活性的核心。
为了回答这个问题,来自瑞士日内瓦大学的研究团队开展了一项精巧的脑电图研究,并将成果发表在学术期刊《Cortex》上。他们假设,不同语音模式的编码可能涉及言语产生过程中不同阶段的调整。例如,提高音量(Loud Speech, LS)可能主要涉及运动编程水平(Motor Programming Level)的参数调整(如增加发声器官的驱动力),因为其运动计划本身是熟悉的;而模仿外国口音(Faking an Accent, FA)则可能需要对运动计划水平(Motor Planning Level)进行更早、更根本的修改,因为发音者需要生成或调整原本不常用的音位运动模式。研究团队旨在通过对比LS和FA与标准语音(Standard Speech, SS)在脑电活动上的差异,来揭示这些调整发生的时间和神经基础。
研究采用了延迟产出任务(Delayed Production Task),这种范式能有效分离语言准备过程和运动言语编码过程。20名以法语为母语的参与者被要求产出伪词(Pseudowords),以避免熟悉词汇带来的额外认知负荷。实验包含三种条件:标准语音、高声语音(比平常响度提高至少6分贝)以及模仿英语口音说法语。研究人员记录了高密度脑电图(128导),并重点分析了发声前的事件相关电位(Event-Related Potential, ERP)。
在技术方法上,研究主要依赖以下几项关键分析:1) 波形分析(Waveform Analysis):使用基于排列检验的阈值自由簇增强(TFCE)方法,对比不同条件下ERP波幅的差异。2) 拓扑方差分析(Topographic Analysis of Variance, TANOVA):比较不同条件间头皮电场分布的差异,这种分析独立于参考电极。3) 微状态分析(Microstates Analysis):将ERP信号在时空上分割为一系列持续数十至数百毫秒的、代表大脑全局网络状态的拓扑图,并比较各微状态的持续时间(Duration)和平均全局场功率(Global Field Power, GFP,反映脑电活动强度)。4) 源定位分析(Source Estimation):使用LORETA(Low-Resolution Brain Electromagnetic Tomography)算法对显著的微状态进行脑内源信号估计。
行为与感知判断结果
首先,行为数据确认了实验操作的有效性。参与者产出伪词的准确率高达99%。感知判断任务显示,模仿英语口音条件中,高达95.95%的发音被外部评判者认为是带有英语口音的法语或英语母语者的发音,表明FA任务成功诱发了目标语音模式。同时,高声语音条件下的平均强度(62.85 dB)显著高于标准语音(51.33 dB),符合实验要求。
脑电波形与拓扑分析结果
波形分析发现,与标准语音相比,FA条件在发声前约190毫秒内,在头皮前部和后部两个大的电极簇上诱发了更大幅度的ERP负成分。而LS条件与SS的差异则出现在发声前约150毫秒,且差异范围主要集中在中央区(Cz附近)的一个较小电极簇上。拓扑方差分析(TANOVA)进一步揭示,LS与SS的头皮电场分布在发声前224毫秒开始出现显著差异,而FA与SS的差异则出现在前204毫秒。这些结果表明,两种语音模式都在言语运动编码的晚期阶段(发声前约200毫秒内)诱发了与标准语音不同的神经活动,但FA引起的差异在时间和空间上更为广泛。
微状态分析结果
微状态分析将发声前的ERP信号分割为三个连续的微状态(Map A, B, C),该模型解释了94.27%的方差,表明三种语音模式共享相同的基本脑网络序列。然而,在神经活动的强度上存在关键差异:对于Map B(其特征是中线中央区负性、双侧正性),LS条件的平均GFP显著高于SS,而FA与SS无差异。对于Map C(其特征是前额和周边正性、中央后部负性),LS和FA条件的平均GFP均显著高于SS。源定位分析提示,Map B的神经源可能位于右脑额叶和额下回,而Map C则与左脑小脑前叶和左中央前回(运动皮层)的活动相关。Map C的拓扑特征与文献中报告的与发音准备相关的微状态相似。
研究结论与意义
综合以上结果,本研究得出核心结论:不同语音模式(LS和FA)的编码并非依赖全新的神经回路,而是通过增强标准语音产出的既有脑网络活动来实现的,这种增强主要发生在运动言语编码的最后200毫秒内。 这一发现挑战了简单地将语音模式归因于单一加工阶段(如仅运动编程)的观点,表明晚期编码阶段同时涵盖了运动计划和运动编程的调整。
更重要的是,研究揭示了不同语音模式的特异性编码签名。模仿口音(FA)表现出更早、更广泛的脑电活动调制,这可能反映了其对运动计划水平(涉及左脑前运动皮层、布罗卡区等,即DIVA模型中的Speech Sound Map, SSM)的更早和更复杂的介入,因为发音者需要调整或创建新的音位运动模式。而高声语音(LS)则表现出在更多微状态(Map B和C)上的活动增强,这可能与其需要整体上调神经运动驱动力(neuromotor drive)以增加发声力度和构音幅度有关,体现了“活力增强”(enhanced vigor)的特性。
这项研究的意义在于,它首次使用高时间分辨率的电生理技术,并行比较了以构音调整为主和以发声调整为主的两种语音模式,为理解言语运动控制的层级性和灵活性提供了精细的时程证据。研究结果暗示,主流的言语产生模型(如DIVA模型)需要扩展以容纳语音模式的编码机制,可能涉及在运动指令参数化(Articulatory Map, AM)的同时,对运动计划(SSM)和序列启动(Initiation Map, IM)进行动态调整。未来研究可以进一步分离不同加工阶段,或考察个体差异(如模仿能力),以深化对言语模式神经基础的理解。总之,这项工作将日常生活中常见的语音变化置于科学的聚光灯下,揭示了大脑如何高效而灵活地为实现多样的沟通目标进行“实时编程”。