综述：人脑中的音乐与语言：失匹配负波（MMN）证据揭示其神经可塑性及相互作用

《European Journal of Neuroscience》：Music and Language in the Human Brain: Mismatch Negativity Evidence for Their Neuroplasticity and Interplay

【字体：大中小】 时间：2026年01月22日 来源：European Journal of Neuroscience 2.4

编辑推荐：

　　本文综述基于失匹配负波（MMN）证据，系统阐述了音乐与语言在人类大脑中的神经表征、相互作用及神经可塑性机制。作者指出，MMN作为前注意认知水平的神经指标，能有效追踪从胎儿期至成年的听觉学习过程，揭示了音乐训练对语言能力（如发音、阅读）的促进，以及语言经验对音乐加工的调节作用，并探讨了大脑半球不对称性的动态特性及其在预测编码框架下的意义。

摘要

我们生活在一个充满声音的世界；甚至在出生前，我们便开始感知和记忆声音。本文综述了内隐和外显学习对听觉神经认知的影响。这些在失匹配负波（MMN）范式中研究的发现表明，内隐和外显的听觉专业技能都能在人类认知的前注意水平上调节声音的神经编码。这种调节反映在MMN的潜伏期、波幅及其脑内发生器上。因此，MMN研究可以阐明人类在发育过程中以及整个生命周期内各种形式的听觉学习。

1 引言

言语和音乐是人类认知和互动的关键形式，使用频繁。言语用于交流，音乐用于聆听。音乐，如唱歌或演奏乐器，也可以是一种爱好或专业活动，从而提供了传递情感的额外手段。在声学和认知上，言语和音乐共享多种原则，例如从单个元素（如一个和弦或音素）到复杂实体（如旋律或句子）的层次结构。在神经层面，言语和音乐都沿着听觉通路进行处理，从耳蜗经由中脑直至听觉皮层以及左右半球的联合区。

MMN最初被解释为声学特征短时记忆的神经指标。然而，后来更高层次的抽象声音特征也被视为前注意认知的一部分。最终，短时记忆和长时记忆之间的共性和迭代过程被识别，关于MMN引发的解释也扩展到涵盖长时记忆的影响。最近，MMN的解释被置于预测编码的框架内进行考量。预测编码框架对于言语和音乐研究至关重要，因为它们的内容必须被轻松且准确地预测，否则通过这两个领域进行的流畅交流和互动将会失败。

2 MMN波幅作为音乐和语言神经可塑性的指标

学习对言语和音乐影响的最早证据在出生后立即可以观察到。研究发现，在怀孕期间母亲给胎儿播放言语和音乐CD的新生儿，其失匹配反应增强。例如，一个伪词“tatata”的中间音节音高更高，在实验组（母亲孕期播放CD）的新生儿中引发了比对照组更大的失匹配反应。类似地，即使是早产儿（平均孕周30.5周），在达到40孕周时也能在神经层面区分声学和情感不同的言语声音，并且这种区分能力因父母在护理期间对新生儿进行的唱歌和哼吟而增强。研究还表明，对于有遗传性阅读障碍风险的婴儿，在0-6个月期间进行音乐聆听干预，可在6个月和28个月大时观察到增大的MMN反应。这种增强特别出现在接受人声音乐干预的婴儿组中。此外，新生儿在音乐丰富的条件下能成功区分偏差刺激，并且出生后立即获得的失匹配反应与一年半后儿童的表达性词汇量存在关联。因此，听觉学习在人类发育早期就已发生，受音乐丰富性的影响，并且可以在任何外显行为方法可用之前通过MMN（和其他事件相关电位，ERP）记录进行研究。

在发育后期，音乐训练和接触可以改善各种言语和语言功能，如发音、阅读技能、音位编码和记忆。这些发现表明音乐专业技能和接触也可能与不直接涉及音乐功能的技能和行为相关。MMN证据也支持了其中一些行为学发现。例如，外语发音技能更熟练（并且在音乐性测试中得分更高）的参与者，对音乐和言语声音的MMN增强。音乐家的MMN增强，并且可以反映其音乐训练的特定方面，例如其曲目中最常见的音乐类型。同样，语言背景也可以调节由MMN索引的前注意听觉过程。开创性研究表明，个体母语的音素在大脑中被优先区分，这种处理甚至超越了标准音素和偏差音素之间的声学差异。除了母语接触对音素处理的这种调节作用外，与说其他语言的人相比，芬兰语（一种音长语言）使用者在区分非言语声音时长变化时MMN增强。在音长语言中，音素时长表示语义。最近对爱沙尼亚语（一种比芬兰语更复杂的音长语言，具有三种语音时长）使用者的研究表明，语言背景和音乐专业技能共同影响听觉处理。具体而言，中国说话者对基于中文刺激的音高调制有更大的MMN反应，而爱沙尼亚说话者对爱沙尼亚刺激中同时包含时长和音高变化的非言语纯音有更大的MMN反应。此外，音乐家（与非音乐家相比）在处理其母语中的声音变化时表现出MMN优势，表明音乐才能与母语处理的关系更为密切。

上述研究中MMN增强背后的可能驱动因素，可能反映了感觉水平和预测水平上以互补方式运作的学习相关机制。在感觉水平上，经验可能锐化听觉表征，从而提高区分准确性。在预测水平上，学习可能增加内部模型的精确度，导致更强的预测错误响应。

3 MMN作为大脑中言语与音乐处理相互作用的纵向证据

除了成人横断面研究，为了寻找人类学习中的因果关系，纵向跟踪研究具有特殊的意义和价值。先前的研究表明，音乐训练可以增强神经层面的音高辨别能力，并且也能增强阅读障碍参与者对语音起始变化的MMN。最近一项研究发现，外语训练调节了参与者的听觉脑反应，特别是在一个旋律多特征MMN范式中对音高的MMN。在该研究中，超过100名8-11岁的中国学童参加了一个为期一学年的纵向干预研究。部分儿童接受音乐课，部分儿童接受英语课。令人意外的是，关于音乐课增强音乐特异性MMN的假设并未得到证实，相反，观察到英语课比音乐课更能增强音乐（旋律）范式中的音高MMN。这一有趣但前景广阔的发现可能反映了声调语言使用者对新听觉（甚至是言语）信息进行编码时，存在将其作为音乐信息处理的主要敏感性。因此，这一发现可能仅限于声调语言使用者的前注意听觉功能，尚不能推广到其他语言使用者或行为层面的听力和发音技能。

4 MMN作为大脑半球不对称性的指标

从基于脑电图（EEG）的MMN研究转向使用具有更先进定位MMN发生器手段的脑成像方法的研究发现，MMN的经典分布是右半球额中央电极占优势。通过偶极子建模，这些MMN反应的发生器也被定位于听觉皮层，并在一些研究中定位于右额叶皮层。最近研究表明，当所有六种偏差（音高、音色、时间，以及移调、旋律轮廓、节奏模式）在同一重复出现的2秒旋律中引入时，声学偏差和音乐（更认知的）偏差的MMN源是可以区分的。基于脑磁图（MEG）记录和逆建模数据，声学偏差在初级和次级听觉皮层处理，而扣带回和眶额皮层则对认知偏差的区分有激活。

一般而言，大脑半球在言语和音乐处理方面并非对称。基于对脑损伤患者的早期观察，大脑不对称性的基本原理自20世纪初就已为人知。左颞叶损伤会损害言语功能，而右颞叶损伤会损害音乐功能。然而，直到近几十年，研究才能够在健康大脑中研究这种不对称性的大脑基础。

首先，为了研究音乐和言语声音微小变化区分的大脑基础，研究表明，正如MMN所反映的，这种区分的最早阶段按照传统观点是不对称的：和弦处理主要发生在右半球，音素处理主要发生在左半球。这一结论是通过使用MEG记录和正电子发射断层扫描（PET）的开创性MMN研究得出的。在这些研究中，即使声学差异在音素和和弦之间得到平衡，处理音乐和语音刺激的半球不对称性仍然存在，这表明在MMN测量中可以确定由自动激活的偏侧化神经机制引起的这种不对称性。

其次，除了音素和大调/小调调式之外，语言和音乐还包含精细的声学线索，例如表示韵律（言语中的情感或语言韵律）、速度变化（缩短或延长的音调时长）或强度变化（暗示音乐情感内涵的变化）的线索。在比较大脑中语言和音乐的第二波研究中，我们关注了这一层次的声音信息。为了从孤立的音素与和弦再向前一步，我们旨在使用由专业演员发音的伪词以及这些伪词的音乐对应物。研究发现，萨克斯管声音在其频谱上与人类声音非常相似，因此该研究使用伪词（baba）和基于萨克斯管声音样本在音高和时长上对应的数字对应音来实现。为了在脑扫描技术上也再向前一步，该研究使用3T功能性磁共振成像（fMRI）在稀疏采样范式中进行。与上述MEG和PET研究类似，存在仅包含标准刺激和混合标准与偏差刺激的序列。fMRI研究的结果表明，编码音乐和言语声音变化的区域在皮层和皮层下区域有所不同。在颞叶，音乐声音在比言语声音更内侧的源中处理。此外，观察到由音高和时长偏差引起的丘脑不对称激活仅出现在言语声音中，而音乐声音偏差仅引起皮层激活。这似乎表明，即使是最基本的声音编码和区分阶段，也可能因声音类别（言语/音乐）和声音参数（音高/时长）而异。

5 对MMN之外文献的插叙

基于上述MMN证据，一个悬而未决的问题是，言语和音乐在人类皮层（和皮层下）区域的编码不对称是由于声音材料的信息内容，还是由于在言语和音乐中最占主导地位的声学参数。正如早期综述所提出的，这种不对称性可能反映了大脑半球在处理言语中固有的快速时间信息和音乐中固有的精细音高信息方面的不同作用和 specialization。使用fMRI和参数化操作噪声样声音序列、时间和频率调制的正弦波纹或句子和歌曲的研究确实表明，当调制时间信息时左半球活动占主导，而当调制频谱（音高）信息时右半球活动占主导。这些发现为以下观点提供了有力支持：观察到的大脑不对称性源于每个领域（言语中的时间和音乐中的频谱）内的关键声音特征，而非领域（言语或音乐）本身。

6 听觉的大脑不对称性能被长期专业技能调节吗？

如上所述，大脑半球似乎适应于听觉信息的特征特异性处理，而非言语和音乐本身。然而，值得注意的是，这种特征特异性的不对称性不一定是固定的，实际上可能受到神经可塑性和长期听觉学习的影响。尽管关于此点的初步证据来自对成人参与者的横断面研究且应谨慎解读，但它为未来的纵向和干预研究提供了一个非常有前景的起点。

关于和弦区分，在采用自早期研究的范式中，我们观察到音乐素人参与者主要呈现右偏侧的MMN反应（MEG证据）。然而，在受过音乐训练的参与者以及在音乐性测试中表现良好的非音乐家中，我们观察到双侧的MMN反应。类似地，节奏区分在非音乐家中诱发右优势的MMN，但在爵士音乐家中诱发左偏侧的MMN。

相应地，在语言研究中，观察到对语义语言特异性区分是左优势的MMN，而对声学区分则是更双侧的MMN。该研究的所有参与者都是中文说话者（即声调语言使用者）。此外，通过使用磁脉冲（经颅磁刺激，TMS）干扰服务于言语功能的运动皮层部分，研究发现，对声调语言和非声调语言使用者，干扰其言语相关运动功能会影响MMN：干扰右侧言语运动皮层抑制了非声调语言使用者听觉皮层对音调变化的反应，而干扰左侧言语运动皮层抑制了声调语言使用者对音调变化的反应。对于音素变化，干扰左侧（而非右侧）言语运动皮层会抑制两个语言组的反应。

总之，来自音乐和语言研究的证据表明，听觉的半球不对称性不仅是由声音材料是音乐还是言语引起的，而是反映了在这两种声音模式中占主导地位的声音特征。此外，证据还表明听觉的半球不对称性受神经可塑性和学习的影响。

7 方法学考量

在最早的MMN研究中，实验声音序列仅由两种不同的正弦（纯）音组成，即频繁呈现的标准刺激和罕见呈现的偏差刺激。然而，由于理论和方法学的发展，更复杂（且生态效度更高）的范式被开发出来，例如所谓的多特征范式。该范式有一个标准刺激和总共九个不同的偏差刺激，具有很高的时间成本效益，且不影响数据质量。

相应地，如上文所引用，基于和弦琶音和旋律重复的与音乐相关的范式也被开发出来。同时，MMN研究中的声音结构通常类似于真实生活中的声音，具有多个谐波分音（泛音）。通过这些方式，范式的生态效度得到了显著提高。

移动脑电图技术可以更好地模拟MMN研究的真实生活情境。当前的电极和放大器技术使得无需电屏蔽室（法拉第笼）即可进行记录。这对于参与者的舒适度以及在不旅行和适应新环境的情况下参与的可能性而言，是一项重要的改进。此前，使用oddball和多特征范式的MMN和P3a记录已在日托中心、学校以及办公室空间成功进行。

8 讨论与结论

言语和音乐是日常听觉认知和互动最基本的形式，依赖于大脑中从耳蜗直到听觉皮层及以外的序列处理。在本综述中，我重点阐述了MMN框架下这种处理的关键功能，首先介绍MMN作为处理效能的功能指标，然后描述MMN不对称性作为每个听觉皮层内处理的指标。

在本综述的两个部分中，主要重点都放在了引发MMN的过程的神经可塑性上。学习，无论是内隐还是外显的，都会在大脑中留下印记，这些印记可以通过MMN记录观察到。值得注意的是，在言语和音乐领域，内隐和外显的学习形式都会发生；母语在很大程度上可以内隐地学习，而外语在大多数情况下需要外显学习才能掌握。学习演奏乐器需要外显学习（无论有无老师指导），而自身音乐文化的某些方面则是内隐习得的。有趣的是，结合了言语和音乐为一体的唱歌，既可以内隐也可以外显地学习。

此外，正如目前初步显示的，听觉领域的专业技能（即语言和音乐）也可能相互影响。这是未来研究的一个主题。如果这些研究旨在调查MMN的功能而不强调其神经解剖学来源，那么可以考虑使用移动脑电图技术。虽然此时MMN活动的可靠源建模不那么突出，但另一方面，在招募具有音乐或研究目标语言专业知识的参与者方面更可能成功。

总之，MMN文献在近几十年来取得了显著发展。最初，在20世纪80年代，MMN被认为反映了短时记忆痕迹。然而，如本综述所示，MMN也能反映高度抽象的听觉实体和长时记忆表征。这些表征为听觉预测提供了基础，这些预测对于音乐和言语编码以及听觉交流具有高度相关性。由于MMN可以在忽略条件下记录，这使得能够监控各种形式的学习，而不会受到在许多参与者执行外显任务时可能出现的动机或焦虑差异所带来的伴随物和干扰。此外，如上所述，刺激范式正接近生态效度，记录设置除了实验室高密度脑电图、脑磁图和脑成像技术外，还包括用于日托中心、学校和工作场所记录的移动脑电图。因此，MMN作为人类听觉感知和行动交叉点上拥有悠久历史的工具，将继续为研究人类听觉神经认知及其在整个生命周期中的可塑性提供便利的手段。

热点排行

新闻专题