《PLOS Biology》:Human newborns form musical predictions based on rhythmic but not melodic structure
编辑推荐:
本文通过脑电图(EEG)与时域响应函数(TRF)技术,系统研究了新生儿对音乐中节奏与旋律统计规律性的神经编码。研究发现,新生儿已具备基于节奏结构形成音乐预期的能力,但对旋律信息的跟踪尚不显著,揭示了听觉处理中节奏与旋律维度在发育初期的非对称性,为理解人类音乐性及统计学习能力的先天基础提供了关键证据。
引言:探索音乐预期的先天基础
音乐被认为是理解一系列神经认知过程发展的有力工具,这些过程包括支持通过声音模式进行交流的机制。从发育的最早阶段开始,人类大脑就依赖多种听觉线索从声学环境中提取有意义的模式,例如词语或旋律。这一过程通过整合序列信息,从而提取时间和频谱维度(如时间和音高)上的统计模式而得以实现。在音乐中,对统计模式的跟踪很大程度上是内隐的,使得大脑能够基于近期和过去的语境,来预测更频繁发生的事件或模式。因此,预期建立在实时获取的统计规律性和/或从先前暴露中检索的信息之上。这种节奏和旋律预期是音乐感知和欣赏的支柱。然而,这种能力在多大程度上在出生时就已经形成,仍不清楚。
跨物种研究表明,灵长类动物对节奏和旋律的预期似乎沿着不同的系统发育路径演化。对节奏模式的敏感性在非人灵长类动物中被观察到,暗示了其深厚的系统发育根源。相比之下,基于音高关系的旋律模式敏感性在非人灵长类动物中则更多变,甚至在人类世系中可能是独特的。这引发了一个重要问题:人类是否天生具有旋律跟踪的倾向?回答这个问题对于理解生物学倾向和文化特质如何共同塑造全球范围内观察到的人类复杂音乐能力谱系至关重要。
本研究以人类新生儿为研究对象,探讨人类大脑处理音乐,特别是其节奏和旋律方面的先天倾向。新生儿的听觉反应可以通过脑电图(EEG)可靠地记录,并且与任何后期发育阶段相比,这些反应受先前暴露的影响微乎其微。有令人信服的证据表明,人类大脑在子宫内就已开始处理声音,胎儿能够辨别、习惯并记忆声音。到妊娠约35周时,胎儿开始对音乐产生心率变化和身体运动的反应。但目前尚不清楚,究竟是音乐的哪个具体方面——即其节奏结构还是旋律结构——驱动了这些早期倾向。
在节奏感知方面,脑电图研究证明了人类新生儿大脑早期对时间结构的神经调谐,例如对言语和非言语信号中时间线索的特化、对时间模式呈现速率的适应、对节拍相关频率的跟踪以及对节拍的感知。此外,对新生儿的研究表明,接触结构化的时间输入(如音乐)可以加强听觉网络,并为后期的语言发展搭建支架。尽管有这些证据,但新生儿是否利用超越声音周期性的节奏统计规律性(如转移概率)来形成时间预期,仍然不清楚。在旋律能力方面,脑电图研究表明,新生儿表现出独立于音色的音高辨别能力,以及对高度意外事件的检测能力,例如偏离确定性音调模式或音调间隔序列中的规律性。这些研究为基于旋律信息概率分布的预期提供了初步证据。然而,它们只测试了这种假定概率分布的两个极端:非常频繁与非常罕见的事件,忽略了真实音乐中广泛的、音符之间的意外性。这留下了不确定性:新生儿在聆听连续的自然主义音乐时,是否能像成人一样形成旋律预期。最后,由于旋律和节奏能力经常被分开研究,出生时音乐处理中节奏和旋律预期的权重尚属未知。
本研究调查了基于时间和音高结构的预期的神经跟踪,以理解新生儿大脑在聆听自然主义音乐刺激(即古典钢琴曲)时如何权衡这些音乐特征。因此,与传统范式不同,我们的设计直接在完整、生态效度高的刺激中评估节奏和旋律跟踪,而不是从对显著不规则声音的检测中推断它们。节奏和旋律预期可以通过对刺激不同特征敏感的不同预期机制产生——从表面声学属性到局部和全局基于事件的概率。因此,我们使用多变量时域响应函数分析(mTRF)来测量连续音乐刺激的多个特征——即“低水平”声学特征和“高水平”概率性节奏/旋律信息——如何预测人类新生儿对音乐的脑电图反应。与先前人类和非人灵长类动物的工作类似,我们评估了新生儿对巴赫的钢琴单音作品的神经编码,这些作品是结合了旋律和节奏概率结构的丰富音乐刺激。基于先前在非人灵长类动物中发现节奏而非旋律跟踪的结果,我们假设如果这些能力是系统发育遗传的,人类新生儿会表现出类似的模式。这将意味着节奏编码从一开始就嵌入人类大脑,而旋律编码可能随着经验和行为相关性的增加而发展得更慢。相反,如果与其他非人灵长类动物不同,节奏敏感性和旋律敏感性在人类中是并行出现的,那么人类新生儿可能已经表现出一定的旋律编码能力,可能类似于成人中观察到的节奏编码。
结果
实验设计与刺激
一项多变量时域响应函数(mTRF)分析被用于评估人类出生时音乐预期的神经编码。新生儿接触了音乐旋律(真实条件)和控制刺激(随机条件,其中音高和音符时间被打乱,以创建破坏了音乐规律性的序列)。巴赫创作的音乐旋律包含了典型的西方调性音乐中常见的规律旋律和节奏模式。相比之下,随机刺激尽管在声学上相似,但缺乏可比的音高或时间可预测性。为了客观评估实验刺激的可预测性,使用可变阶马尔可夫统计学习模型来估计基于信息论特性的概率性预期。该模型从代表不同刺激属性(特别是关于音高和时间)的离散符号序列中学习统计模式。它利用过去(长期和短期)的音乐语境观察,并计算旋律中每个音符在音高和时间上的香农意外性与熵。意外性和熵提供了预测处理的互补表征:熵捕捉事件固有的不确定性,而意外性反映给定先前语境下该事件的意外程度。该模型提供的估计证实,随机旋律在音高和时间上都比真实旋律整体上更出乎意料。
神经编码:节奏预期存在,旋律预期缺失
TRF分析结果显示,包含所有特征的完整模型能够以合理的准确性预测几乎所有参与者的脑电图数据。为了评估高水平概率性预期对神经信号的独特贡献,我们比较了完整模型与简化模型之间预测准确性的变化。线性混合效应模型显示,条件(真实 vs. 随机)存在主效应,表明概率性预期在真实音乐中被编码,而在随机音乐中没有。这些效应并非由任何特定旋律驱动,并且在受试者间表现出高度变异性。该分析证明,真实旋律的可预测结构使新生儿能够产生超越单纯声学跟踪的音乐预期。
我们进一步测试了概率性预期的编码是否由音高或时间结构特异性驱动。一个包含条件(真实 vs. 随机)和TRF模型(St和Et vs. Sp和Ep)的线性混合效应模型产生了条件的主效应以及条件与TRF模型之间的交互效应。对于真实音乐,配对对比表明,基于时间结构而非音高结构的概率性预期被编码。而对于随机音乐,两个维度均未产生显著效应。该分析证明,新生儿跟踪真实旋律的可预测节奏结构以产生预期。相比之下,基于音高的概率性预期并未以统计显著性出现。
作为对照,我们进行了类似分析,以测试由即时局部时间和音高变化驱动的预期的独特贡献。一个包含条件(真实 vs. 随机)和TRF模型(起始间隔 vs. 音高间隔)的线性混合效应模型产生了TRF模型的主效应以及条件与TRF模型之间的交互效应。配对对比表明,对于真实音乐和随机音乐,起始间隔被编码,而音高间隔未被编码。该分析证明,基于局部时间间隔的低水平预期不受音乐节奏结构的影响,因为起始间隔在真实和随机旋律中被类似地跟踪。它还表明,音高信息的编码在两种条件下均未达到显著性。因此,当前结果不支持对音高概率性预期或局部音高变化的跟踪。
事件相关电位的佐证
为了将TRF结果置于更广泛使用的神经生理反应中,我们检查了对一部分音乐音符的事件相关电位反应,特别是那些携带最高和最低20%意外性值的音符,分别针对音高和时间。事件相关电位由一个初始的负峰和随后两个宽阔的正向偏转组成。事件相关电位波形类似于先前在新生儿中由听觉刺激诱发的结果。值得注意的是,第二个正向偏转的振幅在时间上意外性高的音符反应中增强。这在真实音乐中观察到,但在随机音乐中没有。相反,没有由音高意外性音符引起的显著振幅调制。这种分离,连同音高和时间相关意外性值弱相关这一观察,表明意外的音高和时间事件是独立处理的。这些结果与TRF结果完全一致,证实新生儿基于音乐的节奏结构而非旋律结构产生预期。它们进一步为神经生理反应提供了见解,特别是晚期脑电图正波,其振幅随时间而非音高相关意外性而变化。
讨论
节奏能力的早期出现与功能意义
我们证明了在出生时使用自然主义复杂刺激(如西方调性音乐)来检查不同水平听觉处理的可行性。通过确定新生儿如何使用旋律和节奏信息中的统计规律性来处理音乐,我们的发现为理解听觉发展及其内在的生物学限制做出了关键贡献。具体而言,虽然嵌入音乐刺激中的节奏统计规律性在出生时已被神经编码,但基于音高的信息并未得到同等深度的处理,无论是在低水平还是高水平编码上。这表明节奏和旋律敏感性在人类中并非平行出现,节奏发展早于旋律。
TRF分析揭示了音乐刺激整体神经跟踪的高个体间变异性。关键的是,我们表明新生儿跟踪真实而非随机音乐中音符间的可预测性,并且是声音序列的节奏方面,而非旋律方面驱动了这种效应。这表明新生儿从结构化语境中提取统计规律性,以预测序列中的即将发生的事件。相反,当随机语境中规律性较弱或缺失时,音乐预期减少。正如预期,局部时间信息在聆听真实和随机音乐时都被编码,独立于是否存在高阶结构模式。这些发现与以下观点一致:跟踪事件可预测性依赖于从过去语境中提取和表征结构信息的能力。随机条件下的反应减弱反映了当感官输入的推断稳定性或精确性较低,并且当前信息与过去经验不符时,对这种可预测性相关反应的权重降低。
这一发现也为我们理解出生时存在的人类节奏能力带来了新的证据。虽然节奏技能,如对等时性和节拍周期性的敏感性,在5个月大的婴儿、新生儿甚至早产儿中都有充分记录,但关于对基于语境的概率性预期的敏感性的证据仍然难以捉摸。在这里,我们提供了积极的证据。使用具有可变起始间隔范围的巴赫作品,我们表明新生儿不仅仅是跟踪等时性和周期性模式。他们还处理一个更高层次的特征,即基于一系列过去不同的起始间隔,下一个事件何时发生的概率。婴儿的这种能力可能建立在有据可查的对等时性和周期性的敏感性之上:换句话说,序列的等时性或周期性表征可能提供一个可预测声音事件的时间网格,就像一个支架,促进更复杂的时间和/或频谱模式的分割和组织。
这种早熟的节奏能力背后可能是什么?一个潜在的候选因素是胎儿感觉环境,其特点是生物节律的突出性。这包括听觉刺激,以及前庭刺激。另一种可能性是新生儿通过在妊娠期间接触音乐输入而发展出这种预测技能。然而,这一假设似乎不受我们补充分析的支持,该分析表明,使用预先在大型音乐语料库上训练的模型(反映先前的暴露)估计的意外性值,与从未经过预训练的模型获得的结果相似。因此,对整个刺激集的快速统计学习提供了一个更简洁的解释。这通常与存在一种用于序列处理的天生自动统计学习机制一致,并且与最近脑电图证据表明新生儿能够快速学习复杂声音(如语音)不同属性间的转移概率一致。虽然我们无法操控产前音乐暴露,但未来的研究应该在音乐暴露越多导致音乐预期的神经编码越强的假设下,系统地操控它。
转向这种早熟节奏能力的功能意义,我们推测它可能是认知早期发展的关键,不仅是作为高阶统计学习的前兆,也是作为在时间中引导注意力和组织行为的机制。支持这一观点的是,新生儿可以部分地将自发的节律行为适应外部刺激;对早产儿的节律性摇晃干预改善了定向反应;以及对早产儿的前庭节律性刺激增加了他们的适应性呼吸反应,这对于组织结构化行为至关重要。
旋律跟踪的缺失与发育轨迹
与节奏相反,我们没有发现局部音高间隔或基于音高的概率性预期的神经编码的证据。虽然这基于过去的工作起初令人惊讶,但先前也强调了音高神经跟踪的大变异性,表明新生儿对音高变化的神经跟踪需要清晰的音高变化操控。这种普遍较弱的音高编码可能源于这样一个事实:胎儿听力在子宫内受到严重的低通滤波,导致妊娠期间音高细节的显著衰减以及音高敏感性较慢的成熟。这与出生时未成熟的频率特异性通路和粗略的频率调谐,以及不同音调的时间分辨率不成熟一致。这个因素,加上我们的刺激与先前工作相比具有更大的复杂性,可能解释了我们观察到的有限的旋律跟踪。确实,我们的音乐刺激以多种音高、音高间隔和起始间隔为特征,以变化的节奏呈现。虽然这些特征更好地近似了日常音乐聆听,但它们确实也对新生儿的大脑提出了比传统oddball范式更大的计算挑战。总而言之,新生儿对音高的敏感性远不足以欣赏音乐音高规律性,这可能通过成熟和文化熏陶而出现。根据这种观点,关于从子宫到出生的音乐记忆的报告可能主要依赖于时间信息而非音高信息,这一假设值得进一步测试。
观察到的节奏和旋律统计跟踪之间的分离可能源于它们独立但互补的神经实现。这种分离提供了灵活性,允许大脑通过其可靠性来权衡预测信号以优化序列感知。我们的发现表明,这两个预测过程的权重是通过发育细化形成的,出生时音高编码处于初级阶段,最终变得与时间编码一样稳健。也有可能这两个过程对警觉状态有不同的易感性。根据这一假设,在睡眠期间,时间比音高更受青睐,因为它更显著,并且可能与非生存相关的线索有关。这将与关于成人的脑电图研究一致,表明睡眠中的感知和学习可能仅限于简单的显著信息。未来的研究应调查新生儿的旋律处理是否受睡眠调节,以及在睡眠的成人中是否同样被低估。这将澄清这种效应是新生儿真正缺乏,还是音高相关信息在睡眠期间处理方式的结果。
系统发育视角与未来方向
从系统发育的角度来看,在人类个体发育早期阶段观察到的节奏的突出知觉作用,可能利用了灵长类世系内对节奏(而非旋律)的更古老、系统发育上保守的敏感性。事件相关电位分析显示,对时间上意外的音符,P1-P2反应的振幅更大,但在音高维度上没有调制。考虑到它们相似的广泛额叶地形,这两个峰可能反映了具有相似潜在发生器的单一正波。它们也可能代表成人P1和P2成分的前体。有趣的是,聆听呈现给新生儿的相同刺激的猕猴和人类成人的P1-P2反应也受到时间意外性的调制。因此,跨组对时间而非音高意外性的皮质反应相似性表明节奏是听觉序列跟踪中的主要知觉线索。这并不意味着人类和猕猴通过相同的神经机制产生节奏预期,即使皮质反应类似地受到时间意外事件的调制。补充分析表明,在新生儿中,概率性和局部时间信息解释了相当数量的脑电图方差,而在猕猴中,局部时间信息的贡献相对更强。比较系统发育相近的群体之间以及作为暴露函数的不同的节奏计算模型,可能揭示这些不同节奏能力的生物学基础和进化历史。
关于旋律预期,在人类新生儿和音乐上未经训练的猕猴中均未观察到显著的旋律跟踪,这与人类成人相反,这留下了以下假设:旋律敏感性可能不仅在人类世系中出现,而且如果有足够的音乐暴露,可能在其他非人灵长类动物中发展。跨物种测试这一假设可以阐明经验在塑造听觉处理中音高和时间预期相对权重方面的作用。
结论
总的来说,这项研究提供了神经生理学证据,表明跟踪节奏统计规律性是出生时即存在的能力,而旋律跟踪可能并非如此,至少对于我们在此使用的自然主义音乐刺激而言。未来的研究应评估观察到的节奏相对于旋律的主导地位是反映了状态依赖性因素,还是标志着一种早期发育偏向,这种偏向随着经验逐渐转向成年期观察到的平衡敏感性。