听觉的“逆斐”错觉:人类利用频谱-时间正负相关性检测音高运动的跨模态机制

《Nature Human Behaviour》:Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch

【字体: 时间:2026年02月28日 来源:Nature Human Behaviour 15.9

编辑推荐:

  本研究探讨了人类听觉系统如何检测音高随时间的变化(音高运动)。受视觉运动检测机制的启发,研究人员开发了新型相关噪声听觉刺激,通过心理物理学实验、计算建模、功能磁共振成像(fMRI)和语音分析,首次揭示了人类能够利用声音强度在频率与时间维度上的局部相关性(包括正相关和负相关)来判别音高方向。对负相关的敏感性直接对应于视觉中的“逆斐”(reverse-phi)运动错觉,构成了一种新的听觉错觉。fMRI测量支持听觉皮层可能采用音高方向对抗处理的假说。对英语和汉语语音的分析表明,音高方向可由正、负相关性共同编码,这表明对两种相关性的敏感性具有生态学益处。该工作揭示了中枢神经系统如何在不同的模态(视觉与听觉)和维度(空间与频率)上部署对局部相关性敏感的运动检测算法。

  
从分辨语音到欣赏巴赫的《帕蒂塔》,检测音高随时间的变化是人类听觉的基础能力,使我们能够感知从低频到高频的声音变化,反之亦然。在日常交流中,我们既用语调(如英语中用句尾的升调表示疑问)也用声调(如汉语中声调变化可改变字义)来传递意义。但人类的听觉系统究竟是如何检测音高的变化的呢?
传统上,人们认为检测基频(F0)是感知音高变化的主要方式。然而,大量心理物理学证据表明,即便不计算基频,人类也能感知到音高的变化,例如通过检测声音中多个组成频率的偏移。这提示,声音中存在多种线索而非仅仅是基频,可以支持对音高变化的检测。那么,除了追踪持续的声音特征(“听觉物体”)之外,听觉系统是否还存在一种更底层、更快速的机制,专门用于检测音高运动的局部线索呢?
视觉科学为此提供了灵感。在视觉中,检测局部时空相关性是经典空间运动检测模型的基础。这些模型通过对时空强度进行线性滤波和非线性相互作用,产生对成对强度相关性的敏感性。视觉对强度相关性的敏感性可以通过“逆斐”(reverse-phi)等涉及负时空相关的错觉现象得到戏剧性的揭示。这表明,至少在视觉中,局部强度相关性是检测环境运动的重要线索。这些线索输入到局部运动检测器中,与那些通过长时间追踪视觉物体来检测运动的并行系统互为补充。至关重要的是,对逆斐现象中负相关的敏感性,从根本上与纯粹的基于物体或模式追踪的运动检测模型不相容。
受此启发,Vaziri等人开展了一项跨学科研究,旨在探究人类的听觉运动检测是否也采用了与视觉系统类似的、基于局部相关性计算的策略。他们核心的问题是:人类能否利用声音强度在频率和时间维度上的局部正负相关性,来检测音高的上升或下降运动?这种检测机制是否在神经层面有所体现?以及,这种能力在感知真实的语音等自然声音时是否具有生态学意义?
为了回答这些问题,研究人员综合运用了心理物理学实验、计算建模、功能磁共振成像(fMRI)以及对真实语音录音的分析。他们的研究发表在了《Nature Human Behaviour》期刊上。
主要技术方法概述
研究主要采用了四种关键技术:1. 心理物理学实验:通过精心设计的听觉刺激(包括相关噪声刺激和相关性“点对”刺激),让被试判断感知到的音高运动方向,以量化其对不同频谱-时间相关性的敏感性。2. 计算建模:构建了简化的运动能量模型单元,模拟对特定方向音高运动敏感的听觉处理单元,用于解释行为数据中观察到的对称性。3. 功能磁共振成像(fMRI):在5名被试中,通过呈现上升、下降音调及其叠加刺激,测量听觉皮层的血氧水平依赖(BOLD)信号,以寻找方向对抗性处理的神经证据。扫描在3T磁共振仪上进行,使用表面线圈,并进行了个体和组水平的统计分析。4. 语音信号分析:使用公开的英语(LibriSpeech)和汉语普通话(MagicData)语音语料库,通过计算声谱图、应用光流算法估计音调变化,并分析四种强度组合模式(高-高、低-低、高-低、低-高)的局部净信号与音调变化的相关性,以探究相关性线索在自然声音中的生态学意义。
研究结果
无特征的频谱运动
研究人员开发了新型相关噪声听觉刺激,这些刺激缺乏长程频谱特征和共同的基频,但包含特定的局部正或负频谱-时间相关性。心理物理学实验表明,参与者能够根据这些相关性判断音高方向。引人注目的是,对于负相关性刺激,参与者报告了相反的感知:向上定向的负相关性听起来音高在下降,而向下定向的负相关性听起来音高在上升。这构成了一个直接的听觉类比于视觉“逆斐”运动的错觉。进一步实验表明,这种感知与刺激中相关性的强度(相干性)呈单调关系,并且双耳呈现实验证明相关性检测可以整合双耳信息进行计算,这与视觉中相关性检测主要单眼进行不同。
人类频谱-时间相关性检测器的调谐特性
通过使用受视觉随机点运动图启发的“相关性点对”刺激,研究人员绘制了相关性检测在时间和频率维度上的调谐曲线。结果显示,无论是正相关还是负相关,对音高方向的敏感性峰值出现在大约40毫秒的延迟处。在频率维度上,峰值敏感性出现在1/15倍频程(频率变化约4.7%)的位移处。这些结果表明,听觉运动检测器对短时间尺度和小频率变化最为敏感。对稀疏相关性点对刺激的感知结果,难以用追踪“高-高”强度点对等启发式策略来解释,更直接地支持了频谱-时间相关性检测机制。
对频谱-时间强度模式的敏感性
为了探究人类是对所有四种成对强度组合(高-高、低-低、高-低、低-高)都敏感,还是仅对其中一部分敏感,研究人员设计了仅包含单一类型相关性点对的刺激。实验发现,参与者对所有四种组合都表现出显著的定向选择性感知,并且当相关性符号反转时,感知同样发生反转。此外,研究还发现人类对更高阶的(三阶)频谱-时间相关性也表现出敏感性,并能感知到相应的运动方向,其模式与在果蝇和斑马鱼视觉中观察到的相似。这揭示了听觉和视觉运动检测算法在处理相关结构方面的跨物种和跨模态相似性。
心理物理学和皮层证据支持频谱运动信号的对抗性减除
行为数据显示,负相关性刺激的感知调谐曲线与方向相反的正相关性刺激的感知曲线完全对称。这种对称性暗示了听觉系统中可能存在方向对抗性架构。一个简单的运动能量模型表明,当将调谐方向相反的两个单元的信号进行对抗性减除时,其输出会表现出这种对称性。为了在神经层面寻找证据,研究人员进行了fMRI实验。他们向参与者呈现上升音调、下降音调以及两者叠加的刺激。逻辑在于,如果一个脑区包含分别对上升和下降音调有选择性反应的神经元群体,并且这些群体是相互对抗的,那么该区域对叠加刺激的反应应低于对单独呈现的上升或下降刺激的反应。结果,在预先定义的听觉皮层掩膜内,发现了一个双侧脑区,其对非叠加刺激(上升或下降)的反应显著强于对叠加刺激的反应,这与对抗性处理的假设一致。此外,在该区域内,对上升和下降刺激的反应强度是对称的。
正负相关性频谱-时间线索在语音中编码声调调制
最后,研究从实验室走向真实世界,分析了英语和汉语普通话的语音录音,探究频谱-时间相关性是否能够帮助预测自然声音中上升和下降的频率。通过分析声谱图并计算局部净信号,他们发现,两种正相关性模式(高-高、低-低)的净信号与估计的音调变化呈强正相关,而两种负相关性模式(高-低、低-高)的净信号则与音调变化呈强负相关。这表明,所有四种强度组合模式都包含可用于估计语音中音调变化的信息。对负相关性刺激产生反向感知的生态学解释由此显现:负频谱-时间相关性为区分频率上升和下降的声音提供了有用的信息。
结论与讨论
本研究通过多学科方法,首次明确证明了人类能够利用频率和时间维度上的局部正负强度相关性来辨别音高的上升或下降运动。对负相关性的敏感性及其引发的“逆斐”式听觉错觉,为听觉系统存在基于局部相关性计算的音高运动检测机制提供了强有力的证据。这种行为学上观察到的正负相关性感知对称性,引导研究者提出了方向对抗性处理的假设,并在fMRI实验中发现了支持该假设的初步神经证据。对自然语音的分析则表明,这种对正负相关性均敏感的计算机制,能够有效地提取语音中蕴含音高变化方向的信息,因而具有生态学意义。
这项工作揭示了中枢神经系统在不同感觉模态(视觉与听觉)和不同维度(空间与频率)上,可能部署了相似的、对局部相关性敏感的运动检测算法。这支持了感知系统在解决不同领域类似问题时,会采用高效且保守的计算策略这一观点。该研究不仅增进了我们对听觉感知,特别是音高运动处理机制的理解,也将视觉运动检测的经典理论框架成功扩展到了听觉领域,为未来探索跨模态感知计算原理开辟了新的道路。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号