听觉选择性注意对由语音衍生刺激诱发的人类畸变产物耳声发射的调制作用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月03日 来源：Frontiers in Neuroscience 3.2

编辑推荐：

　　本研究创新性地利用基于自然语音谐波构建的刺激信号，在“鸡尾酒会”场景下实时记录并分析了“类语音畸变产物耳声发射（Speech-like DPOAE）”，首次发现听觉皮层下行反馈可对耳蜗活性过程进行频率特异性调节。结果表明，当注意力聚焦于某一说话人时，其语音中“可解析谐波”对应的耳声发射振幅会显著降低，而对“不可解析谐波”则无此效应，这为理解选择性注意在听觉场景分析中，耳蜗水平的最早期贡献提供了直接生理证据，并为探索自然情境下的听觉处理开辟了新途径。

2 材料与方法

2.1 实验设计

实验采用单说话人和竞争说话人两种范式。在竞争说话人场景中，一段由女声（平均基频f₀^(w)= 195 ± 40 Hz）和一段由男声（平均基频f₀^(m)= 90 ± 20 Hz）朗读的有声书叠加后，呈现给参与者的右耳。参与者被要求将注意力集中于女声（Att. F）、男声（Att. M）或一个视觉文本（Att. V）。同时，从参与者的左耳（对侧耳）诱发并记录“类语音畸变产物耳声发射”。

刺激信号源自语音信号中的谐波。为了同时测量四种不同的类语音DPOAE，研究者设计了四对刺激波形：F_res（基于女声的第7、9次可解析谐波）、F_unres（基于女声的第15、18次不可解析谐波）、M_res（基于男声的第6、8次可解析谐波）以及M_unres（基于男声的第15、18次不可解析谐波）。所有刺激对中较低谐波（n）的波形被合成为W⁽¹⁾(t)，较高谐波（m）的波形被合成为W⁽²⁾(t)，并通过两个独立的扬声器播放到耳道中，平均声压级为37 dB SPL，以避免诱发中耳肌反射。

2.2 参与者

共40名参与者（21名女性，19名男性），年龄18-31岁，均为右利手、母语为德语、无神经或听力损伤。其中2名因理解分数低于几率水平或录音故障被排除，最终38名参与者的数据被纳入分析。

2.7 实验流程

每次试次（trial）持续约2分钟，随后参与者回答3个理解问题，并在13点Likert量表上评价感知到的脑力劳动强度（mental effort），以确保任务投入度。实验包含单说话人测量和竞争说话人测量。在竞争说话人场景的主要部分，参与者在三种注意力条件（Att. F, Att. M, Att. V）下完成试次，同时记录四种类语音DPOAE。

2.8 类语音DPOAE分析

类语音DPOAE通过将预期的失真产物波形w_2n-m(t)与麦克风录音进行复互相关（complex cross-correlation）来测量，并取互相关包络的绝对值。通过检查在特定延迟窗口（1 ± 3 ms）内，互相关包络的峰值是否超过噪声水平的97百分位数，来判断单个试次中是否存在显著的类语音DPOAE。为比较不同注意力条件下的DPOAE，提取了每个试次在总平均峰值延迟处的互相关包络值（即振幅）进行分析。

3 结果

3.1 理解分数与脑力劳动强度

在单说话人和竞争说话人条件下，所有注意力条件下的理解分数都很高（91%-97%），且无显著差异。在竞争说话人条件下，感知到的脑力劳动强度存在显著差异：关注视觉任务（Att. V）时强度最低（5.7 ± 2.2），关注男声（Att. M）时强度最高（7.3 ± 1.7），关注女声（Att. F）时居中（6.5 ± 1.8）。

3.2 类语音DPOAE的测量

在单说话人场景下，刺激F_res、F_unres、M_unres在超过85%的试次中都能引发显著的类语音DPOAE，而刺激M_res的表现显著较差，仅在约35%的试次中可测。在竞争说话人场景下，M_res的表现依然很差（约12%试次可测），因此后续分析将其排除。

3.3 类语音DPOAE的注意力调制

注意力对类语音DPOAE振幅产生了特异性调制，但对峰值延迟无影响。

•
对于F_res刺激（女声可解析谐波）：当注意力集中于女声（Att. F）时，其DPOAE振幅显著低于注意力集中于男声（Att. M）时（p = 0.0003，振幅比0.8，即-2.2 dB），也显著低于关注视觉任务时（Att. V）（p = 0.0003，振幅比0.7，即-2.6 dB）。而Att. M与Att. V条件之间无显著差异。
•
对于F_unres刺激（女声不可解析谐波）：DPOAE振幅在三种注意力条件下均无显著差异。
•
对于M_unres刺激（男声不可解析谐波）：DPOAE振幅在三种注意力条件下均存在显著差异。当注意力集中于男声（Att. M）时，振幅最高；当注意力集中于女声（Att. F）时，振幅最低（与Att. M相比，p = 7×10^-7，振幅比1.5，即+3.8 dB）；关注视觉任务（Att. V）时振幅居中。

4 讨论

本研究成功开发了可同时测量多种源自语音谐波的类语音DPOAE的方法。核心发现是，选择性听觉注意力能特异性调制与目标语音中“可解析谐波”相关的耳蜗活性，而对“不可解析谐波”则无此效应。当注意力聚焦于某个说话人时，其可解析谐波对应的DPOAE振幅降低，这与通过内侧橄榄耳蜗（MOC）系统抑制耳蜗放大器增益，从而在耳蜗水平早期增强目标信号、抑制背景噪音的假说一致。然而，男声可解析谐波（M_res）的DPOAE信号微弱且不稳定，限制了对其注意力调制的分析，这可能与其较低的频率（约350 Hz）以及耳蜗在该频段的调谐特性有关。

对于男声不可解析谐波（M_unres）表现出的、与女声可解析谐波（F_res）相反的注意力调制模式（注意时振幅增强），一个可能的解释是频谱重叠带来的混淆。M_unres的频段（~1.05 kHz）与F_res的频段（~0.97 kHz）部分重叠。当注意女声时，可能通过MOC系统抑制了其可解析谐波（F_res）所在频段（包括重叠部分）的耳蜗增益，这同时抑制了落在该频段内的M_unresDPOAE，导致在Att. F条件下M_unres振幅最低。反之，当注意男声时，该抑制解除，M_unres振幅相对升高。

总之，本研究证实了耳蜗主动过程在噪音中语音选择性注意的早期阶段即发挥作用，支持了“认知过程可通过皮层-耳蜗下行通路在感觉外周塑造知觉”的观点。所开发的类语音DPOAE技术为在自然场景下研究听觉分析提供了新工具。

联系信箱：

粤ICP备09063491号

热点排行