《Nature Neuroscience》:Real-time brain-controlled selective hearing enhances speech perception in multi-talker environments
编辑推荐:
在多说话人环境中理解言语对许多人而言具有挑战性,当前的助听器常因放大所有声音而非目标说话人而失效。听觉注意力解码(AAD)通过利用听者的脑信号识别并增强被注意的说话人提供了潜在解决方案,但其能否提供实时感知获益此前尚不清楚。在此,研究人员利用接受神经外科手术的
在多说话人环境中理解言语对许多人而言具有挑战性,当前的助听器常因放大所有声音而非目标说话人而失效。听觉注意力解码(AAD)通过利用听者的脑信号识别并增强被注意的说话人提供了潜在解决方案,但其能否提供实时感知获益此前尚不清楚。在此,研究人员利用接受神经外科手术的患者的颅内脑电图(iEEG)实施了一种闭环系统,实现了动态放大被注意说话人所需的足够解码保真度。多项实验表明,该系统改善了言语可懂度,降低了听力努力程度,并持续获得受试者偏好,还能追踪指令性及自发性的注意力转移。通过提供实时脑控听觉系统可增强感知的直接证据,这项工作确立了未来听觉脑机接口(BCI)的关键性能基准,并将AAD从理论概念推进至个性化辅助听觉的验证解决方案。
研究人员针对2026年5月13日发表于《Nature Neuroscience》的论文进行了深入解读。该研究聚焦于嘈杂环境中言语理解的难题,旨在通过脑机接口技术突破传统助听器的局限。
研究背景指出,在鸡尾酒会等拥挤环境中理解言语是听觉神经科学与听力技术面临的重大挑战。现有助听器无法推断用户意图,往往 indiscriminately 放大所有声音,导致真实场景下性能下降,进而引发用户采纳率低与社会隔离。听觉注意力解码(AAD)作为一种脑机接口(BCI)方法,虽能通过神经信号解码听者注意力焦点以实现选择性增强,但过去十年数百项研究集中于提升解码精度,仅有少数尝试实时解码与闭环控制,且始终未能回答核心问题:实时脑控听觉系统是否真正有助于改善听力。这一感知验证的缺失反映了系统在速度、稳定性与精度上需达到高性能阈值的深层挑战。
为解决这一长期空白,研究人员采用高分辨率颅内脑电图(iEEG)建立了金标准基准。他们开发了一种闭环AAD系统,可在实时动态放大被注意说话人。研究通过三名实验评估其性能:一是测试中系统在中途激活时的感知获益;二是测量对指令性注意力转换的响应;三是评估追踪自然自发性注意力转移的能力。该系统显著改善了言语可懂度,降低了听力努力,并被一致偏好。通过提供首个行为获益的确凿证据,本研究将脑控听觉从理论前景推向验证技术,确立了关键性能与可行性基准,证实了听觉BCI的根本潜力,为下一代辅助与增强听觉技术奠定基础。
关键技术方法方面,研究纳入四名接受癫痫监测的iEEG患者及40名听力损失参与者。利用iEEG记录覆盖颞上回及周围听觉皮层的神经活动,采用线性刺激重构模型从低频(1-30 Hz)和高频伽马(70-150 Hz)神经特征中重建言语包络。系统基于皮尔逊相关比较重建包络与实际言语流,通过五态马尔可夫模型平滑增益转换,实现动态±9 dB的目标掩蔽比(TMR)调节。实验设计涵盖离线训练与在线闭环测试,包括强制选择、指令切换及自发切换三种范式,并结合瞳孔测量法评估听力努力。
研究结果具体如下:
实验1:实时AAD提供显著多维感知获益。研究人员通过中途激活系统的范式发现,系统解码精度显著高于随机水平,平均TMR提升达+12 dB。广义线性混合效应模型显示受试者强烈偏好“系统开启”条件,客观问答反应证实可懂度提升,且两名受试者的瞳孔直径显著减小,表明认知负荷降低。回归分析进一步揭示,受试者自身注意力参与度与AAD精度正相关,且单试次解码精度可预测主观偏好。
实验2:系统追踪指令性注意力转换。在视觉提示下要求受试者中途切换注意力,系统成功追踪到神经追踪的明确反转,平均转换时间为5.1秒。行为数据呈现清晰的“X”型交互模式,证实受试者能有效执行指令性注意力转移,系统增益随之动态调整。
实验3:系统追踪自发性注意力转换。在无外部提示下,受试者自由切换注意力,系统成功解码内源性注意力变化,实时调整TMR。反向增益对照实验显示,错误放大非注意说话人导致听力体验显著恶化,验证了正确解码的必要性。
听力损失人群评估显示,40名听力受损者听取由正常听力iEEG受试者神经信号驱动的系统输出音频后,表现出比正常听力组更强的主观偏好与客观可懂度提升,支持了该技术对临床人群的转化潜力。
讨论部分强调,本研究确立了脑控听觉的基准,证明高分辨率iEEG可提供建立性能上限所需的信噪比,为未来微创系统提供参考。尽管iEEG并非广泛应用的即时方案,但其作为科学必要手段回答了核心问题。同时,研究证实AAD在听力损失人群中具有可行性,且解码性能在使用算法分离声源时保持稳定,支持在复杂声学环境中部署。此外,研究比较了线性与非线性解码策略,指出简单线性模型在计算效率与闭环稳定性上的优势,并探讨了系统延迟与稳定性的权衡。最终,研究论证了神经解码相较于眼动、头部朝向等外部线索的优越性,因其具有隐蔽性、连续性及对高阶听觉目标的捕捉能力,为下一代意图驱动的辅助听力技术提供了原则性框架。