利用眨眼信息来提高基于脑电图的听觉注意力解码能力

《Biomedical Signal Processing and Control》：Utilizing eyeblink information to improve EEG-based auditory attention decoding

【字体：大中小】 时间：2026年05月10日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

北京大学智能科学与技术学院言语与听觉研究中心，中国北京100871

摘要

在基于脑电图（EEG）的听觉注意力解码（AAD）中，通常会在预处理阶段去除与眨眼相关的EEG信号，因为它们被视为噪声。然而，先前的认知神经科学研究表明，眨眼与受关注言语中的语言边界是时间同步的。受这一发现的启发，本文提出眨眼序列可以作为AAD的一个新的生物标志物。我们分析了16名正常听力（NH）和19名听力受损（HI）听众在仅音频（AO）和视听（AV）刺激条件下，受关注言语和未受关注言语暂停期间的眨眼频率（REP）。结果发现，在两种刺激条件和所有听众组中，受关注言语的REP显著高于未受关注言语的REP。此外，仅使用REP来区分受关注言语和未受关注言语时，HI听众在AV条件下的解码准确率达到了83.4%。基于这些结果，我们提出了一个深度神经网络（DNN）框架，该框架可以使用仅眨眼序列（ES）、仅EEG或结合ES和EEG的多模态输入进行AAD。对于HI听众，在5秒和10秒的解码窗口内，结合ES和EEG的多模态输入的DNN显著优于仅使用ES或仅使用EEG的输入。这些发现证实了眨眼信息可以作为HI听众AAD的有效生物标志物。这些发现还表明，多模态整合有可能在实际应用中提高AAD的性能，例如在认知控制的助听器中。

引言

正常听力（NH）的听众在复杂的听觉环境中具有选择性关注目标言语的卓越能力，例如在经典的“鸡尾酒会”场景中，能够在竞争声音中精确聚焦[1]。相比之下，即使使用助听器（HA），听力受损（HI）的听众在这些环境中的言语感知也存在显著挑战[2]。造成这些困难的一个关键因素是目前助听器的技术局限性，它们无法有效识别出受关注的言语流。

在听觉选择性注意力处理中，听众对受关注言语的神经反应比未受关注言语的神经反应具有更强的时间调制[3]。基于这一神经生理学发现，研究人员开发了通过非侵入性神经记录（如脑磁图（MEG）[4]和脑电图（EEG）[5] [6]）来识别受关注言语的方法。这些方法旨在从神经反应中重建言语轮廓。该框架通过量化解码器重建的言语轮廓与原始言语轮廓（受关注 vs 未受关注）之间的相关性来运作，统计上更强的相关性表明了听众关注的是哪种言语[4] [6]，这被称为听觉注意力解码（AAD）。尽管使用深度神经网络（DNN）的AAD方法在一些公开的EEG数据集上显示出了高的解码性能[7] [8]，但在实际应用中它们仍面临重大挑战。开发有效可靠的AAD技术仍然是一个复杂且持续的挑战。

在复杂的听觉环境中，听众会持续处理多模态刺激（例如听觉、视觉），同时产生多模态反应，如神经生理活动（例如皮质振荡）和行为模式（例如眨眼、眼跳和视觉固定）。当前的AAD方法仅依赖于单模态神经数据，忽视了行为反应的潜在用途[5] [6]。相比之下，在相关的脑机接口（BCI）领域，行为反应系统地被整合为区分性生物标志物，并取得了显著进展。例如，神经和行为信号的多模态融合在情绪识别[9]、疲劳检测[10]和睡眠阶段划分[11]中已被证明是有效的。显然，利用多模态信息来增强AAD将是一个潜在的有效解决方案；然而，关于如何选择和利用这些额外信息的研究仍然非常有限。

值得注意的是，眼动行为在言语感知中作为注意力生物标志物表现出特别的潜力。眨眼与语言结构一致[12]，并且在叙事理解过程中与言语的停顿同步[13]。Holtze等人[14]发现，眨眼与受关注言语中的停顿开始时间是对齐的。因此，可以假设在受关注言语的停顿期间发生眨眼的可能性高于未受关注言语的停顿期间；换句话说，眨眼的时间模式与受关注言语流的停顿序列更紧密地对齐。此外，可以使用表示眨眼和言语之间一致性的特征来进行AAD。这一假设在图1中得到了展示。

在这项研究中，我们提出了一种度量标准——暂停期间的眨眼频率（REP），用以衡量眨眼序列（ES）和言语停顿序列（SPS）之间的一致性。我们在两个现有的EEG-AAD数据集上分析了这一度量标准，以评估其区分受关注言语和未受关注言语的能力，以及听众群体（NH vs HI）和刺激条件（仅音频 vs 视听言语）对这种区分的影响。在此基础上，我们介绍了一种基于REP的AAD方法，以及一种结合了眨眼信息和EEG信号的DNN解码方法。

本工作的主要贡献可以总结如下：

1)
与常见的EEG处理实践不同，我们提取VEOG中的ES和言语中的SPS，并提出REP来衡量ES和SPS之间的一致性。我们的结果显示，在仅音频（AO）和视听（AV）刺激条件下，NH和HI听众的受关注言语的REP显著高于未受关注言语的REP，这表明VEOG可能适用于AAD。
2)
当使用REP作为统计特征构建非数据驱动的解码器时，暴露于AV言语的HI听众的AAD准确率达到了83.4%。这表明当听众依赖多模态（音频和视觉）信息来处理听觉注意力时，REP是一个稳健的特征。
3)
当从VEOG中提取的ES与EEG结合作为DNN解码模型的输入时，HI听众在AO和AV条件下的AAD准确率显著提高。这表明眨眼信息在提高AAD性能方面具有互补作用。

节选

使用VEOG的单次试验听觉注意力解码

在本节中，我们介绍了REP这一度量标准，用以衡量ES和SPS之间的一致性。使用REP的分析显示，在AO和AV刺激条件下，NH和HI听众的受关注言语的REP显著高于未受关注言语的REP。此外，我们提出了一个非数据驱动的解码框架，该框架仅使用REP作为统计特征，解码结果表明REP可以有效地用于单次试验的AAD。

通过EEG和VEOG整合进行听觉注意力解码

尽管使用基于REP的AAD方法在AO和AV条件下为HI听众实现了65.0%和83.4%的解码准确率（解码窗口为60秒），但在较短的解码窗口下，解码准确率显著下降。其他BCI领域的研究人员发现，神经和行为信号的多模态融合在情绪识别[9]、疲劳检测[10]和睡眠阶段划分[11]中已被证明是有效的。在本节中，我们输入了候选言语的轮廓，

言语处理中的眨眼

眨眼通常每隔几秒发生一次[39]，会引起短暂的视觉中断（100–400毫秒）[31] [40] [41] [42]。已经确定了三种类型的眨眼：自发的（无意识的）、自愿的（有意识的）和反射性的（由刺激引发的）[25] [26] [27] [28] [29] [30] [31]。值得注意的是，在认知要求较高的任务中（例如在鸡尾酒会场景中的受关注言语识别）发生眨眼已被证明携带注意力信息，这表明

结论

虽然眼动行为在一些脑机接口（BCI）范式中显示出增强的解码效果，并与听觉选择性注意力相关，但使用眨眼信息进行AAD的潜力仍然很大程度上未被探索。本研究系统地调查了暂停期间的眨眼频率（REP），以评估言语停顿序列和眨眼序列之间的一致性。

CRediT作者贡献声明

Xiran Xu：写作——审阅与编辑，撰写初稿，验证，方法学，调查，形式分析，概念化。Boda Xiao：写作——审阅与编辑，撰写初稿，验证，方法学，调查，形式分析。Bo Wang：写作——审阅与编辑，验证，方法学，调查，概念化。Yujie Yan：写作——审阅与编辑，方法学，调查。Xihong Wu：监督，资源。Heping Cheng：监督，项目

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了脑科学和类脑智能技术国家科学技术重大项目（项目编号2021ZD0201500）、北京大学的高性能计算平台以及北京大学生物医学影像中心的生物医学计算平台的支持。

摘要

引言

节选

使用VEOG的单次试验听觉注意力解码

通过EEG和VEOG整合进行听觉注意力解码

言语处理中的眨眼

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行