综述:通过表面肌电图实现无声语音识别与交互:综述
《Biocybernetics and Biomedical Engineering》:Silent speech recognition and interaction via surface electromyography: A review
【字体:
大
中
小
】
时间:2026年05月11日
来源:Biocybernetics and Biomedical Engineering 6.6
编辑推荐:
张雅坤|张新月|谢亮|张星宇|郑长彦|尹二伟
中国军事科学院国防创新研究所,北京100071
**摘要**
声学人机交互依然容易受到环境噪声的影响,在隐私敏感的环境中受到限制,且常常无法被语音产生能力受损的用户使用。无声语音接口(SSIs)通过从非声学生理或发音信号
张雅坤|张新月|谢亮|张星宇|郑长彦|尹二伟
中国军事科学院国防创新研究所,北京100071
**摘要**
声学人机交互依然容易受到环境噪声的影响,在隐私敏感的环境中受到限制,且常常无法被语音产生能力受损的用户使用。无声语音接口(SSIs)通过从非声学生理或发音信号解码交流意图来克服这些限制。在现有的SSI模式中,表面肌电图(sEMG)特别具有吸引力,因为它可以在不侵入的情况下获取与语音相关的神经肌肉活动,并且适用于可穿戴设备。本文从部署的角度出发,全面探讨了基于sEMG的SSIs,涵盖了生理基础、信号采集、特征表示、与语音相关的建模以及跨模态比较等方面。特别关注了从早期的概率识别系统到最近的神经方法(包括现代序列建模、生成性EMG到语音重建以及语言辅助的EMG到文本解码)的解码范式的演变。为了将sEMG置于更广泛的SSI框架中,通过一个结构化的部署导向框架,比较了具有代表性的竞争模式,包括无声操作能力、临床可行性、可穿戴性、经济可扩展性和实际可用性。审查的证据表明,sEMG的重要性并不在于其普遍优于其他SSI技术,而在于它在无声操作能力、生理相关性、非侵入性可穿戴性和可扩展部署路径方面的相对平衡。同时,仍存在传感器稳定性、校准负担、跨会话和跨受试者鲁棒性、基准真实性以及临床意义评估等主要挑战。本文认为,进一步的发展将依赖于可穿戴传感硬件的协同进步、共享的基准基础设施、鲁棒适应和生成建模、系统级集成以及闭环人机协同适应。
**引言**
随着自动语音识别技术的进步,基于语音的人机交互变得越来越普遍。然而,在嘈杂的环境、隐私敏感的环境以及语音产生能力受损的用户(如喉切除术患者)进行交流时,传统的声学接口仍然存在局限性。这些局限性激发了对无声语音接口(SSIs)的兴趣,这些接口旨在无需依赖可听的声音信号来实现交流。通过捕捉语音产生过程中产生的生物信号(从神经肌肉激活到发音器官的运动),SSIs在传统语音不可用、不可靠或不希望使用的情况下提供了一种替代的交流渠道[1]。
在现有的SSI模式中,表面肌电图(sEMG)尤为显著,因为它在生理相关性和可部署性之间提供了实际可行的折中方案。与通常需要笨重仪器的成像技术以及难以大规模应用的侵入性神经接口相比,sEMG可以在不侵入的情况下获取与语音相关的神经肌肉活动,同时保持高时间分辨率和明确的可穿戴潜力。最近的代表性研究以及早期的端到端进展将基于sEMG的SSIs从孤立词识别推进到了句子级解码、少通道EMG到语音转换、多模态EEG-EMG融合、低功耗和基于纺织物的可穿戴实现以及语言辅助的后处理[2]、[3]、[4]、[5]、[6]、[7]、[8]。同时,最近的工作还探索了基于Transformer的序列建模、生成性重建和大型模型辅助的校正,以提高在更具挑战性的解码条件下的性能并扩展无声交流的范围[2]、[9]、[10]。总的来说,这些发展表明,sEMG不再仅仅是SSI中的传统生物信号模式,而是一个快速发展的平台,连接了可穿戴传感、序列建模、语音重建和语言级推理。
近年来,更广泛的SSI文献也大幅扩展。基础性的综述明确了语音产生的生理基础和无声语音研究的主要生物信号采集途径[1],而后来的工作总结了口腔佩戴式接口和早期基于深度学习的系统[11]。更最近的综述和观点式综述进一步拓宽了这一领域,涵盖了语音神经假体[12]、面向机器学习的无声语音数据方法与框架[13]、跨SSI模式的传感比较[14],以及大型语言模型在SSI系统设计中的日益重要作用[15]。这些研究表明,SSI研究在范围和技术方向上变得越来越多样化。
同时,这一更广泛的文献也清楚地表明,仍需要一篇专注于sEMG的专门综述。专注于语音神经假体的综述必然强调皮层解码、侵入性访问和在严重瘫痪情况下的交流恢复[12]。无论是围绕传感分类法、机器学习流程还是基于LLM的系统视角组织的更广泛的SSI综述,都提供了有价值的领域覆盖,但不可避免地将注意力分散到多种模式上[13]、[14]、[15]。较少充分开发的是一种综合视角,它不仅仅将sEMG视为SSI中的一个模式,而是将其视为一个技术流程,其实际价值取决于生理相关性、可穿戴性、传感稳定性、校准负担和部署可行性之间的平衡。这种视角很重要,因为sEMG在语音产生层次结构中占据了独特的中间位置。它比依赖已执行发音的视觉或运动方法更接近运动源,但避免了植入式神经接口的侵入性和有限的可访问性。从这个意义上说,sEMG的重要性不在于其普遍优于所有其他SSI模式,而在于它清晰地揭示了塑造实际无声语音系统的核心权衡:信号相关性 versus 用户舒适度、时间即时性与传感稳定性、解码性能 versus 可重复的日常使用。这些特性使得sEMG特别适合进行专门的、面向部署的综述。
尽管相关文献不断增多,但仍存在几个重要的空白。首先,许多现有综述要么早于最近的方法论转变(基于Transformer的解码、生成性合成和语言辅助校正),要么仅简要提及这些转变。即使是最近的综述也倾向于强调模式覆盖、高层次的分类或一般的机器学习趋势,而不是那些强烈影响sEMG系统在严格控制的实验室条件之外性能的技术权衡[13]、[14]、[15]。其次,跨模式的广泛调查往往更注重覆盖范围而非深度,这限制了对sEMG系统特别关键问题的详细讨论,包括电极和接口设计、跨会话变异性、可穿戴部署以及信号质量与实际可用性之间的权衡。第三,尽管SSI文献中经常进行模式比较,但面向部署的评估通常以定性方式呈现,判断技术实际准备情况的明确比较标准仍然有限。此外,可穿戴接口的最新进展、新兴的共享数据集和评估资源、跨受试者适应以及语言辅助解码使得重新评估sEMG文献变得及时且更具集成性和面向部署性。
为了解决这些空白,本文专门对基于sEMG的SSIs进行了综述。我们不是将其视为广泛调查中的众多模式之一,而是将其作为一个完整的技术流程来研究,涵盖了生理基础、传感接口、特征表示、建模策略和实际部署约束。我们的目标不仅仅是重新陈述一般的SSI格局,而是要阐明为什么在考虑到生理接近性、用户舒适度、硬件复杂性、校准负担、跨会话变异性和部署准备情况时,sEMG仍然是通往无声语音识别和交互的相对平衡的路径。更具体地说,我们认为sEMG的实际潜力不仅取决于解码精度,还取决于如何将采集稳定性、数据集设计、适应策略和系统集成作为一个耦合问题来处理,而不是分开的阶段。
**本文的主要贡献如下:**
1. 我们提供了基于sEMG的SSI的特定模式、全流程综述,将生理信号生成、传感硬件、特征表示以及下游识别或合成模型联系在一个统一的技术框架内。
2. 我们通过一个面向部署的比较框架将sEMG置于更广泛的SSI框架中,考虑了无声操作能力、临床可行性、可穿戴性、校准负担、经济可扩展性和实际可行性。
3. 我们确定了继续限制基于sEMG的SSI实际部署的主要未解决瓶颈,包括传感不稳定性、跨会话和跨受试者变异性、当前评估设置中的有限真实性,以及生成性和语言辅助建模带来的机会和风险。
本文的其余部分组织如下:第2节介绍了SSI模式的分类,并概述了该领域的方法论演变,主要是为了明确sEMG在更广泛的语音产生层次结构中的位置。第3节讨论了sEMG数据采集,第4节讨论了特征表示,第5节回顾了与语音相关的模型和任务,第6节从面向部署的角度将sEMG与其他SSI模式进行了比较。第7节讨论了关键挑战和新兴方向,第8节总结了本文。
**语音产生的生理基础**
语音产生是一种复杂的运动行为,由三个生理子系统的协调交互控制:呼吸系统、喉部和喉上发音系统[1]。根据经典的源-滤波器理论,呼吸系统产生的气流激发声带产生声源,然后通过发音器官(包括舌头、嘴唇、下颌和软腭)将其塑造成可理解的语音。重要的是,这种...
**EMG数据采集**
数据采集形成了语音生理与计算解码之间的物理接口,因此对基于sEMG的无声语音接口的性能设置了实际的上限。由于sEMG在中间神经肌肉层工作,而不是在纯粹的机械或纯粹的神经层面,采集质量强烈限制了下游模型可以实际恢复的内容。在这些系统中,记录的信号并不是语言内容的直接读出...
**EMG特征提取**
将原始神经肌肉信号转换为机器可用的表示是基于sEMG的无声语音接口中的核心步骤。与声学语音不同,sEMG信号是随机的、带限的,并受到电极-皮肤界面条件、运动伪影和生理变异性的强烈影响。因此,特征提取不仅仅是预处理步骤,而是一个表示设计问题:目标是在减少...
**与语音相关的模型和任务**
一旦sEMG信号被转换为可用表示,接下来的问题是如何为下游与语音相关的任务对这些表示进行建模。在当前的文献中,基于sEMG的SSI系统主要开发用于两个目标:EMG到文本识别(预测音素、单词或句子等离散语言单位)和EMG到语音合成(从神经肌肉活动重建连续的声学输出)。尽管这两个任务都...
**SSI技术的比较**
前面的章节重点关注了基于sEMG的无声语音接口中的信号采集、表示和计算建模。然而,仅靠强大的解码性能并不能决定一项技术是否适合实际部署。在现实世界的SSI应用中,传感模式必须不仅根据识别或合成精度来评判,还根据其便携性、舒适度、校准负担、隐私特性以及适合临床或日常使用的程度来评判。
**挑战和未来方向**
尽管在生成建模、传感硬件和评估方法方面取得了实质性进展,但SSIs从实验室原型向实际辅助技术的过渡仍然困难。语音交流本质上是依赖于紧密耦合的神经肌肉控制、感官反馈和连续适应的。尽管许多研究在健康参与者在受控条件下报告了有希望的结果,但尚不清楚这些结果是否...
**结论**
本文从部署的角度出发,全面回顾了基于表面肌电图的无声语音接口,涵盖了生理基础、信号采集、特征表示、与语音相关的建模以及跨模态比较。总的来说,所回顾的证据表明,sEMG的重要性并不在于其普遍优于其他SSI技术,而在于其在无声操作能力、生理相关性、可穿戴性、非侵入性可穿戴性和可扩展部署路径方面的相对平衡...
**作者贡献声明**
张雅坤:监督、项目管理、形式分析。张新月:写作——审稿与编辑、初稿撰写、可视化。谢亮:监督、资金获取。张星宇:监督。郑长彦:监督。尹二伟:资金获取。
**利益冲突声明**
作者声明他们没有已知的竞争财务利益或可能影响本文工作的个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号