《Nature Communications》:Wearable intelligent throat enables natural speech in stroke patients with dysarthria
编辑推荐:
本研究针对脑卒中后构音障碍患者沟通困难这一临床难题,开发了一种集成喉部肌肉振动、颈动脉搏动信号传感与大语言模型(LLM)处理的AI驱动智能喉部(IT)系统。该系统通过超灵敏纺织应变传感器捕获高质量信号,采用词元级处理实现实时连续语音解码,并结合LLM代理智能纠错及增强语句情感逻辑连贯性。在5名患者测试中,系统词错误率(WER)低至4.2%,句错误率(SER)2.9%,用户满意度提升55%,为构音障碍患者提供了便携直观的沟通平台,在神经疾病康复领域具有重要应用价值。
对于因脑卒中、肌萎缩侧索硬化症(ALS)和帕金森病等神经系统疾病导致构音障碍的患者而言,丧失流畅沟通能力不仅严重影响生活质量,更会阻碍康复进程并引发心理问题。虽然增强与替代沟通(AAC)技术(如头眼追踪拼写系统、脑机接口(BCI)神经假体)已有发展,但前者通信速度缓慢,后者依赖侵入式复杂神经信号记录,对于保留部分喉部或面部肌肉控制能力的患者,亟需更直观便携的解决方案。
可穿戴无声语音设备通过捕获皮肤振动或电生理信号,展现出非侵入性、舒适性和便携性优势。然而,现有系统面临三大瓶颈:首先,验证多集中于健康受试者,患者可及性与适应性研究不足;其次,基于固定时间窗口(1-3秒)的离散词语解码模式,迫使患者在单词间停顿等待,破坏表达自然节奏;第三,依赖无声发音输入与文本输出的1:1映射,对易疲劳患者而言,长句表达会带来巨大身心负担。
为突破这些局限,剑桥大学与北京航空航天大学联合团队在《Nature Communications》发表最新研究成果,开发出AI驱动的智能喉部(IT)系统。该系统通过超灵敏纺织应变传感器捕获喉部肌肉振动和颈动脉搏动信号,结合LLM处理,实现流畅且富有情感的表达沟通。其创新性在于:采用144毫秒词元级信号分割策略,支持实时连续语音解码;通过知识蒸馏将计算延迟降低76%;引入LLM代理(词元合成代理TSA与语句扩展代理SEA)智能纠错并融合情感状态与环境背景信息,生成个性化连贯语句。
关键技术方法包括:1)基于石墨烯墨水印刷技术的纺织应变传感器制备,具备高灵敏度(GF>100)与机械耐久性;2)定制无线PCB板实现双通道信号(语音/脉搏)同步采集与低功耗蓝牙传输;3)使用1D-CNN模型进行词元解码,结合显式上下文增强策略(N=15词元)提升准确性;4)通过5秒窗长离散傅里叶变换(DFT)分析脉搏信号,实现中性、缓解、沮丧三类情感状态识别(准确率83.2%);5)集成GPT-4o-mini的TSA与SEA代理,分别负责词元合成纠错与语句智能扩展。
智能喉部系统架构
IT系统由硬件(嵌入纺织应变传感器的智能项圈与无线PCB)和软件(机器学习模型与LLM代理)构成。用户无声表达产生的信号被词元解码网络解析后,由TSA合成为初始语句;同步采集的脉搏信号经情感解码网络分析情绪状态;SEA结合情感标签与客观背景信息(如时间、天气),将基础语句扩展为情感丰富、逻辑连贯的完整表达。
硬件设计与信号采集
智能项圈采用弹性针织纺织品基底,前端与侧颈部分别设置两个通道,监测喉部肌肉与颈动脉搏动信号。石墨烯传感层沿纺织品晶格应力集中区域形成有序裂纹结构,可检测0.1%的微应变。聚氨酯丙烯酸酯(PUA)应变隔离层有效抑制通道间串扰,使传感器在1-10赫兹拉伸频率下保持高线性度(GF>100)。定制PCB集成低功耗蓝牙模块,总功耗76.5毫瓦,配备1800毫瓦时电池支持全天连续使用。
词元级语音解码
与传统固定时间窗口方法不同,本研究采用144毫秒词元分割策略,实现连续实时表达。通过显式上下文增强(每个样本含15个连续词元),结合1D-CNN模型,在保证计算效率的同时提升解码准确性。采用迁移学习框架,模型先在10名健康受试者数据上预训练,再经5名患者少量样本(每词25次重复)微调,词元分类准确率达92.2%。通过响应式知识蒸馏,将1D ResNet-101教师模型知识迁移至1D ResNet-18学生模型,计算量减少75.6%而精度仅下降0.9%。对五对视觉相似词对(如sheep/ship)测试显示,平均单词准确率达96.3%,混淆率低于8%。
情感状态解码
基于自主神经活动调节R-R间期(RRI)的生理机制,系统从5秒脉搏信号窗中解码情感状态。DFT频率特征分析显示三类情感在0-2赫兹频段具有显著差异。采用1D-CNN分类器结合DFT预处理,情感识别准确率达83.2%。为抑制无声发音振动对脉搏信号的串扰,PUA隔离层将信干比提升20分贝以上,确保信号纯净度。
LLM代理的语句合成与智能扩展
TSA通过上下文一致性聚合与多数投票机制,纠正词元解码错误(如空白词元与相邻词混淆),将词元序列合成为准确单词与句子。SEA则融合情感标签与客观信息,将简短表达扩展为完整语句。经提示工程优化(最佳提示长度400词、包含示例与约束条件),TSA实现WER 4.2%与SER 2.9%;SEA使患者满意度提升55%,核心意义指标保持稳定。
该研究确立了IT系统在构音障碍患者沟通康复中的有效性,其词元级解码架构与LLM智能代理框架为可穿戴无声语音系统设立了新标准。未来工作将扩展患者队列多样性、引入多模态情感解码、采用柔性PCB设计减轻重量,并通过边缘计算实现低延迟独立运行。该系统不仅提升沟通效率,更有助于降低患者社交隔离感,支持康复治疗师进行个性化调整,为神经疾病患者重建独立性与生活质量提供全面工具。