面向情感语音识别的无线无电池人工喉贴片与深度学习系统

《Advanced Science》:A Wireless, Battery-Free Artificial Throat Patch with Deep Learning for Emotional Speech Recognition

【字体: 时间:2026年01月29日 来源:Advanced Science 14.1

编辑推荐:

  本文报道了一种集成深度学习算法的无线无电池人工喉贴片系统(ATPS),该系统通过碳纳米管(CNT)薄膜应变传感器采集喉部信号,并利用近场通信(NFC)技术实现信号传输与供电。研究创新性地采用混合深度学习架构(CNN-LSTM-Transformer)同时实现语音文本(准确率84.71%)与六类情感状态(准确率90.20%)的双重识别,为发声障碍患者提供了兼具高灵敏度(应变范围0-5%,响应时间30±1.5 ms)与穿戴舒适性(重量0.8 g)的情感化语音重建方案。

  
引言:情感与语言是人类社交的核心要素,发声障碍患者常面临生理与心理双重负担。现有语音识别技术多局限于文本重建,且存在系统笨重、有线连接及缺乏情感识别能力等问题。本研究旨在开发一种无线无电池人工喉贴片系统,通过深度融合柔性传感技术与人工智能算法,实现发声障碍患者的情感化语音交流。
系统设计:人工喉贴片系统(ATPS)由三模块构成:传感模块采用碳纳米管-聚二甲基硅氧烷(CNT-PDMS)复合薄膜与乙基纤维素(EC)/多壁碳纳米管(MWCNTs)夹层结构,通过微柱阵列设计(高度≈80 μm)提升对微弱喉部振动的灵敏度;柔性印刷电路板(FPCB)集成NFC天线(13.56 MHz)与低功耗芯片(STM32L051),实现信号采集、压缩与无线传输;智能手机端部署混合深度学习模型完成信号解码与语音合成。该系统总重仅0.8 g,厚度约200 μm,可舒适贴附于喉部。
传感器性能表征:通过有限元分析优化微结构设计,发现截锥形微柱在50 mN载荷下疲劳寿命最优。电学测试表明,5 wt.% MWCNTs掺杂的PDMS薄膜拉伸强度提升至1.65 MPa,应变传感系数(Gauge Factor)达1.496。传感器在90 dB声压刺激下覆盖100-2500 Hz人声频率范围,响应/恢复时间为30±1.5 ms/40±2.0 ms,2000次循环测试后性能无衰减。在模拟组织环境的液体介质中,器件灵敏度与稳定性显著提升。
电路与信号处理:FPCB通过电阻-电压转换电路采集传感器信号,采用自适应差分脉冲编码调制(ADPCM)压缩数据。NFC通信距离在弯曲半径3.45 cm(儿童颈部曲率)时仍保持3 cm,ADC读取精度100%。实验从4名受试者采集包含5类文本句子的六种情感(愤怒、恐惧、快乐、中性、悲伤、惊喜)语音信号,经预加重、分帧加窗后提取40维梅尔频率倒谱系数(MFCC)特征。
深度学习模型与识别效果:提出CNN-BiLSTM-Transformer混合架构,通过卷积神经网络(CNN)提取局部特征,双向长短期记忆网络(BiLSTM)建模时序依赖,Transformer编码器捕捉全局上下文。采用留一法交叉验证,情感识别平均准确率90.20%,文本识别84.71%。独立测试集上情感分类精度达88.83±5.27%,验证了模型跨被试泛化能力。
讨论与展望:ATPS首次实现无线无电池工况下的情感语音同步识别,较传统人工喉系统在集成度与功能维度取得突破。当前系统厚度约2.5 mm,语音合成延迟<0.5 s,未来可通过材料优化与算法升级进一步提升性能。该技术框架在心血管监测、睡眠呼吸分析等领域具拓展潜力,为发声障碍患者的个性化辅助通信建立新范式。
实验方法:CNT-PDMS薄膜通过旋涂光刻模具与热固化制备;EC/MWCNTs层采用静电纺丝与喷雾镀膜结合;传感器组装采用真空压合与聚氨酯封装。深度学习模型训练使用Adam优化器(学习率0.001),结合早停法防止过拟合。统计学分析采用配对t检验,显著性阈值设定为*p < 0.05。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号