基于多模态融合的虚拟现实系统在失语症评估与治疗中的机器学习应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Neural Systems and Rehabilitation Engineering》：Virtual Speech Therapy Room: A Machine Learning based Neuro-Behavior Sensing Virtual Reality System for Aphasia Assessment and Treatment through Multimodal Fusion

【字体：大中小】 时间：2026年01月04日 来源：IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐：

　　本研究针对传统失语症评估方法耗时、依赖专业人员且存在主观偏差等问题，开发了一种集成虚拟现实(VR)与多模态神经行为传感技术的智能康复系统。研究人员通过设计四种沉浸式VR语言训练模块（语义理解、关联配对、词汇理解、言语表达），结合脑电图(EEG)、眼动追踪和行为表现数据，建立了机器学习分类模型。结果表明：实验组在简明汉语失语症测试(CCAT)的匹配(P=0.0334)和听觉理解(P=0.0088)等维度显著改善；多模态融合模型区分失语症患者与健康对照的准确率达97%。该系统为失语症的客观评估和个性化康复提供了创新解决方案。

在全球范围内，卒中已成为导致死亡和残疾的第二大原因，而失语症作为卒中最常见的后遗症之一，约三分之一缺血性卒中患者受其影响。这种获得性沟通障碍源于大脑语言优势区（通常是颞叶和额叶）的损伤，导致患者在言语产生、理解、阅读和书写等方面出现障碍。传统上，失语症的诊断主要依赖专业言语治疗师使用简明汉语失语症测试(CCAT)进行人工评估，治疗则通过言语语言治疗(SLT)开展。然而，这些方法存在明显局限：评估过程耗时较长，在医疗资源不足的情况下难以及时完成；尽管由专业治疗师评分，人工评判仍难以完全避免主观偏差；治疗方面也因专业人员短缺，使得医院难以安排密集型康复训练。

随着虚拟现实(VR)技术的快速发展，其沉浸式、交互式的特点为医疗康复领域带来了新的可能。与此同时，可穿戴传感技术的进步使得脑电图(EEG)、眼动追踪、心率变异性(HRV)等神经行为数据的采集变得更加便捷。机器学习(ML)技术的融入，则能够从复杂数据中挖掘隐藏模式，进行分类、分析和预测。在医疗领域，结合大量医学数据与机器学习或人工智能(AI)，已催生出能优化诊断流程的智能系统。尽管已有研究尝试将VR应用于失语症治疗（如EVA Park虚拟世界、基于web3D技术的网络应用等），但多数仍局限于非沉浸式环境或主观问卷评估，缺乏客观的生理指标支持。

为此，由R. Vaitheeshwari、Chia-Chun Kao等研究人员组成的团队，在《IEEE Transactions on Neural Systems and Rehabilitation Engineering》上发表了题为"Virtual Speech Therapy Room: A Machine Learning based Neuro-Behavior Sensing Virtual Reality System for Aphasia Assessment and Treatment through Multimodal Fusion"的研究论文。该研究旨在开发一个虚拟言语治疗室，通过沉浸式VR语言训练模块结合生理数据分析，实现失语症的自动化评估与治疗，推动智能医疗的发展。

研究人员开发了一套集成VR任务与多模态神经行为传感的系统架构。该系统采用Pico Neo 3头戴设备呈现虚拟环境，并整合OpenBCI Ganglion Board采集四通道脑电图(EEG)数据（电极位置包括FC3、FCz、Pz、Oz），同时利用设备内置眼动追踪功能记录用户眼睑开合度、注视坐标和运动轨迹。研究设计了四项VR语言训练模块："Find It"（语义理解）、"Match It"（关联配对）、"Listen It"（听觉理解）和"Say It"（言语表达），分别针对CCAT量表中的不同语言功能进行训练。

实验招募了20名失语症患者(IWA)和10名健康参与者，失语症患者随机分为实验组和对照组A，健康参与者作为对照组B。所有失语症患者均符合以下入组标准：经确诊为缺血性或出血性卒中伴非流利性语言功能损伤；卒中后病程1-12个月；无空间或视野缺损；能适应三维虚拟现实环境。实验组在接受常规SLT的同时进行VR治疗，对照组A仅接受SLT。通过对比治疗前后CCAT评分、VR任务表现以及神经行为数据（EEG、眼动追踪），评估干预效果。

在结果方面，CCAT前后测分析显示，实验组在匹配（平均提高1.40，P=0.0334）和听觉理解（平均提高1.40，P=0.0088）任务上均有显著改善，且实验组在描述、匹配、听觉理解、表达和重复五个维度的进步幅度显著大于对照组A（P<0.05）。任务表现分析表明，失语症患者的总任务时间(TimeCost)、平均反应时(RT(M))等指标均显著高于健康对照组（P<0.001），而答题准确率(Accuracy(M))则较低（P<0.05）。眼动追踪分析发现，失语症患者的注视距离显著更长（左眼：P<0.001；右眼：P<0.001），但注视范围却更集中，平均注视面积仅为健康对照组的68.71%。EEG分析显示，失语症患者在FC3、FCz、Pz和Oz电极点的Delta波活动显著异常（P<0.01），其中FC3（接近左额叶语言区）和Oz（枕叶视觉处理区）的差异尤为明显。通过事件相关时段分析（问题呈现前0.5秒至后1秒，反应前1秒至后0.5秒）进一步揭示，在"Listen It"模块的任务呈现期，FCz电极点的Delta、Theta、Alpha和Beta频段均出现显著组间差异（P<0.01）。

机器学习分析采用K近邻(KNN)、支持向量机(SVM)、随机森林(RF)等多种算法，并利用重复5折交叉验证评估模型性能。结果显示，多模态特征（任务表现、眼动追踪、EEG）融合后，分类准确率最高可达100%（分段EEG数据），而未分段EEG数据下，CatBoost(CB)模型的准确率也达到96.7%。特征重要性分析表明，任务表现中的"Match It"模块反应时、眼动追踪中的注视距离以及EEG中FC3和Oz电极点的Delta波功率是区分失语症患者与健康对照的关键指标。

本研究通过将沉浸式VR与多模态神经行为传感相结合，为失语症的评估和治疗提供了客观、量化的新方法。结果表明，VR治疗能有效改善失语症患者的语言功能，特别是在匹配和听觉理解方面。机器学习模型的高精度分类能力证明了神经行为标记物在辅助诊断中的潜力。此外，眼动热图分析提示失语症患者可能存在视觉搜索策略异常，这为理解其认知加工障碍提供了新视角。尽管样本量有限且健康对照组年龄不匹配可能带来 confounding 效应，但该研究为开发智能康复系统奠定了重要基础。未来工作可扩大样本规模，纳入年龄匹配对照，并探索纵向分类以评估治疗反应性，从而进一步提升临床适用性。总体而言，这项研究推动了失语症康复向数据驱动、个性化方向的发展，为远程医疗和家庭康复提供了技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号