增强现实技术在康复中的应用：一种治疗脑卒中后单侧忽视的创新方法——NeuroNavAR系统的技术验证与前景

【字体：大中小】 时间：2026年03月02日 来源：Frontiers in Sports and Active Living 2.6

编辑推荐：

　　本文介绍了一种名为NeuroNavAR的创新增强现实(AR)康复系统，旨在解决脑卒中后单侧空间忽视(USN)这一临床难题。该系统利用YOLO-V8和ONE-PEACE模型实时检测并分割现实环境中的物体(如桌椅)，生成沿物体轮廓移动的虚拟蜜蜂引导患者进行视觉扫描训练(VST)。技术验证显示，其在ADE20K室内图像数据集上达到了76.70%的mIoU和88.51%的准确率。该系统旨在通过游戏化、生态化的主动探索训练，促进神经可塑性，为传统康复方法提供了更具吸引力、情境相关性更强的替代方案，其临床疗效计划于2026年进行验证。

引言：脑卒中后单侧空间忽视的挑战与机遇

脑卒中康复患者常遭受视空间忽视(VSN)的困扰，这是一种影响视觉信息处理和空间感知的障碍，其主要症状之一便是单侧忽视，或称单侧空间忽视(USN)。这种注意障碍源于中风对大脑侧裂网络（涉及颞叶、顶叶和腹外侧前额叶皮层）的损害，导致大脑无法正常处理一侧（通常是左侧）的空间信息。如图1所示，USN患者往往对患侧刺激无反应，导致日常生活活动严重受阻，如行走、穿衣或进食时只感知物体的一侧，从而增加残疾或跌倒风险。因此，深入研究USN对改善脑卒中后康复策略至关重要。

USN的复杂性使其诊断和治疗均面临挑战。当前国际临床指南将视觉扫描训练(VST)确定为脑卒中后忽视的一线非药物干预措施，其有效性依赖于患者向忽视侧进行主动的、目标导向的探索性动作——即眼、头和躯干的协调转动。这种多模式运动参与对于刺激受损的背侧（自上而下）和腹侧（自下而上）注意网络至关重要，从而促进皮层重组和功能神经可塑性，这是长期功能恢复的生物学基础。

然而，传统的VST（如纸笔任务、电脑屏幕或治疗师指导的练习）存在生态效度有限、患者参与度低以及在真实环境中对全身探索性动作强调不足等问题。新兴技术提供了有前景的替代方案：棱镜适应(PA)可诱导感觉运动重新校准，但缺乏任务外的普适性；沉浸式虚拟现实(VR)能增强参与度，但可能引起晕动症并将用户与物理环境隔离。

为了弥补这一缺口，本研究提出了NeuroNavAR，这是一个增强现实(AR)智能康复平台，旨在具体实施指南所倡导的探索性动作训练原则。该系统利用移动设备摄像头，通过实时物体检测和分割来识别日常室内物体（如钟表、椅子和桌子）。患者与一个游戏化界面互动，该界面以一只虚拟“蜜蜂”为特色，这只蜜蜂沿着检测到物体的轮廓移动；其在忽视侧的运动被特意放慢，以鼓励患者持续关注对侧。成功完成一个轮廓路径会获得即时奖励，而跟踪失败则会触发引导“小鸟”出现，温和地将患者注意力重新引向蜜蜂轨迹——这体现了无错学习和内在动机的原则。最关键的是，AR叠加层在空间上锚定于真实物体，从而要求患者动态转动眼、头和躯干，在自然环境中跟随虚拟智能体。这种具身互动旨在同时调动背侧注意网络（通过自愿的、目标驱动的搜索计划）和腹侧注意网络（通过显著的移动视觉刺激），直接针对USN的核心病理生理机制。

此外，NeuroNavAR不仅仅被构想为一个治疗工具，还是一个多模式研究平台。根据更广泛的项目框架，它将与同步脑电图(EEG)和磁共振成像(MRI)数据收集集成，以研究训练诱导的神经可塑性，并开发个体治疗反应的预测模型——为真正个性化、人工智能驱动的神经康复铺平道路。本文报告了核心AR流程（包括物体识别、轮廓生成和实时AR渲染）的技术可行性和验证，为计划在新西兰和中国（武汉）对脑卒中幸存者进行的即将开展的临床试验（第二年）奠定了必要的基础。

方法学：系统架构与实现

增强现实(AR)为提高脑卒中后康复训练的动力提供了一种有前景的方法。AR涉及将计算机生成的虚拟元素集成到现实世界中的过程。本研究探索了AR如何作为视觉扫描疗法服务于视空间忽视(VSN)患者，从而增强其康复过程中的参与度和独立性。

如图2所示，系统架构始于输入图像，由YOLO-V8检测网络处理，以识别诸如桌、椅等物体。这些物体随后被输入到ONE-PEACE分割网络中，生成掩码以获取物体的边缘信息。最后，使用FFmpeg工具沿物体边缘叠加虚拟蜜蜂贴纸。这些虚拟蜜蜂环绕物体边界移动，在患者的忽视侧旋转更慢、循环次数更多，以增强对该区域的注意力。完成一个完整循环后，程序会奖励患者。如果患者未能定位到虚拟蜜蜂，则会出现一只虚拟鸟引导患者回到蜜蜂的位置。

本研究所有实验均在一台配备NVIDIA V100 GPU（32GB内存）的服务器上进行。软件环境包括Ubuntu 18.04、CUDA 12.1、PyTorch 2.1.1和FFmpeg 4.4.4。在V100 GPU上进行端到端推理计时：YOLOv8检测每张图像约10毫秒，ONE-PEACE分割需要260毫秒，通过FFmpeg的轮廓渲染增加50毫秒。因此，完整流程的吞吐量约为每秒3帧(FPS)，每帧平均延迟为320毫秒。

模型网络架构

YOLO-V8网络由三个主要组件构成：骨干网络(Backbone)、头部(Head)和检测(Detect)模块。骨干网络是用于逐步提取图像特征的核心网络。头部旨在整合网络各阶段的特征。检测模块生成检测框并对框内物体进行分类。网络还包含CBS、瓶颈结构(Bottleneck)、C2f_X和SPPF等模块以增强性能。

ONE-PEACE网络包含三个主要组件：视觉适配器(Vision Adaptor)、语言适配器(Language Adaptor)和掩码解码器(Mask Decoder)。视觉适配器将图像等视觉输入编码为图像嵌入。语言适配器将检测框和类别标签的文本信息编码为提示嵌入。掩码解码器通过特征融合集成图像和提示嵌入，最终输出掩码。

为验证两阶段流程的设计选择，本研究与先进的通用分割架构Mask2Former进行了对比。具体使用了在ADE20K数据集上预训练的Swin-Large变体。

处理步骤

实验过程的伪代码如算法1所示。算法包含两个循环。外层循环遍历测试数据集中的图像，内层循环处理每张图像中由YOLO-v8模型检测到的每个边界框(bbox)。内层循环步骤如下：首先，使用ONE-PEACE模型对边界框内的物体进行分割，得到物体的边缘轮廓。随后，应用距离过滤器排除距离患者过远的物体（实践中通过仅选择边界框面积超过图像总面积0.2%且保留面积最大的前5个物体来实现）。只有处于治疗距离范围内的物体会被保留以供进一步处理。最后，将分割得到的掩码转换为轮廓表示。内层循环完成后，使用FFmpeg工具将这些轮廓连同类别信息和虚拟蜜蜂动画叠加到图像上，最终将结果保存为GIF文件。

实验：数据集与评估

为验证所提方法的可行性，本研究选择了ADE20K数据集验证集中的室内场景作为测试集。ADE20K提供了场景、物体和物体部件的广泛标注。测试数据集共选择了537张图像，特别聚焦于包含50个室内物体类别的场景。

在分割任务中，准确率(Accuracy)和交并比(IoU)是常用的评估指标。准确率表示正确分类像素占总像素的比例。IoU是专门为分割任务设计的指标，衡量预测区域与真实区域的重叠程度。其值在0到1之间，1表示完全重叠。在类别不平衡的场景下，IoU更适合评估分割性能。

结果：性能比较与可视化

如图3所示，展示了所提流程（YOLOv8 + ONE-PEACE）与Mask2Former基线在各类别上的分割性能对比。

所提流程的平均交并比(IoU)和准确率(Acc)分别为76.70%和88.51%。相比之下，Mask2Former在同一测试集上实现了65.88%的IoU和80.02%的准确率。所提方法的IoU值范围在55%到95%之间，而Mask2Former的范围在49.21%到89.01%之间。值得注意的是，所提方法在大多数类别上持续优于Mask2Former，尤其是在大型、结构显著的物体上，如床(94.43% vs. 69.12%)、灯(95.91% vs. 77.88%)和壁炉(91.80% vs. 84.20%)。这证明了两阶段方法在准确分割用于AR治疗的临床相关室内物体方面的优势。

对50个室内物体类别的描述性统计显示，平均IoU为76.70%（标准差=11.2%），平均准确率为88.51%（标准差=6.8%）。标准差反映了显著的类别间变异性，突显了将分割推广到小型、遮挡或低纹理物体所面临的挑战。

如图4所示，呈现了物体检测和分割结果的组合可视化。在这些图像中，检测到的物体用边界框高亮显示，而其精确边界用轮廓线描绘。检测到的类别名称显示在每个物体旁边的文本中。此可视化展示了系统在识别和精确分割各种室内物体（如椅子、桌子和床）方面的准确性。

基于此检测和分割基础，图5展示了最终的增强现实输出，其中虚拟蜜蜂沿分割物体的轮廓移动。蜜蜂在患者的忽视侧（通常是右脑卒中幸存者的左侧）移动得更慢，以鼓励对该区域的注意。当患者成功跟随完整路径时，他们会获得视觉奖励。如果患者未能完成循环，虚拟鸟会出现以引导他们的注意力回到蜜蜂轨迹。

这种两阶段可视化——首先展示精确的物体检测和分割，然后展示治疗应用——说明了系统如何将原始图像数据转化为一个引人入胜的康复工具。精确检测和分割可见室内物体提供了全面的轮廓信息，结合动画蜜蜂和实时反馈机制，为应对脑卒中后单侧忽视提供了一种有效的方法。

讨论：优势、局限与未来方向

实验结果表明，基于深度学习的物体分割算法在室内图像分割任务中达到了较高的准确率，这为开发一种新颖的增强现实(AR)方法来解决脑卒中后单侧空间忽视(USN)奠定了坚实的技术基础。

本研究的核心创新在于将智能图像处理与基于AR的游戏化设计相结合，为USN患者创建康复应用。与现有干预措施（如棱镜适应、非生态性视觉扫描任务或沉浸式VR）相比，AR方法提供了更高的生态效度、可及性和参与度。通过与先进的端到端分割模型Mask2Former的比较，验证了两阶段流程的设计选择：将检测和分割解耦，使系统能够将计算资源集中在AR治疗最有用的显著、大型物体上。

尽管有这些优势，但局限性仍然存在。首先，实验是在GPU服务器上对静态图像进行的；尚未在Android或iOS设备上验证实时、在设备上的性能。当前工作是一项技术可行性研究。其次，也是关键的一点，目前尚未进行人体受试者测试。因此，缺乏关于可用性指标（如AR序列完成时间、任务成功率或用户满意度）的经验数据。

为了解决这一缺口，研究团队计划在第二年于新西兰和中国（武汉）的研究点开展一项涉及25名慢性USN脑卒中幸存者的试点临床试验。试验将采用混合方法评估框架，包括：1) 可用性与性能：每个AR序列的平均时间、引导虚拟蜜蜂沿物体轮廓移动的成功率、来自患者和治疗师的系统可用性量表(SUS)评分，以及关于舒适度和参与度的定性反馈；2) 临床疗效：使用行为忽视测试(BIT)和星取消测试等工具进行干预前后评估，以量化空间注意力和功能独立性的变化。此外，基于项目对多模态数据的整合，研究计划探索脑电图(EEG)和磁共振成像(MRI)生物标志物，以研究训练诱导的神经可塑性，并开发个性化干预的预测模型。

结论

本研究介绍了一种创新的增强现实(AR)智能训练程序NeuroNavAR，旨在帮助脑卒中后单侧空间忽视患者的康复。该程序利用图像处理算法识别和分割现实世界中的物体，引导患者跟随虚拟蜜蜂轨迹，并通过实时反馈增强参与度。实验结果表明，该方法在537张室内图像测试数据集上实现了76.70%的交并比(IoU)和88.51%的准确率，证明了其在准确识别和分割复杂室内物体方面的有效性。与传统康复方法相比，这种方法提供了更直观、更具吸引力且与情境更相关的训练体验，在临床验证的前提下，具有改善康复结果的潜力。

重要的是，此项工作奠定的基础为即将进行的临床验证铺平了道路。计划的试点试验将评估该系统在真实世界康复环境中的可用性、安全性和治疗效果。通过将临床结果测量与实时互动数据相结合，旨在将NeuroNavAR建立为一个可扩展的、基于证据的数字治疗工具。这项研究代表了朝着实现可及、个性化、技术驱动的脑卒中后认知障碍神经康复迈出的充满希望的一步。

热点排行