综述：基于虚拟现实的慢性颈部疼痛康复疗法：系统评价与随机临床试验荟萃分析的综述

《European Spine Journal》：Virtual reality based-rehabilitation for chronic neck pain: an overview of systematic reviews with meta-analysis of randomized clinical trials

【字体：大中小】 时间：2026年05月02日 来源：European Spine Journal 2.7

编辑推荐：

　　摘要目的：本系统评价与荟萃分析的概述旨在综合关于虚拟现实（VR）单独使用或与其他干预措施结合使用对慢性颈部疼痛（NP）患者短期和中期效果的证据质量。方法：从数据库创建之初至2025年4月，检索了CINAHL、Embase、Epistemonikos、PubMed、S

　　摘要
目的：本系统评价与荟萃分析的概述旨在综合关于虚拟现实（VR）单独使用或与其他干预措施结合使用对慢性颈部疼痛（NP）患者短期和中期效果的证据质量。

方法：从数据库创建之初至2025年4月，检索了CINAHL、Embase、Epistemonikos、PubMed、Scopus、SPORTDiscus和Cochrane Library中的相关文献。使用AMSTAR 2检查表评估系统评价的方法学质量，并计算了各评价之间的重叠程度。

结果：共纳入了9项系统评价，涉及超过2000名参与者。所有评估结果的重叠程度都非常高（40%-100%）。关于VR对疼痛强度、残疾和整体感知效果在短期和中期可能的影响，各系统评价的结论并不一致。总体而言，结果显示，基于VR的康复治疗在管理运动恐惧症、健康相关生活质量以及颈椎运动学方面并不优于对照组干预措施。仅在短期内发现VR对患者满意度和颈椎活动范围有积极影响。

结论：未发现一致的证据表明基于VR的康复治疗在短期和中期对管理慢性疼痛相关症状有效。这些发现的临床适用性受到以下因素的限制：VR和对照组干预措施的实施方式存在异质性；关于VR实施方式的信息质量较差；荟萃分析之间的高度重叠；以及大多数荟萃分析在应用GRADE系统时的证据确定性较低/非常低。

系统评价注册编号：OSF Registries，doi: https://doi.org/10.17605/OSF.IO/AER7J

引言：在慢性疼痛背景下实施基于虚拟现实（VR）的康复治疗已成为现实[1]。目前，医疗领域中的“虚拟现实”一词仍较为模糊，存在多种定义，包括计算机、环境、模拟、交互式和用户等关键术语。然而，最近的一项系统评价分析了80多篇文献，寻找定义之间的相似之处，并提出了一个新的更新定义：“VR可以是一种三维计算机生成的模拟环境，旨在复制真实世界或想象中的环境及互动，从而支持工作、教育、娱乐和健康[2]”。沉浸式、半沉浸式或非沉浸式VR可能是VR在康复中最常见的三种应用方式，包括游戏机系统（如Wii游戏技术）或头戴式显示器等设备。沉浸式VR使用户能够直接与虚拟环境互动，主要需要使用头戴设备以及其他工具（如运动追踪系统或手柄）；而非沉浸式VR则可以通过计算机或游戏机系统体验较为不那么沉浸式的虚拟环境。VR被认为具有成本效益且在康复中很有用[3]，通常单独使用或与其他疗法（如体育锻炼计划）结合使用。最近的研究表明，VR在多种慢性疼痛状况（如纤维肌痛[4]、骨关节炎[5]、腰痛[6]、偏头痛[7]、肩痛[8]或癌症相关疼痛[9]）中具有潜在疗效，表现为减轻疼痛强度、改善抑郁情绪、减少急性止痛药使用或提高生活质量（心理健康维度）。

慢性颈部疼痛是最常见的慢性肌肉骨骼疼痛形式之一，VR不仅可能改善与疼痛相关的结果（如疼痛强度[10]），还有助于提高患者对其他干预措施（如体育锻炼[11]）的依从性。目前，评估VR对慢性颈部疼痛患者疗效的随机临床试验（RCT）数量正在增加[12]，并且已发表了一些相关系统评价与荟萃分析[10, 13, 14]。因此，我们决定编写一份关于VR对慢性颈部疼痛疗效的系统评价与荟萃分析的专门概述。该概述有助于了解该领域所有系统评价与荟萃分析是否显示相似结果，或者是否存在关于特定结果的矛盾证据。此外，这份系统评价还有助于发现先前评价之间是否存在重叠，以及它们是否使用推荐评估、开发与评估（GRADE）系统对证据确定性进行了评级。因此，本系统评价与荟萃分析的概述旨在总结VR单独使用或与其他干预措施结合使用在改善慢性颈部疼痛管理方面的有效性，不限于特定的结果测量类型。

方法：遵循了PRIOR声明和PRISMA 2020摘要声明[15, 16]。评价方案在Open Science Framework上进行了前瞻性注册：https://doi.org/10.17605/OSF.IO/AER7J。

为制定更为严谨和统一的系统评价概述，做出了以下偏离：仅考虑了包含RCT荟萃分析的系统评价，未进行其他偏离。

数据来源和搜索策略：从数据库创建之初至2025年4月30日，检索了以下电子数据库：CINAHL（通过EBSCOhost）、Embase、Epistemonikos、PubMed、Scopus、SPORTDiscus（通过EBSCOhost）和Cochrane Library。补充文件1展示了每个电子数据库的完整搜索策略。此外，我们还手动搜索了与我们的主题相关的潜在文章和系统评价概述。在可能的情况下，还包含了按文档类型划分的搜索过滤器（见补充文件1）。

资格标准：使用PICOS（人群、干预措施、比较对象、结果、研究设计）框架制定了资格标准[17]：
P：患有慢性颈部疼痛（疼痛持续超过3个月）的个体，无其他限制。
I：VR单独使用或与其他干预措施（如体育锻炼计划）结合使用，不限制干预措施类型。考虑了所有类型的VR（沉浸式、半沉浸式和非沉浸式）。
C：无限制。
O：在同行评审期刊上发表的、包含RCT荟萃分析的系统评价，且语言为英语或西班牙语。考虑了任何类型的RCT（例如，初步RCT）。仅纳入进行了荟萃分析的系统评价，因为这有助于使数据尽可能地为读者所理解。虽然可能存在高质量的未进行荟萃分析的系统评价，但将它们与进行了荟萃分析的系统评价进行比较在方法学上较为复杂。这种复杂性主要源于未进行荟萃分析的系统评价中那些仅基于单一研究的结果部分。

我们排除了以下类型的荟萃分析：
（1）评估不同类型人群的研究（例如，慢性颈部疼痛和慢性腰痛）；
（2）评估VR与其他干预措施（例如，心理干预）的研究；
（3）评估不同疼痛阶段的研究（例如，急性、亚急性和慢性颈部疼痛）；
（4）通过电子邮件联系通讯作者后仍无法获取全文的研究。

研究选择：两位合著者独立进行了研究选择过程。其中一位合著者（JMC）使用Zotero 6.0.36引文管理软件管理从电子数据库中检索到的参考文献，删除了重复项并分析了标题和摘要。随后，两位合著者（JMC和AMHR）评估了那些看似符合条件的摘要或摘要不可用的研究的全文。计算了两位合著者之间的一致性百分比，该百分比是在汇总他们独立评估结果之前得分相同的项目数量的基础上得出的，一致性百分比为100%。补充文件2展示了全文分析期间排除的所有研究及其排除原因。

方法学质量评估：两位合著者（JMS和OVA）独立应用AMSTAR 2检查表评估系统评价的方法学质量[18]。AMSTAR 2包含16个项目，每个项目可以评为“是”、“部分是”或“否”。虽然不推荐给出总体评分，但有7个项目被视为关键领域（项目2、4、7、9、11、13和15）[18]。计算了两位合著者之间的一致性百分比，该百分比是在汇总他们独立评估结果之前得分相同的项目数量的基础上得出的。

数据提取：两位合著者（JMC和AMHR）独立开发了数据提取流程。其中一位合著者（JMC）从每篇评价中提取了以下信息：
（1）研究和发表年份；
（2）原始研究（感兴趣的荟萃分析）的人群和研究设计；
（3）干预组（感兴趣的荟萃分析）；
（4）对照组（感兴趣的荟萃分析）；
（5）感兴趣的荟萃分析及其证据确定性（GRADE系统）。随后，另一位合著者独立验证了JMC提取的结果。两位合著者之间的一致性百分比分别为第一轮91.8%，第二轮100%。该百分比是在汇总他们独立评估结果之前得分相同的项目数量的基础上得出的。

评价之间的重叠程度：一位合著者（JMC）计算了感兴趣的荟萃分析之间的重叠程度。只有当至少有两篇系统评价对同一结果进行了荟萃分析时，才会计算这种重叠。首先，JMC为每个结果制定了证据矩阵，然后计算了校正后的覆盖面积（CCA），即在首次统计原始研究后的覆盖面积[19]。计算公式如下：
1. N：感兴趣的荟萃分析中的原始研究总数（包括重复项）；
2. r：未计入重复项的原始研究数量；
3. c：包含在证据矩阵中的系统评价数量。CCA用于了解感兴趣的荟萃分析之间的重叠程度，并将重叠程度分类为轻微（CCA 0–5%）、中等（CCA 6–10%）、高（CCA 11–15%）或非常高（CCA > 15%）[19]。最后，另一位合著者（CGM）制作了条形图来展示感兴趣的荟萃分析之间的重叠程度。

数据分析：主要结果在表1中按结果测量类型和时间效应展示（例如，VR对短期运动恐惧症的效果）。考虑到荟萃分析中的数据，只有明确描述了结果评估期间的研究才被纳入正文。其余的荟萃分析在表1中列出以保持透明度。我们将结果分为短期、中期和长期：短期指干预后立即至干预后约3个月内的结果；中期指干预后6个月内的结果，以符合某些系统评价中的时间线。所有包含同时考虑即时和短期（≤3个月）结果的荟萃分析都被归类为短期。表1中提供了每篇系统评价的具体解释。长期结果（定义为超过6个月的随访测量）未被任何系统评价纳入（至少根据感兴趣的荟萃分析）。最终，根据所纳入的系统评价中应用的统计参数，结果以平均差异（MD）或标准化平均差异（SMD）的形式呈现。表1列出了所纳入系统评价的特征。

从电子数据库中检索到共计126篇文献。去除重复项后，评估了64篇标题和摘要。随后，详细检查了24篇全文，以确定它们是否符合我们的纳入标准。其中，有9篇包含超过2000名参与者的元分析的系统评价被纳入本综述中[10, 13, 14, 20, 21, 22, 23, 24, 25]。图1展示了研究选择过程。系统评价的主要特征在表1中显示。表2总结了主要研究中评估的虚拟现实（VR）干预措施的特征，包括交付方式、使用的软件、持续时间和频率（如果这些信息在所纳入的系统评价中有报告的话）。

方法学质量评估
没有一篇评价完全涵盖了AMSTAR 2的所有条目（表3）。评价者间的一致性为95.83%。主要问题是，没有一篇评价明确说明了仅纳入随机对照试验（RCTs）的理由（条目3）。只有一篇评价报告了主要研究的资金来源（条目10）。只有两篇评价包含了被排除研究的列表及排除原因（条目7）。只有两篇评价报告了明确的研究方案（条目2）。此外，原始研究的描述较为简略（条目8）。所有评价都包含了PICOS的组成部分来构建其纳入标准和/或研究问题（条目1），并且大多数评价声明了利益冲突（条目16）。

元分析之间的重叠程度
所有结果的重叠程度都非常高：活动范围（CCA = 40%）、疼痛（CCA = 46%）、残疾（CCA = 43%）、运动恐惧症（CCA = 80%）、整体感知效果（CCA = 100%）、患者满意度（CCA = 100%）、颈椎运动速度平均值（CCA = 100%）和颈椎运动速度峰值（CCA = 100%）。证据矩阵和CCA计算结果见补充文件3-11。

主要发现：元分析结果和GRADE评估
共有九篇评价中的六篇被纳入分析[14, 20, 21, 23, 24, 25]。表4总结了应用GRADE评估的元分析结果。所有不满足我们关于时间效应定义的元分析（短期、中期和长期）仅在表1中报告，以保持透明度。

VR对疼痛强度的影响（短期）
大多数元分析显示VR组与对照组在改善疼痛强度方面没有差异：
1. Ahern等人（MD -9.08；95%CI -21.84, 3.67；I2 48%；k = 2；N = 109）（GRADE：证据水平低）[20]。
2. Brea-Gómez等人（MD -6.12；95%CI -12.74, 0.49；I2 41%；k = 4；N = 204）（未应用GRADE评估）[21]。
3. Henríquez-Jurado等人（SMD ? 0.18；95%CI -0.62, 0.25；I2 0%；k = 2；N = 86）（GRADE：证据水平非常低）[14]。
4. Opara & Kozinc（SMD ? 0.50；95%CI -1.10, 0.09；I2 85%；k = 8；N = 324）（GRADE：证据水平低）[25]。

另一方面，有两项元分析发现VR组在改善疼痛强度方面优于对照组：
1. Henríquez-Jurado等人（SMD ? 0.45；95%CI -0.68, -0.21；I2 0%；k = 7；N = 272）（GRADE评级不明确）[14]。
2. Lo等人（SMD ? 0.55；95%CI -1.02, -0.08；I2 75%；k = 7；N = 316）（GRADE：证据水平低）[24]。

VR对疼痛强度的影响（中期）
没有发现VR组与对照组在改善疼痛强度方面有差异（MD -6.90；95%CI -16.05, 2.25；I2 0%；k = 2；N = 82）（GRADE：证据水平低）[20]。

VR对残疾的影响（短期）
超过一半的元分析发现VR组在减少残疾方面有积极效果：
1. Brea-Gómez等人（MD -3.52；95%CI -5.85, -1.20；I2 26%；k = 4；N = 204）（未应用GRADE评估）[21]。
2. Henrique-Jurado等人（SMD ? 0.26；95%CI -0.49, -0.03；I2 5.1%；k = 7；N = 417）（GRADE：证据水平低）[14]。
3. Henríquez-Jurado等人（SMD ? 0.64；95%CI -1.1, -0.2；I2 0%；k = 2；N = 86）（GRADE：证据水平非常低）[14]。
4. Lo等人（MD -2.59；95%CI -3.51, -1.67；I2 0%；k = 6；N = 282）（GRADE：证据水平低）[24]。
另一方面，有三项元分析显示VR组与对照组之间没有差异：
1. Ahern等人（MD -2.24；95%CI -6.38, 1.90；I2 0%；k = 2；N = 109）（GRADE：证据水平低）[20]。
2. Guo等人（SMD ? 3.07；95%CI -6.57, 0.43；I2 67%；k = 3；N = 112）（GRADE：证据水平非常低）[23]。
3. Opara & Kozinc（SMD ? 0.49；95%CI -1.05, 0.06；I2 78%；k = 6；N = 252）（GRADE：证据水平低）[25]。

VR对运动恐惧症的影响（短期）
所有元分析都显示VR组与对照组在减少运动恐惧症方面没有差异：
1. Ahern等人（MD -1.75；95%CI -6.78, 3.28；I2 17%；k = 2；N = 109）（GRADE：证据水平低）[20]。
2. Brea-Gómez等人（SMD ? 0.29；95%CI -0.73, 0.15；I2 42%；k = 3；N = 162）（未应用GRADE评估）[21]。
3. Henríquez-Jurado等人（SMD ? 0.08；95%CI -0.4, 0.25；I2 0%；k = 3；N = 224）（GRADE：证据水平低）[14]。
4. Lo等人（SMD ? 0.09；95%CI -0.40, 0.23；I2 0%；k = 3；N = 153）（GRADE：证据水平中等）[24]。
5. Opara & Kozinc（SMD ? 0.19；95%CI -0.52, 0.15；I2 0%；k = 3；N = 136）（GRADE：证据水平中等）[25]。

VR对整体感知效果的影响（短期）
元分析在VR改善整体感知效果方面的结果不一致：
1. Ahern等人（MD 4.88；95%CI 2.51, 7.26；I2 0%；k = 2；N = 109）（GRADE：证据水平低）[20]。
2. Brea-Gómez等人（MD 1.22；95%CI -0.40, 2.83；I2 93%；k = 2；N = 118）（未应用GRADE评估）[21]。

VR对健康相关生活质量的影响（短期）
没有发现VR组与对照组在改善健康相关生活质量方面有差异（SMD 0.06；95%CI -0.29, 0.4；I2 11.5%；k = 3；N = 221）（GRADE：证据水平非常低）[14]。

VR对患者满意度的影响（短期）
发现VR组在提高患者满意度方面优于对照组（MD 6.26；95%CI 3.90, 8.62；I2 0%；k = 2；N = 109）（GRADE：证据水平低）[20]。

VR对颈椎运动学的影响（短期）
发现VR组在增加颈椎活动范围方面有积极效果，但在考虑其他颈椎运动学参数时，VR组与对照组之间没有差异：
1. 颈椎活动范围（SMD ? 0.42；95%CI -0.65, -0.19；I2 24%；k = 2；N = 112）（未应用GRADE评估）[21]。
2. 颈椎运动速度峰值（SMD 0.03；95%CI -0.20, 0.26；I2 26%；k = 2；N = 112）（未应用GRADE评估）[21]。
3. 颈椎运动速度平均值（SMD ? 0.03；95%CI -0.30, 0.24；I2 44%；k = 2；N = 112）（未应用GRADE评估）[21]。
4. 达到峰值速度的时间百分比（TTP%）（SMD ? 0.17；95%CI -0.51, 0.16；I2 62%；k = 2；N = 112）（未应用GRADE评估）[21]。

讨论
本系统评价综述展示了单独使用VR或与其他干预措施结合使用VR的元分析在改善重要结果指标（包括疼痛强度、残疾、运动恐惧症和整体感知效果）方面是否优于对照组。总体而言，元分析发现，在短期内（从干预后立即到3个月），基于VR的康复可能在管理运动恐惧症、健康相关生活质量以及某些颈椎运动学参数（如运动速度平均值或峰值）方面并不优于对照组。此外，不同系统评价中的元分析在VR对疼痛强度、残疾和整体感知效果的影响方面存在结果不一致性。

最后，发现VR在提高患者满意度和颈椎活动范围方面有积极效果。另一方面，那些评估VR中期效果（3至6个月）的元分析发现VR在改善疼痛强度、残疾和整体感知效果方面并不优于对照组。鉴于基于VR的康复在近年来在肌肉骨骼疾病管理中的重要性，这些结果可能令人担忧。然而，我们发现了一些重要的方法学问题，需要在解读本综述的结果时予以讨论。

第一个相关问题是VR干预措施的关键特征报告不足，包括交付方式。尽管VR可以通过沉浸式、半沉浸式和非沉浸式方式应用，但并非所有纳入的系统评价都一致描述了干预措施的交付方式，而且大多数评价主要评估了沉浸式或非沉浸式VR的效果，并未进行亚组分析以探讨不同类型的VR是否会产生不同的结果。特别是，关于慢性颈痛患者使用半沉浸式VR的报道很少，也没有进行元分析，这在这方面留下了知识空白。第二个问题是所使用的软件。在VR的框架下，已经测试了各种应用程序，包括但不限于通过头戴设备提供的基于计算机的游戏或飞机飞行模拟。这些应用程序在大多数系统评价中描述不够详细，我们不知道它们是否涉及颈部以外的身体部位的运动。我们也不知道临床试验是否详细报告了VR会话的执行方式，因为没有一篇纳入的系统评价使用TIDieR检查表来说明所评估的干预措施是否报告得足够详细以允许重复实验。如表2所示，交付方式和特定VR参数等重要方面经常未被报告，而治疗剂量（会话频率和治疗持续时间）在两篇评价中甚至没有描述[13, 22]。综合这些发现，我们推测问题可能不在于VR本身，而在于缺乏标准化以及针对慢性颈痛患者量身定制的程序描述不足。

第三个问题是疼痛强度和残疾结果的异质性。关于对照组，大多数纳入元分析的临床试验使用了主动对照组，主要包括不同的运动方式，如本体感觉训练、通过头戴式激光器的运动训练、感觉运动训练或运动控制练习。从这个意义上说，我们可以推测单独使用VR或与任何运动方式结合使用VR可能并不比单独使用运动方式更有效。然而，我们认为有必要进行亚组分析，以确定是否有特定的运动方式或其他干预措施能产生比VR更好的效果。此外，一些系统评价根据对照组类型进行了亚组分析，但它们使用了诸如“康复”和“对照组”等笼统的术语，这些术语对读者来说毫无意义，对临床医生来说更是如此，因此这些数据在临床环境中的可重复性并不高。此外，其他因素如患者群体的特征、可能限制依从性的心理社会因素（例如，低自我效能信念或高运动恐惧症或疼痛灾难化），以及某些虚拟现实（VR）类型的纳入不足（例如半沉浸式VR）也可能影响疼痛强度和残疾的异质性。最后一点与元分析中的巨大重叠以及证据的低确定性（GRADE系统）有关。考虑到元分析之间的重叠，读者需要意识到不同系统评价所使用的临床试验实际上是相同的，因此我们在比较纳入的研究结果时建议读者保持谨慎。另外，许多系统评价使用GRADE系统来评估证据的确定性，这是一个非常积极的方面。然而，对于大多数结果而言，证据的确定性主要被评定为低或非常低，这突显了存在偏倚风险、结果不一致或发现不精确等问题。

**临床意义**

尽管在这项综述中大多数结果指标（如疼痛强度和残疾）存在一致性不足的问题，但读者，尤其是临床医生，仍应考虑以下几点：首先，所审查的元分析之间的高度重叠表明我们无法以高度确定的程度知道VR是否可以有效管理这些结果。因此，需要新的高质量系统评价来分析本研究中呈现的所有发现。其次，我们的结果表明VR可能在改善某些结果（如患者满意度和颈椎活动范围）方面具有潜力。这些结果可以鼓励临床医生将VR主要作为一种分散注意力的技术，甚至作为一种更易于使用的参与体育活动的方式，从而有助于提高患者满意度。然而，也需要注意这些结果在元分析之间的重叠程度非常高。第三，鼓励使用VR的临床医生应考虑实施该干预措施可能存在的障碍，如患者偏好、干预措施的成本效益以及使用VR的技术技能。

**未来研究**

我们主要建议系统评价的作者根据VR的传递方式和内容进行亚组分析。还建议根据对照组类型以及VR是单独使用还是与其他干预措施结合使用来进行亚组分析。此外，未来的随机临床试验应使用TIDieR检查表来全面描述VR干预措施，并有必要建立标准化的干预方案，以指导临床医生在现实临床环境中使用VR。

**局限性**

主要的局限性在于这种研究设计的本质。我们承认，这些结果基于系统评价的报告，而非临床试验本身。因此，我们的批评主要集中在系统评价的方法学改进上，而不是针对临床试验本身。

**结论**

本综述中包含的元分析表明，从短期来看，VR在运动恐惧症、健康相关生活质量以及颈椎运动参数（例如vmean）方面并不比不同的对照组产生更好的效果。这些结果在中期也体现在运动恐惧症、疼痛强度、残疾和整体感知效果上。仅在短期内发现VR对患者满意度和颈椎活动范围有积极影响。在短期内，元分析在疼痛强度、残疾和整体感知效果方面存在不一致性。然而，在决定是否将VR纳入慢性颈部疼痛患者的康复计划之前，有一些重要的因素需要考虑。特别是，元分析之间的高度重叠程度非常高，这要求我们对综合结果持谨慎态度。

热点排行