综述：脊柱护理中的数字孪生技术与多模态人工智能：概念、证据及转化障碍的概述性研究

《Spine Deformity》：Digital twins and multimodal artificial intelligence in spine care: a scoping review of concepts, evidence, and translational barriers

【字体：大中小】 时间：2026年05月10日 来源：Spine Deformity 1.8

编辑推荐：

　　摘要目的：本综述探讨了当前支持在脊柱护理中应用多模态人工智能、持续监测和数字孪生概念的证据。我们的主要目标是（1）描述脊柱护理领域中数字孪生发展的现状，（2）识别关键技术性和概念性的差距，以及（3）评估临床实施的转化障碍。方法：本综述遵循PRISMA-ScR指南进行

　　摘要
目的：本综述探讨了当前支持在脊柱护理中应用多模态人工智能、持续监测和数字孪生概念的证据。我们的主要目标是（1）描述脊柱护理领域中数字孪生发展的现状，（2）识别关键技术性和概念性的差距，以及（3）评估临床实施的转化障碍。

方法：本综述遵循PRISMA-ScR指南进行。我们在PubMed/MEDLINE、Scopus和Web of Science数据库中搜索了2010年1月至2025年3月期间发表的相关研究，并对结果进行了定性综合。

结果：共有26项研究符合纳入标准。现有的脊柱预测模型具有中等的辨别能力，且主要为静态模型。基于成像的人工智能与疼痛和残疾之间的关联较弱。可穿戴传感器监测是可行的，但缺乏证据表明其能改善治疗结果。特定于脊柱的数字孪生仍处于概念阶段，没有前瞻性研究验证其能够提升决策能力。

结论：多模态人工智能支持的数字孪生为个性化脊柱护理提供了一个有吸引力的概念框架，但现有证据尚不能支持其临床优越性或实施准备就绪。要取得进展，需要前瞻性验证、标准化数据整合以及明确的监管框架。

引言：脊柱疾病的临床异质性很大，因为相似的影像学异常可能伴随着截然不同的疼痛、残疾和治疗反应[1, 2]。影像学的严重程度与症状和功能受限之间的相关性较低，这表明仅依靠影像学发现不足以指导某些脊柱干预措施[1, 3]。治疗结果还受到并发症、心理社会因素和既往治疗的影响，而这些因素可能无法通过常规评估捕捉到[2, 3]。标准的脊柱护理依赖于间歇性的门诊就诊和静态的影像学检查，这些方法无法充分反映恢复过程和症状波动的非线性特征[1, 4]。广泛使用的风险计算器和单时点回归或机器学习模型无法适应围手术期事件或康复进展，它们对并发症或患者报告结果的预测能力较弱，AUC通常在0.63–0.80范围内[2, 4, 5]。因此，预测结果与脊柱疾病和恢复的实际时间进程不符[5]。随着技术的发展，以及人们对脊柱退化、手术恢复和非手术护理动态变化的认识，数字孪生的概念应运而生[4, 6]。在本综述中，我们将数字孪生定义为通过物理系统与虚拟系统之间的双向数据交换不断更新的个体患者的计算表征，从而实现动态的风险评估和护理过程的轨迹预测。从概念上讲，数字孪生旨在提供 longitudinal 模型，随着新的临床、影像学和功能数据的积累，个体化的风险评估和患者状态可以得到更新，有可能实现更积极的护理[1, 6]。尽管如此，特定于脊柱的数字孪生在很大程度上尚未得到验证，其相对于现有风险模型的额外益处也尚未通过前瞻性研究得到证实[6, 7]。图1展示了脊柱数字孪生的概念生命周期，强调了多模态数据流的整合以及患者状态随时间的纵向更新，同时区分了已建立的组件和仍在研究中的组件。

方法：为了进行本综述，我们采用了适用于概念综合而非定量荟萃分析的PRISMA-ScR指南（图2）。我们通过PubMed/MEDLINE、Scopus和Web of Science搜索了2010年1月至2025年3月期间发表的相关研究，并对结果进行了定性综合。

结果：共26项研究符合纳入标准。现有的脊柱预测模型具有中等的辨别能力，且主要为静态模型。基于成像的人工智能与疼痛和残疾之间的关联较弱。可穿戴传感器监测是可行的，但缺乏证据表明其能改善治疗结果。特定于脊柱的数字孪生仍处于概念阶段，没有前瞻性研究验证其能够提升决策能力。

结论：多模态人工智能支持的数字孪生为个性化脊柱护理提供了一个有吸引力的概念框架，但现有证据尚不能支持其临床优越性或实施准备就绪。要取得进展，需要前瞻性验证、标准化数据整合以及明确的监管框架。

结果：文献搜索共识别出982条记录（其中952条来自数据库检索，30条来自关键综述的参考列表、基础概念论文和领域专家知识等额外来源）。去除重复项后，剩余730条记录用于标题和摘要筛选。经过筛选，有210篇全文文章符合纳入标准，最终有26项研究被纳入综述。这些研究涵盖了多个主题领域：多模态人工智能和预测建模（n=8）、基于成像的人工智能在脊柱应用中的应用（n=6）、可穿戴和持续监测技术（n=5）、数字孪生概念框架和原型（n=4）以及监管和实施考虑因素（n=3）。文献中常见的术语包括“多模态融合”、“持续监测”、“纵向预测”和“数字孪生”，不过各研究之间的定义一致性存在较大差异。以下讨论分为五个主题部分：（1）多模态数据基础和数字孪生范式，（2）架构和纵向更新，（3）持续监测和临床应用，（4）与现有模型的比较及转化障碍，以及（5）伦理、监管和实施考虑因素。

讨论：
在脊柱医学中，多模态人工智能指的是将不同的数据来源（包括成像、电子健康记录变量、神经学和功能测量数据以及患者报告的结果）整合到统一的模型中，以捕捉疾病的结构、功能和服务维度[1, 8]。实际上，大多数脊柱AI模型仍然是单模态或双模态的，通常将人口统计和并发疾病数据与有限的成像特征结合起来，而真正的高维多模态融合较为罕见[1, 4]。这一限制很重要，因为脊柱的结果往往反映了解剖结构、生理功能、行为和情境之间的相互作用，而这些在任何单一模式中都无法完全体现。表1总结了与脊柱数字孪生相关的主要数据类型，概述了每种数据类型的优势、局限性以及目前支持证据的发展成熟度。

基于成像的人工智能取得了显著进展，深度学习模型在分割、对齐测量以及骨折、狭窄、感染和肿瘤的检测方面表现优异[1, 3]。这些能力提供了可扩展的结构表征；然而，结构指标与疼痛和残疾之间的关联较弱且不一致，仅基于成像的模型在预测功能结果方面的表现通常不如结合临床和患者报告数据的模型[1, 4]。因此，成像最好被理解为表型的重要组成部分，而不是疾病影响的完整体现。临床和电子健康记录数据（特别是并发疾病、既往手术、围手术期因素和药物使用情况）对并发症和患者报告的结果有重大影响，在许多预测模型中它们的表现优于仅基于成像的数据[2, 5]。然而，数据缺失、编码差异和机构实践差异限制了模型的通用性，当模型应用于开发环境之外时，其性能会受到影响[4, 5]。这些限制表明，脊柱护理中的模型有效性在很大程度上取决于数据基础设施和标准化程度，而不仅仅是算法选择。

客观的神经学和功能评估（如步速、平衡能力和活动范围）在研究环境之外很少进行纵向收集，这加剧了结构病理与可测量功能之间的差距[19, 20]。基于传感器的方法仍处于研究阶段，但显示出检测常规临床文档中未捕捉到的移动能力和平衡变化的潜力[16, 20]。同样，患者报告的结果在脊柱护理评估和试验终点中至关重要，但受时间变化和回忆偏差的影响，即使经过验证的模型也难以处理缺失或收集不一致的纵向PROM数据[4, 21]。这些情况凸显了一个核心矛盾：与实际体验最匹配的测量指标往往是最难以大规模一致收集的。

这些局限性集中体现在多模态融合的挑战上。数据流之间的时间不对齐、非随机缺失以及采样频率的不均衡使得跨模态整合变得复杂，尤其是在需要将连续的传感器数据与间歇性临床记录相匹配时[8, 22]。在缺乏标准化方法论框架的情况下，已发表的方法往往依赖于定制的架构，这限制了研究的可重复性，并妨碍了跨研究之间的比较[1, 8]。这种方法论上的碎片化对数字孪生产生了直接影响，因为数字孪生依赖于连贯的多模态整合和纵向更新。

数字孪生是通过对物理系统与虚拟系统之间的持续数据交换来随时间更新的个体患者的计算表征[7, 14]。在脊柱护理中，数字孪生理论上会整合成像、临床和传感器数据，以维持一个用于风险评估和轨迹预测的动态虚拟状态[6, 7]。与假设固定基线风险的静态风险模型不同，数字孪生旨在在新数据出现时支持动态重新校准[6, 22]。然而，目前尚不存在完全验证或临床部署的特定于脊柱的数字孪生，大多数报道的示例仍处于概念阶段或早期原型阶段[6, 14]。概念与实施之间的这种差距很重要，因为大多数已发表的脊柱应用仍然是一次性预测，而非能够实时学习的自适应系统[1, 5]。数字孪生的实现方法大致可以分为机械性、数据驱动型和混合型三种。基于有限元分析的机械双胞胎模型提供了生物力学的解释能力，但需要详细的解剖学建模和大量的计算资源[12, 13]。数据驱动的方法更具可扩展性，但往往缺乏生理学基础，并被认为是不透明的[1, 8]。结合机械特征和学习特征的混合架构正在出现，但仍然处于实验阶段[6, 13]。在这些方法中，时间建模是核心，因为脊柱退化和恢复遵循异质、非线性的轨迹，然而现有的预测模型很少编码明确的疾病或恢复状态，并且经常无法捕捉随时间变化的临床相关转换[5, 14, 21, 22]。尽管在各个数据流和建模范式中取得了有意义的进展，但一系列限制仍然阻碍了完全集成、具有临床适用性的脊柱数字双胞胎的实现。这一领域的主要障碍包括结构成像发现与临床结果之间的关联较弱、缺乏标准化多模态融合方法，以及捕捉脊柱疾病和恢复时间动态的纵向数据有限。真正的高维多模态集成仍然不常见，也没有任何针对脊柱的数字双胞胎经过前瞻性验证。

**脊柱数字双胞胎的架构和纵向更新**
解剖学和生物力学组件通常从基于CT或MRI的患者特定3D重建开始，然后进行网格划分和材料属性的分配[12, 13]。虽然段级建模可以估计与植入物失效或关节后凸相关的应力分布，但增加的细节程度限制了其在常规临床应用中的可扩展性[13, 14]。因此，简化假设很常见，这在生理学准确性和可行性之间造成了持续的压力[13]。

从成像中提取的特征越来越多地实现自动化，从而能够高通量量化对齐和退化参数[1, 3]。然而，由于扫描仪的变异性和特定部位的预处理，性能可能会在开发环境之外下降，而且结构变化通常会滞后于症状的发展，这限制了成像作为患者状态的及时替代品[1, 4]。这进一步强调了在目标是动态患者状态估计时整合非成像信号的需要。

纵向状态表示依赖于时间序列和潜在状态空间模型，这些模型将复杂的历史过程简化为紧凑的动力学表示[22, 23]。然而，对于具有临床意义的脊柱状态尚未达成共识，提出的状态转换框架也缺乏前瞻性验证[21, 23]。同时，在噪声数据或偏见数据驱动下进行在线模型更新时，可能会引入不稳定性和概念漂移的风险，当数据流稀疏、不完整或采样不均匀时，这一担忧会更加严重[22, 23]。很少有脊柱AI研究报告不确定性估计或定义将概率输出与临床决策联系起来的可行阈值，这限制了解释性和临床实用性[1, 21]。

综上所述，这些架构考虑表明，当前的脊柱数字双胞胎框架受到生理学准确性、可扩展性和鲁棒性之间的权衡的限制。生物力学模型在计算上仍然非常密集，并且对简化假设敏感，而从成像中提取的特征容易受到领域变化的影响，通常会滞后于临床状态的变化。纵向建模方法缺乏对具有临床意义的脊柱状态的共识定义，而在噪声数据或偏见数据流驱动下的在线更新也会引入不稳定性的风险。在各方法中，不确定性量化和具有临床适用性的决策阈值很少被报告，这限制了解释性并阻碍了其转化为常规脊柱护理的应用。

**跨越脊柱护理连续体的持续监控和临床应用**
可穿戴和运动感应技术能够持续捕获现实世界的活动、移动性和睡眠模式[16, 20]。这些工具可以跟踪术后恢复情况，并识别与预期活动轨迹的偏差，但信号噪声、设备异质性和依从性挑战仍然显著[16, 17]。简单的指标（如步数）与临床结果的相关性不一致，这表明有意义的临床转化需要基于上下文的特征和经过验证的分析流程[20]。为了明确数字双胞胎与现有方法在概念上的差异，表2在时间更新、个性化和验证状态等关键维度上对传统脊柱风险模型、基于AI的预测模型和数字双胞胎范式进行了对比[表2：传统脊柱风险模型、基于AI的预测模型和数字双胞胎的概念比较]。

移动性和姿势跟踪可以洞察日常功能，研究表明，久坐行为和步速降低与腰椎手术后较差的结果相关[16, 17]。解释能力受到缺乏标准化流程以及影响活动（独立于恢复）的上下文因素（如职业和环境）的限制[1, 20]。高频症状报告同样揭示了疼痛和残疾的时间变化，而这些变化在定期诊所评估中可能会被忽视[19, 20]。然而，增加报告频率会增加患者的负担，并导致数据缺失，尽管症状轨迹对于临床决策仍然不可或缺[4, 19]。

这些监测方式通常被构想为一个反馈循环，在新数据积累时重新校准风险估计并触发有针对性的干预[6, 7]。然而，在脊柱护理中，闭环实现的有效性尚未得到证实，没有随机试验显示与标准护理相比有更好的结果、降低的并发症或更低的成本[17, 21]。这一限制对提出的数字双胞胎用例有影响，因为这些用例通常假设实时监测可以转化为可行的临床决策。

在护理连续体中，数字双胞胎被提议作为通过模拟替代策略进行治疗前分层的工具，但缺乏证据表明这些方法能改善患者选择或结果[5, 21]。在手术规划中，原型表明整合解剖学、生物力学和概率风险建模的可行性，但对于并发症率或长期结果的好处仍无证据[7, 12]。使用可穿戴设备和电子患者记录器（ePROMs）进行术后监测可能会识别出异常的恢复轨迹，但常规实施并未一致减少再入院或并发症[4, 17]。在非手术护理中，可穿戴引导的康复显示出混合的结果，并且没有明显优于传统疗法[16, 20]。对于慢性退行性疾病，由于常规实践中密集的长期多模态数据有限，纵向数字双胞胎模型的应用受到限制[1, 23]。

总体而言，这些发现表明，虽然连续监测技术在概念上与数字双胞胎范式一致，但其在脊柱护理中的临床影响尚未得到证实。可穿戴设备提供的指标与以患者为中心的结果关联不一致，设备异质性和依从性变化使得标准化变得复杂，分析流程在多样化的护理环境中缺乏验证。重要的是，没有随机试验证明持续监测可以改善结果、减少并发症或降低成本，将实时数据转化为可执行临床决策的闭环实现大多还是理论上的。

**与现有脊柱风险模型的比较以及转化的障碍**
传统的脊柱风险模型是静态的、基于人群的，鉴别能力较低，并且在外部验证和影响评估方面经常存在缺陷[5, 21]。单一模态的机器学习模型与回归模型的表现参差不齐，且在时间上存在类似的限制[5, 23]。数字双胞胎通过连续的、个性化的风险估计来克服这些限制[6, 7]。然而，与现有模型的直接比较尚不清楚，也没有证据表明它们在脊柱护理中具有更好的预测性能或临床效益[5, 14]。数据异质性、成像变异性和有限的外部验证进一步限制了转化，这削弱了模型的鲁棒性和可移植性[1, 5, 21]。电子健康记录（EHRs）、成像系统和可穿戴平台之间的互操作性差，限制了实时集成并增加了临床医生的负担，而在不断变化的监管框架下，对不透明AI工具的信任度较低[8, 14]。这些挑战表明，主要的瓶颈往往是基础设施和程序性的，而不仅仅是技术上的。

在当前实践中，数字双胞胎尚未显示出相对于现有脊柱风险模型的明显优势。直接比较它们与现有方法性能的证据不足，实际应用受到数据异质性、临床系统间互操作性差以及工作流程和监管挑战未解决的制约。因此，脊柱护理中的数字双胞胎在很大程度上仍然是概念性的，其临床采用更多地受到实际障碍的限制，而非算法能力的限制。

**伦理、监管和实施方面的考虑**
解释性对于临床医生的信任和知情同意至关重要，但提高透明度的努力可能会增加已经复杂系统的复杂性[8, 21]。持续监控引发了隐私和数据所有权的问题，而自适应AI的监管仍在变化中，不断出现变化控制和上市后监督的新要求[24, 26]。对于AI辅助决策的责任制以及随时间保持患者参与度仍然是未解决的挑战，特别是当患者退出模式化时，这可能会加剧不平等[4, 17]。

总的来说，这些挑战凸显了治理和实施方面的持续差距。解释性要求可能与模型复杂性相冲突，医疗保健中自适应AI的监管框架仍在发展中，持续监控中的隐私标准化解决方案也尚未建立。对于AI辅助临床决策的明确责任结构尚未确立，患者模式化的退出可能会引入或加剧健康差异。

**结论和未来方向**
前瞻性验证对于建立脊柱数字双胞胎的临床可信度至关重要，因为迄今为止尚未有随机试验证明其益处[5, 21]。一项评估脊柱护理中数字双胞胎的随机对照试验可能会招募接受选择性腰椎融合手术的患者，将他们随机分为接受标准术前评估和数字双胞胎引导的决策支持两组。干预组将收到个性化的风险估计和整合到共享决策咨询中的模拟结果轨迹。主要终点可以包括12个月时的患者报告结果（ODI、VAS），次要终点可以包括并发症率、再次手术和决策后悔情况。可行性考虑将包括多模态数据整合的基础设施、医生培训以及患者对持续监控的同意。这样的试验需要多站点合作，以确保足够的统计功效和普遍性。与外科技术和闭环系统的整合仍然是一个愿景，短期影响可能是渐进的并且以研究为主，而不是革命性的[1, 14]。转化路径可能会经历几个阶段：最初是验证研究，比较数字双胞胎预测与观察结果；其次是实施研究，检查工作流程整合和医生采用情况；最终是评估常规实践中以患者为中心的结果的务实试验。数据元素的标准化、互操作性框架和自适应AI系统的监管指导将是更广泛采用的先决条件。多模态AI支持的数字双胞胎为纵向脊柱护理提供了一个有吸引力的概念框架，但它们的成熟将取决于验证、标准化、互操作的数据基础设施以及支持安全和具有临床意义使用的实施路径[6, 7]。

热点排行