评估骨科创伤外科培训中的手术技能：用于数字绩效评估的行为指标

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JBJS Open Access》：Assessing Surgical Skill in Orthopaedic Trauma Surgery Training: Behavioral Metrics for Digital Performance Evaluation

【字体：大中小】 时间：2026年05月10日 来源：JBJS Open Access

编辑推荐：

　　**摘要（通俗语言总结）** **背景：** 骨科创伤手术中的手术技能评估仍然依赖于主观的专家评分，这限制了评估的一致性和可扩展性。虽然数字化为客观和可扩展的评估提供了一条路径，但手术的高度手动性和触觉特性使得工具的使用难以被数字化捕捉，因此这类方法发展不足。本研究介绍了一种用

　　**摘要（通俗语言总结）**

**背景：** 骨科创伤手术中的手术技能评估仍然依赖于主观的专家评分，这限制了评估的一致性和可扩展性。虽然数字化为客观和可扩展的评估提供了一条路径，但手术的高度手动性和触觉特性使得工具的使用难以被数字化捕捉，因此这类方法发展不足。本研究介绍了一种用于骨科创伤培训的数字化评估框架，该框架从追踪到的手术工具运动中提取数字化行为指标（DBM）。具体来说，它研究了（1）哪些DBM可以指示技术熟练程度，以及（2）这些DBM在多大程度上能够预测专家评分的手术表现。

**方法：** 28名参与者在桡骨、尺骨和腓骨的合成骨模型上进行了3次标准化的骨折固定手术。工具的运动被捕捉并转换为数字孪生模型，从中提取了路径长度、平滑度和任务持续时间等指标。这些指标与4位专家对每次手术表现的平均全球评分量表（GRS）进行了统计比较。（1）相关性分析确定了与技能相关的指标；（2）训练了一个预测模型，以评估DBM预测手术表现的准确性。

**结果：** （1）发现几个DBM可以指示手术表现。基于工具路径长度和每项活动时间的指标与专家评分有很强的相关性，相关系数高达0.6。不同工具和手术程序之间的相关性强度有所不同。（2）预测模型的平均绝对偏差为3.8分（评分范围：28-70分），优于专家评分之间的平均偏差4.6分。

**结论：** DBM被确定为手术技能的有效指标。研究进一步证明了它们的预测价值，显示它们与专家的平均GRS评分更为一致。这些发现突显了在骨科创伤手术培训中进行客观、独立于专家的绩效评估的可行性。

**通俗语言总结：** 本研究通过追踪手术工具的运动并将其转换为数字化行为指标（DBM），测试了一种新的数字化方法来评估骨科创伤培训中的手术技能。28名参与者在桡骨、尺骨和腓骨的合成骨模型上进行了3次标准化的骨折固定手术，同时记录了工具路径长度、平滑度和任务持续时间，并与专家的全球评分量表（GRS）分数进行了比较。几个DBM，特别是基于工具路径长度和每项活动时间的指标，与专家评分相关（相关系数高达0.6）。预测模型估计的GRS平均绝对偏差为3.8分（评分范围28-70分），优于专家评分之间的平均偏差4.6分。这支持使用DBM进行客观的、独立于专家的手术表现评估。

**常见问题解答：**这个过程被重复进行，直到每个参与者都作为测试案例被使用过一次。预测准确性通过预测值与平均GRS评分之间的平均绝对误差（MAE）来衡量，并与个别专家评分的平均MAE相对于平均分进行比较。结果：共分析了28名参与者执行的83例手术（28例桡骨手术、28例腓骨手术和27例尺骨手术）。其中一名参与者因先前接触过类似手术而被排除在外，另一名参与者由于时间限制只完成了2例手术。最终的研究对象组包括11名女性和17名男性，其中包括6名医学生、13名住院医师、6名高级医师和3名主任医师。平均年龄为33.8岁（标准差=9.7岁），平均外科手术经验为6.6年（标准差=8.6年）。4位专家使用GRS对手术进行评估，共得到了332个单独的评分结果。所有参与者的平均GRS评分为50.6分（标准差=9.57分），范围在28到70分之间，其中桡骨手术的平均评分为48.6分（标准差=9.35分），腓骨手术为50.7分（标准差=9.55分），尺骨手术为52.7分（标准差=8.17分）。专家评分之间的ICC（区间一致性）为0.88，表明评分一致性良好。对于所有手术，都生成了一组相应的数字行为指标（DBM）。

**性能指标的相关性分析：**计算了所有手术中专家评分的平均GRS评分与DBM之间的相关性，并按工具和手术类型进行了分析。在所有工具和手术类型中，基于时间和路径长度的指标表现出强烈的相关性，Spearman相关系数的绝对值达到了0.6（图3）。图3显示了按工具和手术类型（桡骨、踝骨和尺骨）分层的平均GRS评分与DBM之间的Spearman相关系数。较高的绝对值表示与手术表现的相关性更强。DBM代表数字行为指标，GRS代表全球评分量表（Global Rating Scale）。

其他指标虽然表现出工具特定的变异性，但也与专家评分有显著的相关性。特别是钻孔器和尖头钳的相关性最强，而骨钳的相关性相对较弱。按手术类型细分后，桡骨和踝骨手术的相关性高于尺骨手术。

**数字行为指标的预测能力：**使用留一法交叉验证的线性混合效应模型预测GRS评分，得到的MAE为3.8分（标准差±3.2分（GRS评分范围：28-70分））。与平均GRS评分相比，专家们的评分平均相差4.6分（标准差±3.8分）。这些数据在图4中进行了单独绘制。图4显示了平均GRS评分与通过留一法交叉验证的线性混合效应模型预测的GRS评分（蓝色点）之间的关系。个别专家的评分（浅灰色点）围绕平均GRS评分有更大的分布范围，这反映了他们相比模型有更高的平均绝对误差（MAE分别为4.6分和3.8分）。

**讨论：**本研究提出了一个骨科创伤培训框架，该框架将现实世界中的外科培训手术过程通过真实的触觉反馈转化为数字表示，从而提取出用于评估手术技能的数字行为指标（DBM）。结果表明，简单的DBM指标（如基于时间的测量和工具路径长度）与专家的平均GRS评分有很强的相关性。基于时间的指标量化了手术效率，较短的完成时间表明更熟悉和流畅的手术过程。路径长度反映了空间效率，较短的路径表示更直接的操作方式。不同任务和工具之间的相关性强度有所不同，其中桡骨骨折的DBM与专家评分之间的相关性最强。相比之下，尺骨手术的复杂性较低，不需要放置延迟螺钉，因此相关性较弱。这一发现强调了选择具有足够难度的任务以区分不同水平技能的重要性。这与之前的研究结果一致，即过于简单的任务可能导致表现平台化并降低区分能力。工具特定的分析显示，钻孔器和尖头钳的指标具有更高的区分能力，而螺丝刀或骨钳的指标则相对较弱。专注于这类工具可以在不牺牲准确性的前提下简化评估流程。通过预测性线性混合效应模型的验证，数字行为指标的潜力得到了体现，该模型估计的手术性能平均MAE为3.8分（GRS评分），优于专家的平均MAE 4.6分。因此，数字评估与专家共识更为一致，误差范围在人类自然变异范围内。这突显了在骨科创伤手术中使用DBM进行自动化评估的可行性。这些发现通过展示即使是简单的训练过程中的行为指标也能可靠地预测专家评估结果，推动了基于模拟的骨科创伤培训的发展。虽然这类预测主要提供了一种总结性评估，但该框架也支持形成性学习。由于行为指标可以在单个工具和手术步骤层面进行分析，它们可以在自我指导练习期间提供有针对性的反馈，帮助受训者识别特定的技术或程序缺陷。最终，这种双重用途支持了最近外科模拟研究中提出的自主、无指导员的培训环境的发展。尽管数字框架能够对真实世界的手术过程进行客观评估并保持真实的触觉反馈，但它也存在局限性。迄今为止，软组织——骨科创伤手术的重要组成部分——尚未被整合进来。将其纳入将增加手术复杂性并提高区分能力。此外，该框架侧重于基于过程的行为指标而非最终手术结果，尽管手术表现并不一定与结果质量相关。整合结果测量将补充DBM，实现更全面的评估。最近的研究表明，可以将手术植入物纳入数字孪生模型中，从而评估植入物位置或骨折对齐等情况。另一个局限性是目前依赖于高精度光学跟踪，相关的设置工作可能限制其在常规临床环境中的应用；更易获取且成本效益更高的跟踪解决方案可能有助于在手术培训中更广泛地采用这些技术。

**结论：**本研究提出了一种骨科创伤手术的数字培训系统，该系统在保持真实触觉反馈的同时，通过光学跟踪实现客观的性能评估。多个DBM指标与专家评分表现出强相关性，预测模型与平均GRS评分的吻合度优于个别评估（3.8分对比4.6分，范围28-70分），展示了数据驱动评估的潜力。这项工作可能为骨科创伤手术培训中的标准化、独立于专家的评估奠定基础，并支持向基于模拟的能力导向型医学教育的转变。

联系信箱：

粤ICP备09063491号

热点排行