《Engineering Applications of Artificial Intelligence》:A lightweight and real-time surgical action detection framework using multi-contextual and decoupled representations
【字体:
大中小
】
时间:2026年03月09日来源:Engineering Applications of Artificial Intelligence 8
在微创手术中准确检测手术动作是开发智能手术辅助系统的关键步骤。在这项工作中,我们提出了Surgical You Only Look Once(Surg-YOLO)检测器,这是一个基于YOLOv11架构的高效且精确的手术动作检测框架,专门针对手术环境的时空复杂性进行了优化。Surg-YOLO整合了三个关键的架构创新:增强型空间金字塔池化快速(ESPPF)模块用于捕获丰富的多尺度空间特征;时空多尺度上下文聚合模块(ST-MCAM),用于增强跨帧的时间推理和上下文感知;以及解耦的双分支预测头(DDPH),用于独立精炼分类和定位任务。在大型手术动作数据集上的广泛实验表明,Surg-YOLO在多个评估阈值上的检测精度显著优于现有的基线模型。定性可视化进一步验证了该模型高精度定位细微和并发手术动作的能力。这些结果突显了Surg-YOLO作为实时手术动作检测的可靠解决方案的潜力。
已经进行了多项研究来开发适用于MIS程序的动作识别框架。一项研究采用了基于深度学习的计算机视觉来自动化缝合手势的识别和分类,以提供手术中的具体手势类型(Luongo等人,2021年)。另一项研究引入了Phase, Step, Instrument, and Atomic Visual Action Recognition(PSI-AVA)数据集,以及Transformers for Action, Phase, Instrument, and Steps Recognition基线,以实现整体手术场景理解,可以捕捉机器人辅助根治性前列腺切除术视频中的长期工作流程步骤和短期原子动作(Valderrama等人,2022年)。其他研究人员利用带有监督对比学习的视觉变换器来解码来自不同医院、外科医生和手术程序的术中活动的多个元素(Kiyasseh等人,2023年)。此外,在2019年的内窥镜视觉挑战赛子挑战中,12个研究团队尝试了对多中心腹腔镜胆囊切除术数据集进行阶段、器械和动作识别,但他们观察到在细粒度动作检测方面存在显著的性能差距(Wagner等人,2023年)。最后,Wagner等人提出了一种基于图的多模态数据融合方法,使用时空图神经网络以情境敏感的方式预测器械使用(Wagner等人,2024年)。尽管有这些重要的进展,但还没有一个单一框架能够提供端到端的解决方案,能够在实时、稳健的手术指导中一致且准确地建模时空动作检测。
在这项研究中,我们提出了一个高效的外科You Only Look Once检测器(Surg-YOLO),专门用于解决微创手术环境的时空挑战。首先,引入了增强型空间金字塔池化快速(ESPPF)模块来高效捕获多样化的多尺度空间特征。其次,引入了时空多尺度上下文聚合模块(ST-MCAM)来增强跨帧的时间推理和上下文理解。最后,我们提出了解耦的双分支预测头(DDPH),并行精炼分类和定位。