一个轻量级且实时的手术动作检测框架，采用多上下文和解耦表示方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A lightweight and real-time surgical action detection framework using multi-contextual and decoupled representations

【字体：大中小】 时间：2026年03月09日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　精准检测微创手术中的复杂操作是智能辅助系统开发的关键。本文提出基于YOLOv11架构的Surg-YOLO系统，通过增强空间金字塔池化（ESPPF）、时空多尺度上下文聚合（ST-MCAM）和双分支解耦预测头（DDPH）三个模块创新，有效捕捉手术场景中多尺度时空特征与仪器交互细节，实验表明其检测精度显著优于现有方法，为实时智能手术导航提供可靠解决方案。

郑思明|A.S.M. Sharifuzzaman Sagar|陈宇|陈俊鸿|于泽豪|史颖|卢建峰

宁波大学第一附属医院肝胆胰外科，中国宁波315000

摘要

在微创手术中准确检测手术动作是开发智能手术辅助系统的关键步骤。在这项工作中，我们提出了Surgical You Only Look Once（Surg-YOLO）检测器，这是一个基于YOLOv11架构的高效且精确的手术动作检测框架，专门针对手术环境的时空复杂性进行了优化。Surg-YOLO整合了三个关键的架构创新：增强型空间金字塔池化快速（ESPPF）模块用于捕获丰富的多尺度空间特征；时空多尺度上下文聚合模块（ST-MCAM），用于增强跨帧的时间推理和上下文感知；以及解耦的双分支预测头（DDPH），用于独立精炼分类和定位任务。在大型手术动作数据集上的广泛实验表明，Surg-YOLO在多个评估阈值上的检测精度显著优于现有的基线模型。定性可视化进一步验证了该模型高精度定位细微和并发手术动作的能力。这些结果突显了Surg-YOLO作为实时手术动作检测的可靠解决方案的潜力。

引言

微创手术（MIS）在广泛的临床手术中彻底改变了患者护理方式，并且相比传统的开放性手术具有显著优势（Rivas-Blanco等人，2021年）。MIS通常会导致术后疼痛减轻、感染率降低和住院时间缩短，从而可能加快恢复时间并提高满意度，因为减少了手术切口。这些优势使得MIS在全球范围内得到广泛应用。然而，这种方法也给外科医生带来了挑战，因为他们必须依赖狭窄的摄像头进行间接观察，并且必须管理有限的器械操作灵活性。这些挑战为整合新技术以提高手术精度、安全性和结果铺平了道路。

尽管MIS具有多种变革性优势，但其有限的视野范围和器械操作的自由度较低意味着外科医生必须仅使用部分视觉信息来持续解读各种空间和时间线索。这些限制增加了出错的风险，例如误识别组织或错误放置器械，尤其是在复杂的解剖结构中。为了解决这些问题并确保最佳的患者结果，迫切需要人工智能（AI）驱动的系统来提供强大的实时场景理解能力。这些系统可以检测工具、分类手术动作，并协助外科医生，从而显著减轻认知负担并提高MIS的整体安全性和效率。通过整合计算方法和智能系统，MIS领域经历了巨大发展。早期的努力经常使用隐马尔可夫模型等统计模型来分类手术视频中的步骤。研究人员还利用基于时间卷积网络的图像分类方法（Sanchez-Matilla等人，2022年）、循环卷积神经网络（Jin等人，2020年）和长短期记忆架构（Rivoir等人，2020年）来实现逐帧识别手术步骤和活动。基于变换器的方法由于能够捕捉视频数据中的长距离依赖性而显示出潜力（Jin等人，2022年）。然而，缺乏全面的训练数据集，且训练好的模型在未见数据上的表现往往较差。为了解决这些问题，Sellner等人探讨了由几何域变化引起的分布外数据的影响（Sellner等人，2023年），而Zohar等人解决了数据泄露问题以确保患者隐私（Zohar等人，2020年）（见表1）。

现有方法的一个核心局限性在于它们倾向于提供粗粒度的手术进度分类，主要关注阶段识别（Ahmadi等人，2006年），而没有捕捉到器械和组织之间交互的详细信息。例如，剪切和切割阶段可能包含多个同时发生的动作：夹持器可能抓住一个解剖标志物，剪刀可能剪断囊性导管，这些动作可能发生在同一阶段（Twinanda等人，2016年）。其他细粒度的步骤划分仍然将实践中经常重叠的多个离散任务归为一类（Ramesh等人，2021年）。一些研究人员专注于更具体的任务，如解剖、切割或凝固，这可能提供更多细节，但他们往往忽略了器械和特定解剖目标之间的动态交互（Khatibi和Dezyani，2020年；Rupprecht等人，2016年）。这些限制要求动作检测方法不仅要能够识别高层次的手术阶段，还要能够识别器械、组织和手术动作之间的关系，从而实现真正智能的上下文感知手术系统。

MIS中的动作检测涉及识别哪些器械对特定的解剖目标执行哪些动作。与其他仅标记高层次阶段的方法相比，动作检测可以捕捉多个器械和组织之间的细粒度交互。这项任务非常复杂，因为动作之间存在重叠，外科医生的意图也可能发生微妙的变化，单个器械可能在几秒钟内从抓取转变为解剖。此外，在紧密的操作区域内分离并发动作需要同时具备空间和时间感知能力，以准确跟踪、分类和关联连续帧中的动作。因此，有效的动作检测系统必须考虑高度变化的环境，以提供对手术的细致理解，从而提高安全性并支持上下文感知的手术指导。

已经进行了多项研究来开发适用于MIS程序的动作识别框架。一项研究采用了基于深度学习的计算机视觉来自动化缝合手势的识别和分类，以提供手术中的具体手势类型（Luongo等人，2021年）。另一项研究引入了Phase, Step, Instrument, and Atomic Visual Action Recognition（PSI-AVA）数据集，以及Transformers for Action, Phase, Instrument, and Steps Recognition基线，以实现整体手术场景理解，可以捕捉机器人辅助根治性前列腺切除术视频中的长期工作流程步骤和短期原子动作（Valderrama等人，2022年）。其他研究人员利用带有监督对比学习的视觉变换器来解码来自不同医院、外科医生和手术程序的术中活动的多个元素（Kiyasseh等人，2023年）。此外，在2019年的内窥镜视觉挑战赛子挑战中，12个研究团队尝试了对多中心腹腔镜胆囊切除术数据集进行阶段、器械和动作识别，但他们观察到在细粒度动作检测方面存在显著的性能差距（Wagner等人，2023年）。最后，Wagner等人提出了一种基于图的多模态数据融合方法，使用时空图神经网络以情境敏感的方式预测器械使用（Wagner等人，2024年）。尽管有这些重要的进展，但还没有一个单一框架能够提供端到端的解决方案，能够在实时、稳健的手术指导中一致且准确地建模时空动作检测。

在这项研究中，我们提出了一个高效的外科You Only Look Once检测器（Surg-YOLO），专门用于解决微创手术环境的时空挑战。首先，引入了增强型空间金字塔池化快速（ESPPF）模块来高效捕获多样化的多尺度空间特征。其次，引入了时空多尺度上下文聚合模块（ST-MCAM）来增强跨帧的时间推理和上下文理解。最后，我们提出了解耦的双分支预测头（DDPH），并行精炼分类和定位。

与之前专注于粗粒度阶段识别或有限手势检测的方法不同，Surg-YOLO旨在实现细微和并发手术动作的准确定位，这是必要的，因为手术程序通常涉及重叠的动作和外科医生意图的微妙变化。这种细粒度能力首先通过ESPPF模块建立，该模块高效捕获丰富的多尺度空间特征，整合了细粒度的局部模式和更广泛的上下文信息，从而为精确的边界框检测奠定了必要的空间基础。在此强大的空间表示基础上，该架构集成了ST-MCAM，它使用来自帧级特征差异的运动令牌显式建模时间动态，以及DDPH，它独立精炼分类和定位任务。这些模块使框架能够精确跟踪和分类复杂的多器械交互，证实了Surg-YOLO作为实时手术动作检测的可靠解决方案的潜力。

方法

我们提出了一个高效的外科动作检测器（Surg-YOLO），它基于YOLOv11架构，并针对手术动作检测进行了专门优化。这一改进的架构整合了三个重要改进，如ESPPF模块、ST-MCAM和DDPH。这些模块旨在提高网络捕获多样空间和时间上下文的能力，这对于手术动作检测至关重要。

Surg-YOLO采用了一种轻量级的混合设计，结合了

实验

在我们的实验中，我们遵循了精心选择的参数配置，以确保最佳收敛性和泛化能力。我们以0.001的初始学习率开始训练，然后使用0.1的学习率因子（Lrf）逐步降低学习率，以便在后续训练阶段进行微调。由于Adam优化器具有自适应矩估计特性，因此能够实现稳定和高效的优化。训练过程持续了100个周期，批量大小为

局限性和未来工作

Surg-YOLO通过与之前方法的不同之处在于，它提供了一个轻量级和实时的框架，专门用于捕获细粒度的手术动作，而不是高层次的手术阶段。该框架建立在YOLOv11架构之上，引入了三项创新：ESPPF模块，高效捕获多样化的多尺度空间特征；ST-MCAM，利用来自帧级特征差异的运动令牌（

Δ

X）来增强时间

结论

在这项研究中，我们介绍了Surg-YOLO，这是一个为微创手术需求优化的强大且高效的外科动作检测框架。通过扩展YOLOv11框架并加入ESPPF、ST-MCAM和DDPH三个定制模块，我们的模型在检测细粒度手术动作方面表现出色。在全面手术数据集上的实验结果表明，Surg-YOLO的性能优于多个最先进的基线模型，包括RetinaNet、Faster

CRediT作者贡献声明

郑思明：撰写——原始草案、方法论、概念化。A.S.M. Sharifuzzaman Sagar：撰写——审阅与编辑、资源管理、概念化。陈宇：可视化、监督、软件开发、项目管理、资金获取、数据管理。陈俊鸿：可视化、数据管理。于泽豪：可视化。史颖：验证。卢建峰：验证。

资助

本工作得到了2023年宁波市重点研发计划（编号：2024Z301）；浙江省医学与健康科技计划项目（编号：2022KY1114）；以及浙江省医学科技项目（编号：2024KY1499）的支持。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

方法

实验

局限性和未来工作

结论

CRediT作者贡献声明

资助

利益冲突声明

热点排行