MSLP-S2MDEL：基于多尺度拉普拉斯金字塔的单目深度估计方法，适用于腹腔镜手术中的自主深度测量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：MSLP-S2MDEL: Multi-scale Laplacian pyramid-based self-supervised monocular depth estimation for laparoscopic surgery

【字体：大中小】 时间：2026年02月21日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　准确深度估计对腹腔镜手术导航至关重要，本文提出自监督单目深度估计框架MSLP-^S₂MDEL，通过多尺度拉普拉斯金字塔联合建模全局场景结构和细软组织边界，结合深度残差模块和坐标注意力机制提升空间特征表达，并采用亮度一致性自监督策略减少标注依赖。实验表明该框架在SCARED、Hamlyn和自建临床数据集上深度估计精度达96.6%，显著优于现有方法。

作者：徐翔、肖伟、李婉燕、常青、刘坤

上海科学技术大学理学院，中国上海 200093

摘要

精确的深度估计对于腹腔镜手术中的导航和安全操作至关重要。在本文中，我们提出了MSLP-S2MDEL，这是一种基于自监督的单目深度估计框架，旨在无需密集的真实标签注释即可从单张腹腔镜图像中重建可靠的深度信息。该方法利用多尺度拉普拉斯金字塔同时建模全局场景结构和精细组织细节，而深度残差模块进一步增强了软组织边界的精确重建。为了进一步增强空间特征表示，引入了一种轻量级的注意力机制，并采用基于亮度一致性的自监督策略来减少对标注数据的需求。在SCARED数据集上的实验表明，MSLP-S2MDEL在标准深度度量标准（估计深度与真实深度相差在1.25倍范围内的像素比例）下的准确率为96.6%，始终优于现有的先进方法。在Hamlyn数据集和自收集的人体腹腔镜数据集上的额外验证证明了其鲁棒性和临床潜力。与现有方法相比，我们的方法在深度精度上有了显著提升，同时减少了对标注数据的需求。

引言

由于创伤小、术后恢复快以及麻醉需求低等优点，腹腔镜手术已成为微创干预的基石[1]。然而，尽管有这些优势，大多数术中导航系统仍然依赖于二维（2D）成像，这缺乏真正的深度感知和立体视觉线索[2]。这种限制导致外科医生对动态变形组织的三维（3D）空间拓扑的感知存在显著偏差，增加了解剖不准确或意外损伤的风险。为了克服这些限制，开发实时3D拓扑映射技术[3]对于动态手术场景至关重要。精确的深度估计具有提供定量空间指导的潜力[4]，能够实现精确的解剖层识别并避开血管等关键结构——最终提高腹腔镜手术的安全性和精确度[5]。

然而，在腹腔镜领域实现精确的单目深度估计仍然面临三大挑战：（1）生物组织约束：器官的弹性变形和软组织的半透明特性在传统光学测距技术中引入了系统性误差[6]；（2）图像采集限制：单目视图中的遮挡和手术光源的镜面反射常常会遮挡或扭曲表面纹理特征[7]；（3）动态环境干扰：呼吸节奏和器械与组织的相互作用导致复杂的非刚性位移，使深度推断变得复杂[8]。为了解决这些挑战，以往的研究主要采用了基于几何的技术，如运动结构恢复（SfM）[9]、同时定位与映射（SLAM）[10]和阴影形状恢复（SfS）[11]。然而，这些方法往往无法达到手术环境中所需的精度水平[12]，这主要是由于腹腔镜图像中的纹理稀疏和特征分布不均匀。

随着深度学习的发展，单目深度估计取得了显著进展。早期的方法使用了完全监督的学习模型，如多尺度深度估计网络[13]、深度融合架构[14]和用于深度估计的分类模型[15]。尽管这些模型在精度上取得了显著提升，但边界分割仍然不够精确。为了解决这一限制，先前的研究探索了边缘细化策略[16]和在曝光不足区域增强特征匹配[17]。然而，对于纹理较弱和结构动态变化的医学图像，仅依赖单一线索仍然不够。为了克服这一挑战，李等人[18]提出了一种轻量级的多尺度架构来加强空间表示，而Karthiga等人[19]引入了自适应元启发式优化来提高模型的鲁棒性。

尽管这些方法可以实现高精度的深度预测，但它们对大规模、高质量标注数据的依赖性限制了其可扩展性，特别是在标注成本高昂且必须严格保护数据隐私的医学领域。针对这些限制，最近的研究越来越多地转向自监督学习（SSL）方法。这些方法通过使用几何或光度一致性作为隐式监督信号，消除了对手动深度标注的需求[20]。Zhou等人的开创性工作[21]引入了一种基于单目视频的框架，通过相邻帧之间的几何一致性联合估计深度和姿态。

由通讯作者领导的一项最新研究[22]提出了一种立体匹配模型，该模型整合了全多尺度特征和3D傅里叶变换，有效地学习了密集的视差线索和频域表示，从而生成高精度的深度图。这种方法通过引入来自立体视角的强健空间约束，补充了时间序列方法。虽然SSL方法在可扩展性和适应性方面具有前景，但许多当前的实现依赖于具有重复上采样层的对称解码器架构。这样的设计往往难以保留清晰的组织边界和复杂的解剖结构，导致在需要高空间精度的手术场景中性能不佳[23]。

为了解决这些限制，本文提出了一种用于腹腔镜手术的新型自监督单目深度估计方法，称为MSLP-S2MDEL，该方法结合了多尺度拉普拉斯金字塔结构进行分层特征分解和重建，基于深度残差的细化以保留解剖细节和软组织边界[24]，坐标注意力机制以增强空间适应性特征表示[25]，以及基于亮度一致性的自监督学习策略[26]以减少对标注数据的依赖。这些特点共同构成了一个统一且鲁棒的实时深度估计框架，专门针对复杂的腹腔镜场景所面临的视觉挑战进行了设计。它提高了算法性能，同时直接改善了术中的空间感知——有可能减少手术错误、缩短手术时间并提高患者安全性。

本研究的主要贡献如下：

•
多尺度拉普拉斯金字塔架构：MSLP-S2MDEL采用ResNet18[27]作为骨干，用于分层分解图像特征。然后使用拉普拉斯金字塔重建网络将多个感受野和残差路径的特征融合在一起，从而有效提取腹腔镜场景的复杂全局结构和局部细节。
•
基于深度残差的局部细节恢复：采用残差映射策略选择性地细化局部特征，改善了腹腔镜场景中精细解剖结构和软组织边界的重建，从而提高了微创手术引导的临床精度。通过跳跃连接保留了低级空间细节，减轻了多级卷积和池化层的退化效应。
•
坐标注意力驱动的空间特征增强：集成坐标注意力机制，动态重新加权空间敏感特征，增强了模型定位可变形和被遮挡的腹腔镜组织区域的能力。此外，基于亮度一致性的自监督损失减少了对外部标注数据的依赖，同时在不同的光照和运动条件下提高了泛化能力。
•
广泛的数据集验证，包括自收集的临床腹腔镜数据集：MSLP-S2MDEL在两个公共腹腔镜数据集SCARED和Hamlyn上进行评估，同时也在上海交通大学医学院瑞金医院收集的真实临床腹腔镜数据上进行了验证。

方法论

为了解决腹腔镜手术中视野限制、组织结构多样性和光照变化等挑战，提出了一种基于多尺度拉普拉斯金字塔的新型自监督单目深度估计方法，称为MSLP-S2MDEL。MSLP-S2MDEL的架构由五个模块组成，如图1所示。

(a) 自我运动估计模块：通过挖掘两个摄像头之间的自我运动关系，建立了一个六自由度（DoF）运动模型

数据集

为了评估MSLP-S2MDEL的性能，使用了公开可用的SCARED数据集[35]进行训练。该数据集包含35组离体猪腹腔的内窥镜视频序列，以及高精度的激光点云数据和自我运动估计的真实标签。根据KITTI基准[13]，SCARED数据集被分为15,351帧的训练集、1,705帧的验证集和551帧的测试集。

消融研究

在本节中，对MSLP-S2MDEL的各个组成部分（包括批量大小、优化器、编码器架构和注意力机制）进行了系统的消融实验，采用控制变量方法来评估它们的贡献。基线配置在表3的第一行中用粗体标出，该配置使用批量大小为8、AdamW优化器、ResNet18编码器和坐标注意力（CA）。

结论

在这项研究中，我们提出了一种用于腹腔镜手术的新型自监督单目深度估计框架MSLP-S2MDEL，该框架结合了多尺度拉普拉斯金字塔架构和深度残差。这种设计能够同时提取腹腔镜表面的全局几何结构和细粒度局部细节。这种双重能力在临床上具有变革性：它有助于精确重建微小血管或神经等微结构。

CRediT作者贡献声明

徐翔：撰写——原始草案。肖伟：撰写——审阅与编辑，监督。李婉燕：撰写——审阅与编辑，监督。常青：数据管理。刘坤：数据管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了中国自然科学基金（项目编号：25ZR1401264）和国家自然科学基金（项目编号：62103283）的资助。作者衷心感谢新南威尔士大学悉尼分校的Bao Jie教授在本研究过程中的宝贵反馈和指导。作者还要感谢北京Surgerii Robotics有限公司慷慨提供图1中展示的部分图像。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号