通过多模态图像融合实现眼科手术中全面的实时场景理解

《International Journal of Computer Assisted Radiology and Surgery》:Toward comprehensive real-time scene understanding in ophthalmic surgery through multimodal image fusion

【字体: 时间:2026年05月22日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  目的:将多模态成像集成到手术室为全面的手术场景理解铺平了道路。目前在眼科手术中,有两种互补的成像模态可用:手术显微镜(OPMI)成像和实时术中光学相干断层扫描(iOCT)。这项针对 temporal OPMI 和 iOCT 特征融合的首次工作,通过玻璃体视网膜

  
目的:将多模态成像集成到手术室为全面的手术场景理解铺平了道路。目前在眼科手术中,有两种互补的成像模态可用:手术显微镜(OPMI)成像和实时术中光学相干断层扫描(iOCT)。这项针对 temporal OPMI 和 iOCT 特征融合的首次工作,通过玻璃体视网膜手术中精准器械追踪的例子,展示了多模态图像处理在多头部预测方面的潜力。 方法:研究人员提出了一种多模态、时序性、具备实时能力的网络架构,以执行联合器械检测、关键点定位和器械-组织距离估计。该网络设计集成了一个交叉注意力融合模块,以合并 OPMI 和 iOCT 图像特征,这些特征分别通过 Yolo-NAS 和 CNN(卷积神经网络)编码器高效提取。此外,一个基于区域的循环模块利用了时间相干性。 结果:实验表明可靠的器械定位和关键点检测(95.79% mAP50),并且显示 iOCT 的加入显著改善了器械-组织距离估计,同时实现了每帧 22.5 ms 的实时处理速率。特别是对于靠近视网膜的近距离(低于 1 mm),距离估计精度从 284 μm(仅 OPMI)提高到 33 μm(多模态)。 结论:多模态成像的特征融合相比单模态处理能增强多任务预测精度,并且通过定制的网络设计可以实现实时处理性能。虽然结果展示了多模态处理在图像引导的玻璃体视网膜手术中的潜力,但也强调了激励未来朝着更可靠、一致和全面手术场景理解研究的关键挑战。
论文解读:通过多模态图像融合实现眼科手术中全面的实时场景理解
研究背景与意义:
眼科特别是玻璃体视网膜手术是最为精细的微创手术之一,涉及对脆弱眼组织结构的精准操作。在这类手术中,确保精细的器械-组织相互作用时的安全性对于防止不可逆的视网膜损伤至关重要,而手术可视化是实现精准可靠结果的核心。传统上,玻璃体视网膜外科医生仅依靠手术显微镜(OPMI)的视野,虽然该视图提供了视网膜的广角可视化,但无法实现对亚表面层结构、细微视网膜病理以及器械相对于眼部解剖位置精确估计的微米级分辨率成像。过去十年中,随着光学相干断层扫描(OCT)集成到手术显微镜中,具备了额外的实时横截面成像(轴向分辨率达微米级),即术中光学相干断层扫描(iOCT)。当前的设置中可用的多模态数据包括 OPMI 成像(每一帧配对一组两个垂直的横截面 iOCT B-scan)。研究表明 iOCT 可以增强用于手术决策的 anatomic 和组织病理识别与评估,并提高深度相关器械靶向的精度。除了直接手术可视化外,OPMI 和 iOCT 成像已被用于许多先进的图像引导玻璃体视网膜应用,例如基于 OPMI 的器械追踪、手术阶段理解,以及基于 iOCT 的机器人手术引导(如自主视网膜下注射)。然而,大多数现有方法仍局限于单模态输入,缺乏能够跨互补数据流进行推理以实现整体手术场景理解并克服分析单一模态固有局限的统一架构。整合来自多个成像模态的信息能够实现对环境更全面的理解,并支持更精确可靠的模型预测。因此,研究人员开展了本研究,旨在提出首个用于时序 OPMI 和 iOCT 特征融合的多模态(MM)和循环多模态(RMM)框架,以实现联合关键点检测、分类和器械到视网膜距离的精确估计,该论文发表在《International Journal of Computer Assisted Radiology and Surgery》。
主要关键技术方法:
研究人员基于合成的照片级真实感且有完全注释的时间同步多模态数据集(包含20个视频,共69134帧,模拟视网膜膜剥离和视网膜下注射两种手术,4种器械类别)开展研究。网络架构方面,主要采用了基于 Yolo-NAS-m 的主干处理 OPMI 流,采用改进的 ResNet-18 编码器提取 iOCT 特征;设计了交叉注意力融合模块将 OPMI 像素特征作为查询(Query),iOCT 列描述符作为键/值(Key/Value)进行特征合并;引入了轻量级循环单元(GRU/LSTM)处理连续帧序列以增强时间一致性和对瞬时数据损坏的鲁棒性;预测头方面,除了保留原有的检测和关键点头,还新增了基于分布回归公式的器械-组织距离估计头,并利用分布焦点损失(Distribution Focal Loss)进行监督,同时可从预测分布中导出确定性分数。
研究结果:
引言部分相关的研究基础指出,OPMI 与 iOCT 的融合能使空间和时间理解增强,但眼科手术中二者几何对齐存在挑战(OPMI 为面内表面视图,iOCT 为正交横截面深度),且深度信息在空间上稀疏。
方法论(Methodology):
研究人员提出了多模态、时间一致的架构,扩展了单模态(SM)单阶段检测器,包含二级分支用于多模态数据集成、跨模态注意力融合模块和用于时间细化的轻量级循环单元,联合执行器械检测、关键点定位和器械-组织距离估计。网络结构包括两个并行流:主流使用 Yolo-NAS-m 主干处理 OPMI 帧,生成多尺度特征金字塔;支流使用改进的 ResNet-18 编码器提取 iOCT 特征,输出 M 个列描述符。融合模块采用交叉注意力机制,使 OPMI 特征选择性查询 iOCT 数据,并加入正弦位置编码以建模空间对应关系。循环模块在融合后对特征图下采样生成区域描述符,由循环单元处理时间序列,再通过上采样融合,且通过余弦对比损失监督以处理损坏的 iOCT 输入。预测头中,距离估计头预测距离分箱的离散概率分布,最终距离由期望值得处,并可计算最有可能分箱的确定性。
实验(Experiments):
数据来源于前述的完全注释同步多模态合成数据集,包含 OPMI 和正交 iOCT B-scan,iOCT 数据建模了真实的典型伪影(如器械阴影、镜像)。实验设置基于 Yolo-NAS-m(SuperGradients 库,COCO 预训练权重),训练使用 AdamW 优化器和余弦学习率调度。指标包括器械检测的 mAP50、关键点定位的平均像素距离(kp dist)、距离估计的平均绝对误差(dMAE,总体及 <1 mm 的 dMAE0:1),以及高确定性(>90%)下的 dMAE。
结果和讨论(Results and discussion):
静态多模态(SM 与 MM):MM 模型相比 SM 基线,器械检测 mAP50 从 94.27% 显著提高至 95.79%;关键点定位无显著差异;距离估计总体 dMAE 从 480.93 μm 降至 128.32 μm(降低73%),近距离(<1 mm)dMAE 从 284.01 μm 显著降至 33.05 μm(降低88%)。MM 仅带来少量计算开销(22.5 ms/帧 vs 18.0 ms/帧),保留了术中集成所需的实时性能。定性结果显示,仅 OPMI 的 SM 模型在视觉深度线索弱或无时精度下降,而加入 iOCT 可在视觉深度线索模糊时维持可靠的距离估计;SM 模型的高预测置信度与较低深度误差相关,MM 在高确定性(>90%)时 dMAE 从 143 μm 降至 54 μm。
循环多模态(RMM):RMM 变体在 16 帧序列上集成时间上下文,并训练为处理缺失或损坏的 iOCT 数据。RMM 保持了与非循环模型相当的检测(mAP50: 94.92 ±0.29%)和关键点定位(kp dist: 9.65 ±0.42 px)性能。在模拟 iOCT 嵌入连续帧损坏的评估中,GRU 变体始终优于 LSTM 变体;当 iOCT 输入完整时 RMM dMAE 为 191.80 μm,引入损坏特征时增至 314.01 μm(仅损坏帧为 585.18 μm)。时间融合对短期噪声提供了适度的弹性,但当 iOCT 流持续不可靠时鲁棒性下降,表明网络可能过度依赖 iOCT 流进行深度感知,存在多模态系统中常见的模态崩塌(modality collapse)现象。这指出了多模态时间融合的更广泛挑战:虽然在适度噪声下可增强一致性和鲁棒性,但在不同数据质量下维持可靠性仍难以实现。
结论(Conclusion):
研究人员提出了一种多模态 OPMI–iOCT 框架,通过交叉注意力融合和循环细化集成空间、时间和深度信息,以联合检测、定位手术器械并估计其距离。在完全注释的合成多模态序列上的评估,确立了眼科手术中深度感知、整体场景理解的首个原理证明,展示了多模态融合如何在安全关键的器械-组织邻近操作中加强感知。通过引入提供校准确定性的分布距离头,该框架为可靠性感知的手术引导奠定了基础,并为能够在真实术中条件下维持鲁棒性的自适应、时间对齐的多模态融合开辟路径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号