基于边缘引导的自监督技术的多模态单目内窥镜深度与姿态估计

《International Journal of Computer Assisted Radiology and Surgery》：Multi-modal monocular endoscopic depth and pose estimation with edge-guided self-supervision

【字体：大中小】 时间：2026年05月11日 来源：International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐：

　　摘要目的：单目深度和姿态估计在开发结肠镜辅助导航系统中起着至关重要的作用。准确的几何理解可以减少盲点，降低漏诊或复发病变的风险，并防止检查不完整。然而，由于表面缺乏纹理、光照复杂、组织变形以及缺乏具有可靠真实数据的活体数据集，这项任务仍然具有挑战性。方法：我们提出了一个自

　　摘要

目的：单目深度和姿态估计在开发结肠镜辅助导航系统中起着至关重要的作用。准确的几何理解可以减少盲点，降低漏诊或复发病变的风险，并防止检查不完整。然而，由于表面缺乏纹理、光照复杂、组织变形以及缺乏具有可靠真实数据的活体数据集，这项任务仍然具有挑战性。

方法：我们提出了一个自监督学习框架，该框架利用解剖学和光照先验来指导几何学习。该框架整合了两种互补的线索：（1）边缘图，这些边缘图来自一个基于学习的检测器，该检测器被训练用来捕捉细小和高频的黏膜边界；（2）亮度分解，通过内在图像分离产生，将阴影与反射区分开。这些模态为姿态和深度网络提供了结构和光度指导，并应用了基于边缘的损失进行分阶段细化，从而在保持深度一致性的同时增强运动对齐。

结果：在模拟数据集（C3VD）和真实数据集（EndoMapper）上的实验表明，在深度估计方面取得了先进的性能，并在姿态估计方面具有竞争力的准确性。消融分析进一步评估了训练领域、时间采样和监督类型的影响。两个实际发现是：在真实数据上进行自监督训练的性能优于在模拟数据上进行监督训练，这突出了领域真实性的重要性；数据集特定的帧率采样对于生成有效的训练序列至关重要。

结论：所提出的框架通过结合结构和光照感知的线索，增强了内镜视频中的几何学习，为可靠的无标记结肠镜导航提供了坚实的基础。代码和预训练模型在以下链接公开可用：https://github.com/XinweiJu/PRISM。

引言
胃肠内镜检查是检测和治疗消化道内癌症和其他病变的重要程序[1]。然而，盲点、视线受限以及操作者之间的差异可能导致息肉遗漏、检查不完整或复发风险增加。计算机辅助导航可以通过改进病变检测和定位来解决这些挑战，从而支持更可靠和有效的筛查。基于视觉的运动和深度估计是此类系统的关键，使得无需额外的跟踪设备或对标准内镜进行硬件修改即可实现导航。自监督学习已成为单目深度和姿态估计的稳健框架[2,3,4]。这些方法通过光度一致性联合训练深度和姿态网络，激发了对内镜成像的适应性[5, 6]。然而，由于运动模式复杂和光照条件困难，性能仍然具有挑战性。

最近的研究致力于利用而不是抑制光照线索[7, 8]：LightDepth[9]模型模拟了光衰减和镜面反射，而SHADeS[10]和IID-SfMLearner[11]分解了阴影和反射。同时，如DexiNed[12]这样的几何先验已经显示出潜力，它被适配用于黏膜皱褶检测[13, 14]，边缘线索有助于息肉分割[15]。这些研究表明，光照和结构线索对于稳健的深度和运动估计具有价值，尽管它们作为辅助输入的联合使用尚未得到充分探索。此外，由于真实内镜视频中缺乏可靠的真实姿态和深度数据，模型训练和评估变得困难。为了补偿这一点，通常使用合成数据集和模拟数据集，如C3VD[16]、SimCol[17]和EndoSLAM[18]，但它们之间的领域差异限制了泛化能力。因此，在合成数据上训练的监督模型往往无法转移到真实场景中，而自监督方法在遮挡和光照变化下会遇到困难。尽管领域适应技术[19, 20]试图弥合这一差距，但标记合成数据和未标记真实数据之间的权衡仍未得到充分探索。

为了应对这些挑战，我们提出了PRISM（结合内在阴影和边缘图的姿态细化），这是一个分阶段的自监督框架，它将亮度线索注入DepthNet，将边缘线索注入PoseNet，然后通过边缘一致性损失进行姿态微调，同时固定深度。具体来说，基于DexiNed[12]并在SegCol[14]上训练的EdgeNet提供的结肠皱褶边缘图为运动估计提供了清晰的结构边界，而来自内在分解网络（LumNet，遵循SHADeS[10]）的亮度图有助于区分阴影和几何形状。训练是分阶段进行的，首先在自监督下联合优化深度和姿态网络，然后在保持深度固定的情况下，通过边缘一致性引导进行姿态微调。这种设计在具有挑战性的内镜场景中产生了更稳定的相机轨迹和更清晰的深度重建。特别是，边缘图为运动估计提供了更清晰的结构边界，而亮度线索减少了光照和表面几何形状之间的歧义，对镜面反光和低纹理内镜环境具有鲁棒性。重要的是，PRISM本身并不引入新的视觉线索；相反，它的贡献在于一种结构化的集成策略（选择性路由和分阶段细化），这在内镜光照变化和纹理稀缺的情况下稳定了自监督学习。此外，我们还进行了一系列比较实验，以确定在训练数据选择和监督方法方面的最佳基线方法。我们的主要贡献如下：

我们介绍了PRISM，这是一个多模态自监督框架，它将亮度线索整合到DepthNet中，将边缘线索整合到PoseNet中，表明与仅使用RGB相比，这种选择性分配改善了内镜中的几何学习。我们设计了一个分阶段训练策略，其中边缘图不仅被用作输入，还通过边缘一致性损失作为监督信号来微调PoseNet，同时固定DepthNet，从而提高了姿态准确性，而不会降低深度质量。我们提供了关于训练领域、时间帧采样和弱监督的分析，提供了这些因素如何影响内镜中深度和姿态学习的新见解。我们的模型在模拟数据上实现了先进的深度估计和可比的姿态准确性，并在真实数据中显示出对光照的更好鲁棒性和更清晰的皱褶边缘深度对比度。我们的系统分析进一步表明：（a）在实际数据上的训练比在模拟或合成数据上具有更好的泛化能力，即使在合成测试集上也是如此；（b）最佳时间采样因数据集和模型而异；（c）弱监督（例如，边缘引导的损失）可以在不损害深度准确性的情况下改善姿态估计。

方法论
在没有明确结构线索的情况下，传统的自监督方法通常会产生不稳定的姿态和在皱褶边界附近模糊的深度（见图2）。我们的方法通过引入两个辅助网络LumNet和EdgeNet来扩展标准的自监督单目深度-姿态框架[3]，这些网络为内镜场景提供光度和结构先验，以克服由光照变化、镜面高光和低纹理表面引起的挑战。EdgeNet捕获与运动相关的边界特征，有助于姿态估计，而LumNet提取与表面几何形状相关的光照线索，有助于区分光照和形状，从而稳定深度估计。图1展示了整个架构的概览，下面详细介绍了每个组件。

图1
我们提出的自监督单目深度估计框架的概览。我们的关键贡献是明确地用两个并行分支的先验来指导DepthNet：一个受IID-SfMLearner启发的LumNet，用于提取感知光照的亮度图（$L_t$），以及一个基于DexiNed的EdgeNet，用于提取高保真的结构边缘图（$E_t$）。DepthNet的输入是原始图像$I_t$、亮度图$L_t$和边缘图$E_t$的连接。

图2
我们提出的自监督单目深度估计框架的概览。我们的关键贡献是明确地用两个并行分支的先验来指导DepthNet：一个受IID-SfMLearner启发的LumNet，用于提取感知光照的亮度图（$L_t$，以及一个基于DexiNed的EdgeNet，用于提取高保真的结构边缘图（$E_t$）。

对真实世界内镜视频帧的泛化进行了定性评估，其中具有显著改进的部分用红色框标出。

网络组件和训练策略
我们的框架由四个网络组成：一个亮度提取器（LumNet）、一个边缘检测器（EdgeNet）、一个深度估计器（DepthNet）和一个姿态估计器（PoseNet）。LumNet遵循SHADeS[10]进行训练，通过将内镜图像解耦为亮度、反照率和镜面反射率成分来提取亮度图，这也可以抑制镜面反光。EdgeNet基于DexiNed[12]，从带有皱褶分割图的真实结肠镜数据（SegCol[14]）中从头开始进行训练，以生成高保真的皱褶边缘。我们不将边缘视为与视图无关的几何原语，而是将它们用作视点依赖的结构线索，突出显示皱褶边界和曲率变化，其外观变化为姿态细化提供了信息约束。遵循[3]中的标准做法，我们使用独立的PoseNet和DepthNet网络进行相机姿态和深度估计。

输入分配：与仅使用RGB帧的先前方法不同，DepthNet接受帧$(I_s, I_t)$和亮度图$(L_t, L_s)$来考虑深度-光照相关性，而PoseNet从配对的RGB和边缘输入$(I_s, I_t, E_s, E_t)$预测6自由度变换$\hat{T}_{t\rightarrow t^{\prime }}$，以便运动估计由定位皱褶的边缘引导。这种选择性路由允许光照线索规范形状，边缘线索约束运动，从而产生更清晰的深度和更稳定的轨迹。

分阶段训练：训练分为三个阶段进行。首先，预训练并冻结LumNet和EdgeNet。其次，使用自监督的光度和平滑损失共同优化PoseNet和DepthNet，并扩展了边缘和亮度线索。最后，我们用边缘感知的几何一致性损失微调PoseNet，同时固定DepthNet。我们观察到两个先验的不对称效应，边缘增强了运动对齐，而亮度稳定了深度，因此这种分阶段细化确保了准确的运动而不会降低深度质量。

自监督损失函数
DepthNet和PoseNet使用自监督目标共同进行训练，该目标强制相邻帧之间的几何一致性，所有损失均按照[3]中的多个尺度计算。

光度重投影（$L_{{\textbf {stage2}}}$：在第二阶段，使用光度重投影和梯度引导的平滑损失训练DepthNet和PoseNet：
$$\begin{aligned} L_{\text {stage2}} = \sum _{\sigma =0}^{3} \Big [&\lambda _{\text {photo}} \min _{t^{\prime }} pe(I_t^\sigma , I_{t^{\prime } \rightarrow t}^\sigma ) \nonumber \\ +&\lambda _{\text {smooth}} ( |\partial _x d_t^\sigma | e^{-|\partial _x I_t^\sigma |} + |\partial _y d_t^\sigma | e^{-|\partial _y I_t^\sigma |} ) \Big ] \end{aligned}$$
（1）
其中$\sigma $表示无量纲；$I_t^\sigma $和$d_t^\sigma $表示目标图像和倒数深度，而$\partial _x$、$\partial _y$表示水平和垂直梯度，$I_{t^{\prime } \rightarrow t}^\sigma $是使用预测的深度和姿态扭曲到目标位置的源帧。光度误差定义为：
$$\begin{aligned} pe(I_a, I_b) = \tfrac{\alpha }{2}(1 - \text {SSIM}(I_a, I_b)) + (1 - \alpha )\Vert I_a - I_b\Vert _1 \end{aligned}$$
（2）
其中$\alpha = 0.85$，取最小值以减轻遮挡。平滑项促进空间连贯性，同时保持边缘清晰。我们设置$\lambda _{\text {photo}}=1.0$和$\lambda _{\text {smooth}}=0.1$。

边缘引导的结构一致性（$L_{{\textbf {stage3}}}\）：为了细化几何对齐，使用边缘引导的结构一致性损失微调PoseNet：
$$ L_{\text {stage3}} = L_{\text {stage2}} + \lambda _{\text {edge}} L_{\text {edge}}, \quad \lambda _{\text {edge}} = 1.0 $$

第三阶段隔离了深度和姿态学习之间的不对称性。对于每个源帧\(t^{\prime }$和每个尺度$\sigma \in \{0,1,2,3\}$，我们提取其边缘图$E_{t^{\prime }}^\sigma $并使用预测的深度$D_t^\sigma $和相对姿态$T_{t \rightarrow t^{\prime }}$将其扭曲到目标视图。对于每个尺度和源帧：
$$\begin{aligned} L_{\text {edge}} = \sum _{\sigma =0}^{3} \frac{1}{N^\sigma } \sum _x \left( 1 - \text {SSIM}(E_t^\sigma (x), E_{t^{\prime } \rightarrow t}^\sigma (x)) \right) \end{aligned}$$
（3）
其中$E_{t^{\prime } \rightarrow t}^\sigma $是扭曲后的源边缘图，$N^\sigma $是有效像素的数量。这种损失与$L_{\text {stage2}}$中的光度项具有相同的扭曲变换和SSIM公式，但作用于边缘图，以强调对象边界的几何对齐。虽然$L_{\text {stage2}}$促进了不同视角间外观的一致性，但基于边缘的 Loss 通过强化结构一致性来补充这一点，从而产生了在视觉上连贯且在结构上精确的深度和姿态预测，这些预测能够跨越不同尺度。这种 Loss 有助于在投影到二维视角时正确对齐深度不连续性，鼓励出更好地对齐结肠褶皱结构的姿态估计，并减少低纹理区域的偏差。

实验与结果
实验设置
数据集：我们使用多个内窥镜数据集进行训练和评估。所有自监督网络组件（LumNet、PoseNet、DepthNet）都在 Hyper-Kvasir 数据集 [21] 的真实序列上进行训练，选择肠道准备良好的片段（BBPS 2–3），并以 25 fps 的速率采样，共计 16,976 帧；边缘检测网络（EdgeNet）则在包含手动标注的褶皱轮廓的 SegCol 子集 [14] 上进行训练，其训练和验证分割与 SegCol 挑战相同。定量评估在 C3VD 幻影数据集 [16] 上进行，该数据集提供了以 30 fps 的速率记录的姿态和深度真实值。我们根据 [22] 中的分割，在四个保留的轨迹（cecum_t4b、descending_t4a、sigmoid_t3b、transcending_t4b）上报告了测试结果。对于定性评估，我们使用了 EndoMapper 数据集 [23] 中的 1、16 和 95 帧来展示在完整真实内窥镜视频上的性能。我们注意到，尽管 C3VD 提供了密集的合成真实值，但在真实 Hyper-Kvasir 数据上训练的模型在合成域上评估时始终具有更好的准确性（见“消融研究”部分）。

超参数：我们的框架是用 PyTorch 实现的，并在单个 NVIDIA A100-SXM GPU 上使用 Adam （$\beta _1\!=\!0.9$, $\beta _2\!=\!0.999$）进行训练。初始学习率为 $1\times 10^{-4}$，在 15 个周期后通过步长调度器减少了 $\times 0.1$。输入根据相机内参进行了去畸变处理，裁剪并调整大小为 $288\times 288$；批量大小为 12。

在第一阶段，EdgeNet 进行了 20 个周期的训练；LumNet 使用了预训练的 SHADeS [10] 权重（训练了 20 个周期）。在第二和第三阶段，PoseNet 和 DepthNet 每个阶段都进行了 20 个周期的训练；在第二阶段，它们使用 KITTI 数据集上预训练的 MonoDepth2 [3] 权重进行初始化。

评估指标：我们采用了 Eigen 等人 [24] 制定的标准深度误差指标（Abs Rel、Sq Rel、RMSE、RMSE log）。此外，我们还报告了平均绝对误差（MAE）和中位绝对误差（MedAE）。对于相机姿态估计，我们遵循 Rau 等人 [17] 的协议，并使用 EVO 工具包 [25] 来报告绝对轨迹误差（ATE）。

表 1 显示了使用 Hyper-Kvasir 训练的模型在 C3VD 测试集上的深度估计的定量比较。最佳结果以粗体显示，第二好的结果用下划线标出。

与现有技术水平的比较
我们的模型与通用方法 [3, 4] 和内窥镜特定方法 [7, 11] 进行了比较，其中 SHADeS [10] 代表了最新针对胃肠道内窥镜进行微调的姿态和深度估计模型。方法 [7, 11] 最初是在不同的内窥镜领域（SCARED 数据集 [26]）上训练的，我们评估了原始权重（预训练的）和在 Hyper-Kvasir 上微调的版本（HK）。因此，Daher 等人 [10] 是直接在 Hyper-Kvasir（HK）上训练的，所以我们报告了这个模型的单一版本。表 1 显示，我们的方法和 MonoViT 在 C3VD 合成数据上的深度估计中表现最佳。我们的模型在对大误差敏感的指标（例如 RMSE）上表现最佳，而 MonoViT 在没有这种特征的指标（例如 MedAE、MAE）上表现最佳。然而，MonoViT 在真实数据上的表现明显不如大多数其他模型（见图 2），对光反射非常敏感，常常产生不希望的伪影。另一方面，SHADeS 也对反射具有很好的鲁棒性。尽管如此，我们的方法仍然能在结肠褶皱周围产生更清晰的边缘（第二行），并且不会在错误区域“幻想”出腔内特征（第三行）。虽然我们的方法在合成数据（C3VD）和真实数据（EndoMapper）上表现良好，但基线结果显示出混合的结果。鉴于真实内窥镜的视觉复杂性，我们认为，即使在缺乏真实值的情况下，也能在真实数据上表现出强烈的性能应该优先考虑。

我们还在图 2 的右侧两列中包括了真实图像的边缘图和阴影图。在第二行的左上区域和第二行的细微黏膜褶皱以及第四行的下边界中，边缘图中的清晰预测是可以检测到的，从而为深度估计提供了有用的结构线索。然而，在第一行中，由于气泡反射而产生的多个虚假边缘出现在边缘图中，但它们并不会影响最终的深度预测。这些观察表明，该框架对适度的边缘预测噪声仍然具有鲁棒性，同时仍能从准确的结构线索中受益。

对于姿态估计，表 1 中的 ATE 结果表明 SHADeS 在幻影数据上获得了最低的 ATE，我们的方法排名第二。

我们的模型与通用方法 [3, 4] 和内窥镜特定方法 [7, 11] 进行了比较，其中 SHADeS [10] 代表了最新为胃肠道内窥镜精细调优的姿态和深度估计模型。方法 [7, 11] 最初是在不同的内窥镜领域（SCARED 数据集 [26]）上训练的，我们评估了原始权重（预训练的）和在 Hyper-Kvasir 上微调的版本（HK）。因此，Daher 等人 [10] 是直接在 Hyper-Kvasir（HK）上训练的，所以我们报告了这个模型的单一版本。表 1 显示，我们的方法和 MonoViT 在 C3VD 合成数据上的深度估计中表现最佳。我们的模型在对大误差敏感的指标（例如 RMSE）上表现最佳，而 MonoViT 在没有这种特征的指标（例如 MedAE、MAE）上表现最佳。然而，MonoViT 在真实数据上的表现明显不如大多数其他模型（见图 2），对光反射非常敏感，经常产生不希望的伪影。另一方面，SHADeS 也对反射显示出了良好的鲁棒性。尽管如此，我们的方法仍然能在结肠褶皱周围产生更清晰的边缘（第二行），并且不会在错误区域“幻想”出腔内特征（第三行）。虽然我们的方法在合成数据（C3VD）和真实数据（EndoMapper）上表现良好，但基线结果显示出混合的结果。鉴于真实内窥镜的视觉复杂性，我们认为，尽管缺乏真实值，但在真实数据上表现出强性能应该被优先考虑。

我们还在图 2 的右侧两列中包括了真实图像的边缘图和阴影图。在第二行的左上区域和第二行的细微黏膜褶皱以及第四行的下边界中，边缘图中的清晰预测是可检测到的，从而为深度估计提供了有用的结构线索。然而，在第一行中，由于气泡反射而产生的几个虚假边缘出现在边缘图中，但它们并没有影响到最终的深度预测。这些观察表明，该框架对适度的边缘预测噪声仍然具有鲁棒性，同时仍能从准确的结构线索中受益。

在姿态估计方面，表 1 中的 ATE 结果表明 SHADeS 在幻影数据上获得了最低的 ATE，我们的方法排名第二。虽然结构先验可以提高深度估计的几何一致性，但深度和姿态的联合优化可能会在这两个目标之间引入轻微的权衡。在我们的框架中，结合结构先验主要有利于深度重建和边界保持，这略微改变了姿态估计的优化平衡。然而，在第三阶段引入的基于边缘的 Loss 通过细化姿态估计来缓解了这种效应，而不会修改深度预测。这种行为也得到了表 2 中消融研究的支持。总的来说，我们的方法在提供更可靠的深度估计和更清晰的内窥镜场景结构细节的同时，仍然实现了有竞争力的姿态准确性。

消融研究
结构先验和基于边缘的训练：在表 2 中，我们通过在一个统一的训练和评估协议下进行的消融研究分析了结构先验和基于边缘的训练策略的贡献。在所有变体中，将亮度特征分配给 DepthNet 和将边缘特征分配给 PoseNet（DLPE）实现了最低的深度误差和最稳定的轨迹。相比之下，随意组合先验（例如 DE、PL）或联合边缘损失训练往往会降低深度和姿态估计的质量；所有组合的消融结果都在补充材料表 1 中报告。作为参考点，我们从仅使用 RGB 输入在 Hyper-Kvasir 上训练的 Monodepth2 自监督模型开始。

结果进一步揭示了结构先验和基于边缘的训练的不同作用。将结构先验作为输入特征可以改善深度估计，但略微降低姿态准确性，反映了深度和相机运动之间的耦合优化。相比之下，基于边缘的 Loss 主要有利于姿态估计。如表 2 所示，使用基于边缘的 Loss （$^\dagger $）逐步微调 PoseNet 显著提高了轨迹准确性，同时保持了 DLPE 获得的深度性能，而端到端联合训练则略微降低了两者。总体而言，这些结果表明：(i) 应该选择性地将结构先验分配给每个子网络；(ii) 逐步基于边缘的细化提供了深度和姿态估计之间最佳的权衡。

表 2 显示了使用 Hyper-Kvasir 训练的模型在 C3VD 测试集上，基于 DLPE 设置的基线 Monodepth2 [3] 和 PRISM 在深度和姿态估计方面的定量比较。最佳结果以粗体显示，第二好的结果用下划线标出。

训练域、帧间隔和监督的影响：除了模型配置之外，我们进一步研究了数据集域和时间采样如何影响自监督学习的稳定性。为此，我们在固定的 PRISM 和 DLPE 设置下进行分析，并系统地变化训练域（C3VD vs. Hyper-Kvasir）、时间间隔和监督模式。为了清晰起见，表 3 报告了代表性设置：C3VD 上的基本间隔（interval=1）、C3VD 上表现最好的间隔（interval=30）、相同间隔下 C3VD 上的监督变体，以及 Hyper-Kvasir 上表现最好的配置（interval=1）。该表关注数据中心因素（域、时间间隔和监督模式），在固定的 PRISM 配置下分析训练稳定性趋势。

结果显示，在真实 Hyper-Kvasir 数据上训练在 C3VD 上获得了最佳的泛化能力，即使在使用幻影数据评估时也显示出了真实域多样性的好处。在 C3VD 上，较大的时间间隔为学习提供了更强的运动线索，而在 C3VD 上结合监督深度并没有带来进一步的改进，这可能是由于可用真实值的噪声和不完整性。为了完整性，补充材料表 3 中报告了 Monodepth2 的单独监督与自监督比较，显示出了支持自监督训练的类似趋势。我们还评估了其他基线家族在数据集和时间间隔上的情况，并观察到大致一致的趋势；完整的定量结果在补充材料表 4 中提供，而 EndoMapper 的定性示例显示在图 3 中。总体而言，即使在缺乏真实值的情况下，真实数据上的自监督训练也一致地导致了更强的准确性和泛化能力。

图 3
此图像的替代文本可能是使用 AI 生成的。

表 3 使用 PRISM 和 DLPE 设置在 C3VD 测试集上，使用 Hyper-Kvasir 训练的模型在深度和姿态估计方面的定量比较，基线为 Monodepth2 [3] 和 PRISM。

我们的模型提出的方法结合了亮度和边缘线索，无论是在合成数据还是真实数据上都能实现最平衡的性能。在 C3VD 合成数据集上，它在对大重建误差敏感的指标上优于大多数基线，同时在基于中值的指标上与 MonoViT 相竞争。在 EndoMapper 真实数据集上，定性比较显示结肠褶皱周围的结构边界更清晰，反射伪影更少，腔内表示在解剖学上更一致，表明对光照变化和纹理模糊性的鲁棒性更好。总体而言，这些结果表明亮度线索稳定了几何学习，而边缘线索限制了运动，共同导致了更可靠的深度和姿态估计。消融研究证实，边缘和亮度特征都增强了深度估计，尽管代价是降低了姿态估计的准确性。我们只有通过一个基于边缘的细化阶段才实现了最先进的姿态估计水平。值得注意的是，亮度特征被 DepthNet 编码器 best 利用，而边缘特征在 PoseNet 编码器中最有益，尽管这两种特征类型在联合训练阶段共同贡献于改进深度估计。

在所有实验中，我们发现幻影数据集（C3VD）和真实数据集（Hyper-Kvasir）在训练和测试之间存在显著差异。在 C3VD 上表现良好的模型往往无法泛化到真实数据（例如 MonoVIT），这可能是因为真实数据包含更丰富的视觉特征和更复杂的运动模式。我们还发现视频子采样是影响性能的关键因素，其最佳设置严重依赖于训练数据的运动特性。综上所述，这些结果表明深度和姿态估计的性能受到数据真实性和时间采样策略的强烈影响。这不是一个限制，因为我们的研究通过受控实验明确分析了这种依赖性。重要的是，在匹配的训练数据和时间采样条件下，我们的方法始终优于竞争方法，证明了其在公平和可比较的评估设置下的有效性。

我们的框架利用了预训练的 EdgeNet 来提取指导深度和姿态估计的结构先验。重要的是，EdgeNet 预测的边缘被用作结构先验，而不是深度预测的直接监督。主要的监督仍然来自光度重投影 Loss，它强制多视图几何一致性。因此，边缘图中的偶尔错误或遗漏的检测不会直接破坏深度或姿态估计。实际上，检测到的边缘倾向于与内窥镜场景中的稳定解剖边界对齐，例如褶皱和腔内结构，这在不同数据集中提供了有用的结构信号。尽管如此，探索自适应或联合学习的边缘表示可能会进一步提高鲁棒性和泛化能力，我们认为这是未来工作的一个有趣方向。

结论
我们提出的模型通过选择性地整合亮度和边缘线索，在合成和真实数据域上都实现了最平衡的性能。在 C3VD 合成数据集上，它在对大重建误差敏感的指标上优于大多数基线，同时在基于中值的指标上与 MonoViT 相竞争。在 EndoMapper 真实数据集上，定性比较显示结肠褶皱周围的结构边界更清晰，反射伪影更少，腔内表示在解剖学上更一致，表明对光照变化和纹理模糊性的鲁棒性更好。总体而言，这些结果表明亮度线索稳定了几何学习，而边缘线索限制了运动，共同导致了更可靠的深度和姿态估计。

消融研究证实，边缘和亮度特征都增强了深度估计，尽管代价是降低了姿态估计的准确性。我们只有通过一个基于边缘的细化阶段才实现了最先进的姿态估计水平。值得注意的是，亮度特征被 DepthNet 编码器最佳利用，而边缘特征在 PoseNet 编码器中最有益，尽管这两种特征类型在联合训练阶段共同有助于改进深度估计。

在所有实验中，我们发现幻影数据集（C3VD）和真实数据集（Hyper-Kvasir）在训练和测试之间存在显著差异。在 C3VD 上表现良好的模型往往无法泛化到真实数据（例如 MonoVIT），这可能是因为真实数据包含更丰富的视觉特征和更复杂的运动模式。我们还确定了视频子采样是影响性能的关键因素，其最佳设置严重依赖于训练数据的运动特性。综合考虑这些结果，深度和姿态估计的性能受到数据真实性和时间采样策略的强烈影响。这不是一个限制，因为我们的研究通过受控实验明确分析了这种依赖性。重要的是，在匹配的训练数据和时间采样条件下，我们的方法始终优于竞争方法，证明了其在公平和可比较的评估设置下的有效性。

我们的框架利用了预训练的 EdgeNet 来提取指导深度和姿态估计的结构先验。重要的是，EdgeNet 预测的边缘被用作结构先验，而不是直接用于深度预测的监督。主要的监督仍然来自光度重投影 Loss，它强制了多视图几何一致性。因此，边缘图中的偶尔错误或遗漏的检测不会直接破坏深度或姿态估计。实际上，检测到的边缘倾向于与内窥镜场景中的稳定解剖边界对齐，例如褶皱和腔内结构，这些在数据集之间提供了有用的结构信号。尽管如此，探索自适应或联合学习的边缘表示可以进一步提高鲁棒性和泛化能力，我们认为这是未来工作的一个有趣方向。

我们的模型提出的方法结合了亮度和边缘特征，提供了比大多数基线方法更可靠的深度估计。边缘引导改进了运动对齐，而亮度增强了几何一致性，通过逐步优化选择性地使用它们实现了深度和姿态准确性的有效平衡。在不同数据集之间，我们进一步观察到域特性和时间采样的变化强烈影响了模型性能，强调了数据真实性和运动动态在自监督学习中的重要性。未来的研究可以探索自适应融合策略和域适应技术，以进一步提高跨域泛化能力。尽管在深度和姿态准确性方面已经取得了改进，但我们注意到，这一研究领域的进一步进展需要超出目前可用的公共基准（Hyper-kvazir、C3VD、Endomapper）的额外临床验证。未来的工作应该更直接地涉及医疗团队，以评估深度和姿态模型的临床效用和工作流程整合。

热点排行