混合双体积学习法在迭代融合与自适应深度细化中的应用：基于焦点的形状重建作者：Khurram Ashfaq 和 Muhammad Tariq Mahmood

《Mathematics》：Hybrid Dual Volume Learning for Iterative Fusion and Adaptive Depth Refinement for Shape from Focus Khurram Ashfaq and Muhammad Tariq Mahmood

【字体：大中小】 时间：2026年05月11日 来源：Mathematics 2.2

编辑推荐：

　　摘要：基于焦点的形状（SFF）通过分析在不同焦距设置下捕获的一系列图像中的焦距变化来估计场景深度。传统的SFF方法依赖于手工制作的焦距运算符，这些运算符可以保留局部结构细节，但它们通常对噪声敏感，在无纹理区域的表现较差。相比之下，基于深度学习的方法更加稳健，能够利用语义和上下文线

　　摘要：基于焦点的形状（SFF）通过分析在不同焦距设置下捕获的一系列图像中的焦距变化来估计场景深度。传统的SFF方法依赖于手工制作的焦距运算符，这些运算符可以保留局部结构细节，但它们通常对噪声敏感，在无纹理区域的表现较差。相比之下，基于深度学习的方法更加稳健，能够利用语义和上下文线索，但由于特征抽象和空间下采样，可能会丢失精细的结构信息。为了解决这些互补的局限性，我们提出了一个双分支SFF框架，该框架在统一架构中整合了深度和传统的焦距线索。第一个分支使用多尺度编码器-解码器网络生成深度焦距体积，而第二个分支使用 directional dilated Laplacian（DDL）运算符计算传统的焦距体积以捕获结构焦距响应。这两个体积通过迭代门控融合模块逐渐结合，产生更具区分性的融合焦距表示。从这个融合体积中，通过基于softmax的切片聚合策略估计出初始深度图。为了进一步提高空间一致性和减少残余伪影，我们引入了一个由焦点堆栈的平均RGB图像引导的轻量级深度细化模块。这个细化阶段提高了边界质量，并改善了整体深度结构。在合成和真实世界数据集上的广泛实验表明，所提出的框架能够产生准确可靠的深度图。

1. 引言
基于焦点的形状（SFF）是一种被动单目技术，它利用焦距作为线索来重建3D场景结构。其基本原理是，相机在某个像素上产生最高清晰度的焦点设置对应于该像素的深度，这是由薄透镜模型所决定的。该过程首先捕获一个焦点堆栈，即一系列具有不同焦距设置的图像，在不同的帧中不同的场景区域会显得清晰。一个基本步骤是为堆栈中的每个像素计算焦距度量，以构建一个焦距体积（FV）。最后，通过沿着光轴选择产生每个像素最大响应的焦点级别来提取深度[1,2]。

在SFF中，焦距体积对于准确的深度恢复至关重要。在传统的SFF方法中，焦距体积是使用手工制作的焦距度量运算符计算的[3]，例如修改后的Laplacian[1]、局部方差[4]，这些运算符用于估计焦距堆栈中像素的清晰度。虽然这些运算符在捕获高频结构细节和精确的局部焦距变化方面表现优秀，但它们通常会产生噪声较大的焦距体积（FV）[5]。为了缓解这一问题，后续的工作引入了专门的滤波器[6,7,8]以及各种优化和正则化框架[9,10]。然而，尽管有这些改进，传统技术（包括基于正则化的框架）仍然存在固有的局限性。它们仍然非常容易受到图像噪声的影响，在无纹理或均匀区域中表现不佳，因为这些区域的高频线索很少。此外，它们依赖于硬性的argmax操作来严格基于离散的焦平面分配深度，这限制了输出为量化的深度图，最终无法平滑地捕获连续的深度变化。

近年来，深度学习在从焦点堆栈中估计深度方面取得了显著进展[11]。卷积神经网络被广泛用于直接从输入图像中学习焦距体积（FVs）。为此目的，已经探索了2D和3D编码器-解码器（2DED和3DED）架构[11,12,13]。在2DED模型中，2D卷积独立应用于堆栈中的每个图像，然后聚合得到的特征图被用来构建焦距体积[14]。3DED模型直接对3D输入图像堆栈应用3D卷积，从而同时捕获空间和焦点级别的信息[13,15,16]。与传统的焦距运算符不同，这些深度学习模型可以利用全局上下文和语义信息来准确推断深度，即使在无纹理区域也是如此，从而产生更加稳健和连贯的深度预测。尽管有这些显著的进步，纯基于深度学习的方法也有其缺点[17]。特征编码过程，特别是在涉及空间下采样的情况下，往往会模糊精细的对象边界。这不可避免地导致传统焦距运算符自然保留的清晰的高频结构细节的丢失。

为了解决这些局限性，本文提出了一种框架，有效地弥合了学习到的表示和传统焦距度量之间的差距。我们引入了一个双分支架构，它同时提取了一个深度焦距体积，捕获稳健的语义和多尺度上下文线索，以及一个使用directional dilated Laplacian（DDL）运算符的传统焦距体积，以保留精确的结构变化。认识到这两种表示包含高度互补的信息，我们提出了一个迭代体积融合模块。通过门控机制，该模块选择性地融合深度和传统特征，同时逐步细化焦距可能性。由此产生的融合体积具有很高的区分度，并结合了深度上下文线索的稳健性与传统高频信息的精确性。基于这种增强的融合表示，我们首先使用基于softmax的深度公式[13]估计一个初始深度图。然而，这个初始估计可能仍然会显示出结构不对齐和过度平滑的伪影。为了解决这些问题，流程中包含了一个由焦点堆栈的平均RGB图像引导的轻量级空间细化器。这种外观引导的细化确保了深度不连续性与对象边界紧密对齐，同时平滑了均匀区域并保持了清晰的几何边缘。在大型合成基准测试和真实世界数据集上的广泛实验验证了所提方法的有效性。本文的主要贡献总结如下：
- 我们提出了一个双分支SFF框架，将学习到的深度焦距体积与基于传统directional dilated Laplacian的焦距体积相结合。
- 我们引入了一个由焦点堆栈的平均RGB图像引导的轻量级深度细化模块，该模块提高了空间一致性，抑制了伪影，并改善了估计深度图的整体质量。
- 在不同的焦点堆栈上的广泛实验表明，所提出的框架一致地产生了高质量的深度图，其性能优于或接近现有的最先进方法。

本文的其余部分组织如下：第2节回顾了关于SFF和相关深度估计技术的现有文献，以便在我们的工作在更广泛的研究背景中定位。第3节详细介绍了所提出的框架及其主要组成部分。第4节提供了全面的评估，概述了实验方案，并对结果进行了定量和定性分析。最后，第5节总结了这项研究。

2. 背景
2.1. 基于焦点的形状
深度估计是计算机视觉中的一个核心问题，在自主导航[18]、机器人技术[19]、3D重建和增强现实[20]等应用中扮演着重要角色。现有的深度估计方法可以大致分为主动方法和被动方法。主动技术依赖于外部感测机制，如LiDAR（光检测和测距）[21]和飞行时间相机[22]，直接测量场景深度。相比之下，被动方法从内在的视觉线索中推断深度，包括运动[23]、立体视差[24]和焦距[25]。其中，SFF是一种被动方法，由于它仅使用焦距变化就能恢复场景结构而受到了相当大的关注[1]。通过捕获在不同焦距设置下的一系列图像（称为焦点堆栈），SFF利用了失焦模糊与物体离相机距离之间的关系。这消除了对额外硬件或多视图配置的需求，使其成为在真实世界场景中操作的单目系统的实际解决方案。SFF方法可以大致分为两类：（1）传统方法和（2）基于深度学习的方法。这两种方法的深度估计整体流程如图1所示。可以观察到，传统方法和基于深度学习的方法都是从构建的焦距体积中估计深度的。

2.2. 传统方法
传统的SFF流程通常从对焦点堆栈应用焦距度量（FM）运算符开始，以估计每个像素和焦点位置的焦距程度。这产生了一个初始焦距体积（FV），它在保留输入堆栈的空间分辨率的同时表示清晰度响应，通常是一个单通道的3D体积。文献中引入了许多FM运算符，它们通常根据计算原理进行分类，例如基于梯度的度量[26]、二阶导数方法[1]、基于小波的技术[27]、基于离散余弦变换（DCT）的方法[29]以及其他焦距估计策略[30]。这些运算符的有效性受到图像获取设置、传感器特性、噪声、纹理分布和场景结构的显著影响。因此，由手工制作的度量生成的焦距体积通常包含噪声较大或不可靠的响应，这可能会降低最终的深度重建质量。

为了解决这些局限性，传统的SFF方法通常在焦距体积级别或深度估计过程中引入了额外的细化步骤。一些工作通过对其最大响应周围的局部焦点轮廓进行建模来提高焦点响应的可靠性。例如，高斯插值被用来获得接近峰值焦距的更准确估计[1]，而低阶多项式拟合被用来近似最大焦点响应附近的聚焦图像表面（FIS）[2]。后续研究通过用更灵活的局部模型替换了平面FIS假设来扩展这一想法。使用Lagrange多项式估计了分段曲面[31]，而神经网络被用来学习小3D邻域内的FIS的局部结构[32]。在显微成像中，也应用了Lorentzian-Cauchy拟合来模型化焦距度量轮廓[33]。除了曲线和表面拟合之外，还探索了基于优化的方法，包括使用启发式模型在FV中识别最佳焦点像素的动态规划方法[34]。基于滤波的技术构成了另一个重要类别，其中在局部邻域内聚合焦距响应以抑制噪声。一个简单的例子是线性滤波，其中焦距值在预定义的窗口内求和或平均[1]。然而，窗口大小有一个关键影响：小窗口可能无法抑制噪声，而大窗口可能会模糊深度不连续性。这种权衡激发了选择最佳窗口大小[28]和使用根据局部场景特征确定大小的自适应窗口[35]。最近，引入了一个基于序列关联的框架，将焦点堆栈视为完整的3D数据，并通过多视图分解、选择性融合和多尺度特征聚合来利用图像序列中的关联[36]。最近的传统SFF研究还专注于改进焦点表示本身。例如，提出了一种针对向量值图像的双阶段焦距度量方法，直接处理颜色信息而无需将焦点堆栈转换为灰度，同时使用方向性滤波来提高稳健性[7]。此外，通过构建多个焦距体积并通过向量到标量融合方法将它们融合成一个焦距体积来研究更丰富的焦点表示，用于深度估计[8]。

在获得细化的FV之后，通常使用Winner-Takes-All（WTA）策略恢复深度图，其中选择沿光轴具有最大焦点响应的焦点索引作为每个像素的深度值。由于这个初始深度图可能仍然包含噪声、异常值和空间不一致性，因此提出了许多后处理和正则化方法来提高其质量。中值滤波被用来去除孤立错误[30]，而马尔可夫随机场（MRF）优化引入了空间平滑约束以获得更连贯的深度估计[37]。其他方法在最大后验（MAP）框架中结合了基于matting Laplacian的空间先验[38]、各向异性扩散用于边缘感知平滑[39]，以及基于总变分的公式用于正则化深度增强[40]。还研究了基于融合的方法，其中结合多个深度图或焦距线索来生成更可靠的最终重建[41]。

2.3. 基于深度学习的方法
基于深度学习的SFF方法通常分两个阶段估计深度：（1）构建深度焦距体积；（2）从这个体积中进行深度回归。在第一阶段，使用编码器-解码器（ED）架构提取深度特征，这些特征通常被解释为学到的焦距度量。已经广泛探索了2D和3D ED模型（2DED和3DED）[11,12,13]。在2DED方法中，2D卷积独立应用于堆栈中的每个图像，然后将得到的特征聚合起来形成焦距体积。例如，参考文献[11]采用了基于VGG-16的编码器-解码器。相比之下，3DED方法使用3D卷积处理焦点堆栈，实现了空间信息和焦点级别信息的联合建模。代表性工作包括Inception3D [13]以及结合2D和3D特征与细化模块的混合方法 [15]。最近的架构通过引入中间注意力机制 [13]、微分运算 [12]、清晰度区域检测器 [15]、基于Swin Transformer的设计 [42]、循环细化策略 [17] 和无监督学习范式 [43,44] 进一步推动了该领域的发展。在深度提取和细化阶段，简单的通道缩减使用卷积 [11] 被证明是不足的。此外，该操作的不可微分性阻止了其在基于学习的框架中的直接使用。为了解决这个问题，通常采用了一种软函数 [45]，其中通过使用该函数获得焦点级别的概率，并将深度计算为这些概率与相应焦点距离的加权和。这种策略在最近的工作中广泛用于深度和全焦点估计 [13]、考虑不确定性的深度回归 [12] 和多尺度聚合 [15]。通过结合来自单图像估计方法的深度先验 [46]，进一步取得了改进。除了SFF之外，最近的一般单目深度估计方法还探索了基于Transformer和扩散的架构。基于Transformer的方法，如DPT [47] 和AdaBins [48]，利用全局上下文和长距离依赖性来提高密集深度预测。最近，基于扩散的方法，如Marigold [49] 和ECoDepth [50]，利用生成先验进行稳健的单目深度估计。尽管这些方法并不是专门为基于焦点堆栈的SFF设计的，但它们为密集深度重建的最新趋势提供了有用的见解。

3. 提出的框架
设输入的焦点堆栈表示为，其中Z表示堆栈中的彩色图像数量，这些图像是在不同的焦点设置下拍摄的，每个图像都具有空间分辨率。项表示第z张图像中位置处的像素强度，对应于颜色通道。目标是估计一个精细的深度图。提出的框架包括四个模块：手工制作的焦点体积、深度焦点体积、深度体积融合和深度提取与细化。在第一个模块中，通过使用扩张方向拉普拉斯（DDL）算子计算手工制作的焦点体积，该算子从传统角度捕捉结构和焦点相关的线索。在第二个模块中，深度特征提取网络处理输入的焦点堆栈以生成深度焦点体积。这个体积通过利用学习到的表示来编码每个像素的切片级焦点可能性。由于和共享相同的维度并表示跨切片的焦点响应，它们被传递到第三个模块，即深度体积融合模块。该模块迭代地整合两个体积的信息，以产生一个增强的融合体积，其中包含更具有辨别力和更精细的焦点响应。在最后一个模块中提取和细化深度。从融合体积中，通过切片级聚合过程获得一个初始深度图。然后，一个小深度细化器使用焦点堆栈的平均RGB图像作为额外指导，预测一个残差图，将其添加到D中以生成最终的精细深度图。提出的架构概述如图2所示。图2. 提出框架的概述。输入的焦点堆栈通过两个并行分支处理，以生成深度FV和传统的/手工制作的基于DDL的FV。这些互补的表示被迭代地融合，以产生一个增强的融合FV，从中通过切片级softmax聚合提取初始深度图。然后使用轻量级的RGB引导的细化模块细化初始深度，该模块使用焦点堆栈的平均图像作为额外指导。最终精细的深度使用MSE损失与真实深度进行监督。

3.1. 手工制作的焦点体积
该模块使用方向扩张拉普拉斯（DDL）算子从输入的焦点堆栈计算手工制作的焦点体积。该体积是通过将DDL核与输入图像进行卷积来计算的。在扩张卷积中，通过在核的元素之间插入间隙（零）来扩展核，从而增加其空间覆盖范围而不增加参数数量。对于一维输入信号，扩张卷积可以表示如下：
（1）
（2）
其中?表示输入信号和大小为K的核w之间的卷积操作，r表示控制核元素间距的扩张率，表示结果输出信号。拉普拉斯算子是一个二阶微分度量，通过计算与其相邻值的差异来捕捉信号中的局部变化。在离散设置中，它突出显示了强度变化快速的区域。对于一维输入信号，标准离散的一维和二维拉普拉斯算子定义如下：
（3）
在传统的SFF方法中，通常应用二维拉普拉斯核，得到的拉普拉斯能量被用作焦点的度量。对于二维输入信号，它可以表示如下：
（4）
对于不同的扩张率r，扩张的一维拉普拉斯核可以定义如下：
（5）
随着扩张率r的增加，算子能够捕捉信号中的长距离依赖性。当r为1时，它简化为标准拉普拉斯核；而当r大于1时，扩张拉普拉斯核通过有效地绕过中间样本来捕捉更广泛的结构变化。在离散形式中，扩张拉普拉斯核可以表示如下：
（6）
（7）
（8）
（9）
各种核类型，包括标准拉普拉斯、方向拉普拉斯、扩张拉普拉斯和扩张方向拉普拉斯，在图3中进行了说明。与标准拉普拉斯算子相比，DDL算子使用具有更大感受野的方向核，使其能够更稳健地捕捉与焦点相关的结构变化。对于每个扩张率，通过将输入图像与相应的方向核进行2D卷积来计算手工制作的焦点体积。这个操作在所有方向和颜色通道上进行，然后它们的响应被汇总如下：
（10）
其中?表示2D卷积操作，表示方向核和颜色通道的总数。本质上，焦点体积代表了所有方向和通道的平均能量响应。在我们的实现中，我们设置了多个扩张比率。

3.2. 深度焦点体积
在这个模块中，输入的焦点堆栈通过一个深度模块进行处理以生成深度焦点体积。为此，首先将焦点堆栈通过一个深度编码器以提取多尺度特征体积：
（11）
其中，和分别表示不同尺度上的层次化特征体积。在我们的实现中，使用ResNet-18主干网络 [51] 来实现这一点，该网络用于从焦点堆栈中提取丰富的多尺度表示。然后将这些特征体积传递给解码器，解码器在多个层次上重建切片级的焦点响应，并生成四个中间焦点体积：
（12）
每个体积都捕捉来自不同特征尺度的焦点相关线索。最终深度焦点体积是通过平均这些解码的响应得到的：
（13）

3.3. 体积融合模块
在第三阶段，深度焦点体积和传统焦点体积被整合。虽然深度体积捕捉到了稳健的语义和多尺度学习表示，但传统DDL体积保留了精确的结构和高频线索。为了有效利用这两种表示的互补优势，提出了一个深度体积融合模型，选择性地混合这两个体积以产生一个增强且高度辨别的融合体积。在融合之前，两个体积都被规范化，以便它们的响应变得可比。然后迭代进行融合过程。我们使用深度焦点体积初始化融合体积，表示如下：
（14）
（15）
在每次迭代中，当前融合体积和静态传统体积沿着通道维度连接在一起。这个组合表示通过由四个卷积层组成的轻量级网络逐片处理，每个卷积层后面跟着一个ReLU激活函数。然后应用一个最终的卷积层，后面跟着一个Sigmoid激活函数（）来预测一个软门控图。这个门控决定了两个体积之间的像素级和切片级的最佳混合权重。门控预测可以表示如下：
（16）
其中表示通道级连接，表示卷积网络。使用这个门控图，得到更新后的融合体积如下：
（17）
其中⊙表示元素级乘法。通过重复三次这种基于注意力的混合，该模块逐步细化焦点可能性，允许网络反复将演变的学习特征与结构DDL线索进行交叉参考。最后一次迭代后，得到的输出作为我们的最终融合焦点体积，即，然后将其传递到下一个阶段进行深度提取。

3.4. 深度提取和细化
在最后一个阶段，框架将融合的焦点体积转换为连续的深度图，并使用外观线索对其进行细化。这个过程分为两个连续步骤：通过软参数最大值（soft-arg max）进行初始深度提取和空间细化。首先，为了提取初始深度图，我们压缩融合体积的通道维度，并沿着切片维度应用softmax操作（S）。设表示融合体积中对应于第s个焦点设置的2D空间切片。softmax操作将无界的焦点响应转换为标准化概率分布，指示每个像素在特定焦点切片上处于焦点的概率。然后计算连续的深度值作为焦点距离的期望值。数学上，空间位置的深度通过软参数最大值操作获得：
（18）
其中表示与焦点堆栈中的第s个切片相关的物理焦点距离，表示沿着切片维度计算的切片索引s处的softmax概率：
（19）
与标准硬参数最大值操作不同，后者将深度估计限制在离散的焦点平面上并且不可微分，这种软参数最大值聚合是完全可微分的。这允许网络在切片之间插值连续的深度值，并促进端到端训练。虽然初始深度图提供了准确的全局深度估计，但它在物体边界附近可能缺乏清晰的结构对齐。为了解决这个问题，我们利用焦点堆栈的平均RGB图像作为外观指导，其计算方法如下：
（20）
其中表示输入堆栈中的第s个RGB图像。初始深度图和平均图像沿着通道维度连接起来形成一个四通道输入张量。这个连接张量通过一个轻量级的深度细化网络进行处理，该网络由四个卷积层组成，每个卷积层后面跟着一个ReLU激活函数，然后是一个最终的卷积层来回归深度残差图，表示为。提取这个残差图可以表示如下：
（21）
其中表示通道级连接。最后，将预测的残差加回到初始深度中，以产生最终的精细深度图：
（22）
通过将焦点衍生的深度与高分辨率RGB指导结合起来，细化器有效地平滑了均匀区域并获得了更好的结果。

3.5. 损失函数
为了端到端地训练提出的框架，我们将深度估计建模为一个回归任务，并使用标准均方误差（MSE）损失来优化网络，该损失在最终精细的深度预测和相应的真实深度图之间进行优化，表示如下：
（23）
其中是深度图中的总像素数。和分别表示空间位置的预测深度值和真实深度值。

4. 结果与讨论
4.1. 实验设置
4.1.1. 数据集和分割
我们在涵盖合成和真实世界场景的多个数据集上验证了所提出的方法。具体来说，实验在FlyingThings3D（FT）[52]、Focus on Defocus（FoD）[53]和Middlebury（MB）[54]上进行。FT数据集是一个大规模的合成深度估计基准。它提供了1000个训练样本和100个测试样本。每个样本是一个由在不同焦点设置下拍摄的15张图像组成的焦点堆栈。焦点距离均匀分布在10到100单位的范围内，为训练和评估提供了一个受控的环境。FoD数据集是另一个合成基准测试集，包含500个焦点堆栈，图像分辨率为（未提供具体数值），其中400个是训练样本，100个是测试样本。每个堆栈包含五张对应于不同焦距的图像。为了评估模型对真实世界数据的泛化能力，我们还在Middlebury数据集上进行了评估。该数据集包含15个真实的焦点堆栈，每个堆栈由15张在不同焦距下拍摄的图像组成。由于Middlebury数据集没有为我们的实验设置提供训练划分，因此仅用于测试。为了与我们的框架保持一致，该数据集中的所有图像都被调整到了相同的尺寸。对于特定数据集的训练，模型使用相应的数据集划分进行训练和评估。例如，针对FT的实验仅使用FT的训练和测试划分，而针对FoD的实验仅使用FoD的训练和测试划分。对于跨数据集的评估，直接在Middlebury数据集上测试在FT上训练的模型，无需额外的微调。

4.1.2 训练细节
所提出的模型是用PyTorch [55]实现的。所有模型都使用Adam优化器 [56] 进行训练。在训练过程中，从焦点堆栈中随机裁剪出大小为（未提供具体数值）的图像块。所有训练实验都使用相同的块大小，以确保训练协议的一致性。

4.1.3 评估指标
对于定量评估，我们报告了皮尔逊相关系数（Corr）。此外，我们还使用了平均绝对误差（MAE）、均方根误差（RMS）、对数均方根误差（logRMS）、绝对相对误差（AbsRel）、相对平方误差（SqRel）以及阈值准确率指标（Acc_1、Acc_2和Acc_3），这些指标的引用来自[11]。

4.2 分析
我们通过切片式体积可视化来分析所提出模型的行为。我们的框架生成了多个焦点体积，即初始深度体积、基于DDL的体积和最终融合体积。通过可视化这些表示，可以了解焦点信息是如何逐步精细化的。为了这项分析，我们从每个焦点堆栈中选取了三个代表性的切片，分别对应远焦、中焦和近焦区域。对于每个切片，我们展示了所有体积的响应，以及相应的RGB图像作为聚焦区域的参考。此外，还包括了从融合体积中获得的最终概率体积，用于深度提取。结果如图4所示，其中行代表从远到近的不同焦距深度。初始深度体积通过激活焦点区域周围的部分，能够合理地捕捉到焦点区域。基于DDL的体积也响应了焦距变化，但激活效果相对较弱且不够局部化。通过结合这些互补的线索，融合体积在真实焦点区域周围产生了更加集中和具有辨别力的响应。经过softmax归一化后，响应变得更加清晰和定位更加精确，反映了对正确焦点区域的更高信心。总体而言，这些结果表明所提出的融合策略提高了切片间的辨别能力，从而得到了更可靠的焦点表示。

4.3 比较分析
在本节中，我们将所提出方法的性能与传统方法和基于学习的方法进行了比较。在传统方法中，我们包括了RFVR [9]（一种基于正则化的方法），并使用作者提供的官方实现版本在FT和FoD数据集上进行评估。由于MB数据集专门用于评估基于学习方法的泛化能力，因此RFVR没有在MB数据集上进行评估。在基于学习的基线方法中，我们考虑了AiFDNet [13]，其公开发布的模型权重被用于FT和FoD数据集的评估。此外，我们还评估了DFV [12] 的两个变体：DFV-FV（使用标准焦点体积的基线模型）和DFV-Diff（使用差异焦距体积的模型）。对于FoD数据集，我们使用官方的检查点；而对于FT数据集，我们自己进行了模型训练。在FT数据集上，我们还将所提出的方法与DDL-GRU [17]（一种使用循环细化进行深度估计的基于学习的方法）进行了比较。

我们的比较评估从FT数据集开始，该数据集是一个大规模的基准测试集，包含1000个训练样本和100个测试焦点堆栈。定量结果总结在表1中，其中每一行对应一种方法，每一列代表一个特定的评估指标。基于误差的指标（包括MAE、RMS、logRMS、AbsRel和SqRel）在数值较低时表现更好，而Corr、Acc_1、Acc_2和Acc_3在数值较高时表现更好。如表1所示，传统的RFVR方法在所有比较方法中表现最差，这是预料之中的，因为它是一种传统方法，没有利用到学习到的特征表示。相比之下，基于学习的方法取得了显著更好的结果，展示了它们从焦点堆栈中建模复杂焦点线索的能力。在基于学习的基线方法中，DDL-GRU表现出非常强的竞争力，获得了最低的MAE、RMS和logRMS值，以及最高的阈值准确率值。这表明了其循环细化策略的有效性。所提出的方法在所有指标上也表现强劲，并且与DDL-GRU保持了高度竞争力。特别是，我们的方法取得了最高的相关性分数（Corr = 0.99）和最低的SqRel值（SqRel = 1.61），表明与真实值有着强烈的线性一致性。与其他基线方法如AiFDNet、DFV-FV和DFV-Diff相比，所提出的方法在所有指标上都有明显的改进。例如，与DFV-Diff相比，我们的方法将RMS从10.65降低到了6.47，并将Corr从0.97提高到了0.99。总体而言，DDL-GRU和所提出的方法都明显优于其他竞争方法，尤其是在相关性和相对误差一致性方面。

4.3.3 对比分析
在本节中，我们将所提出方法的性能与传统方法和基于学习的方法进行了比较。在传统方法中，我们包括了RFVR [9]（一种基于正则化的方法），并使用了作者提供的官方实现版本在FT和FoD数据集上进行评估。RFVR没有在MB数据集上进行评估，因为MB数据集专门用于评估基于学习方法的泛化能力。在基于学习的基线方法中，我们考虑了AiFDNet [13]（其公开发布的模型权重被用于FT和FoD数据集的评估）。此外，我们还评估了DFV [12] 的两个变体：DFV-FV（使用标准焦点体积的基线模型）和DFV-Diff（使用差异焦距体积的模型）。对于FoD数据集，我们使用了官方的检查点；而对于FT数据集，我们自己训练了模型。在FT数据集上，我们还将所提出的方法与DDL-GRU [17]（一种使用循环细化进行深度估计的基于学习的方法）进行了比较。

我们首先在FT数据集上进行了比较评估，该数据集是一个包含1000个训练样本和100个测试焦点堆栈的大规模基准测试集。定量结果总结在表1中，每一行对应一种方法，每一列代表一个具体的评估指标。基于误差的指标（包括MAE、RMS、logRMS、AbsRel和SqRel）在数值较低时表现更好，而Corr、Acc_1、Acc_2和Acc_3在数值较高时表现更好。如表1所示，传统的RFVR方法在所有比较方法中表现最差，这是预料之中的，因为它是一种传统方法，没有从学习到的特征表示中受益。相比之下，基于学习的方法取得了显著更好的结果，展示了它们从焦点堆栈中建模复杂焦点线索的能力。在基于学习的基线方法中，DDL-GRU表现得非常具有竞争力，获得了最低的MAE、RMS和logRMS值，以及最高的阈值准确率值。这表明了其循环细化策略的有效性。所提出的方法在所有指标上也表现强劲，并且与DDL-GRU保持了高度竞争力。特别是，我们的方法获得了最高的相关性分数（Corr = 0.99）和最低的SqRel值（SqRel = 1.61），表明与真实值有很强的线性一致性。与其他基线方法如AiFDNet、DFV-FV和DFV-Diff相比，所提出的方法在所有指标上都带来了明显的改进。例如，与DFV-Diff相比，我们的方法将RMS从10.65降低到了6.47，并将Corr从0.97提高到了0.99。总体而言，DDL-GRU和所提出的方法都明显优于其他竞争方法，尤其是在相关性和相对误差一致性方面。表1显示了FT数据集上的定量比较结果。

4.3.4 定性分析
FT数据集上的定性结果在图6中展示。每一行对应一个不同的测试样本，列显示了真实值（GT）和不同方法产生的预测结果，最后一列表示所提出方法的输出。与传统方法相比，传统的RFVR方法产生的深度图明显更加嘈杂。一般来说，基于深度学习的方法生成的预测更加平滑和连贯；然而，它们之间仍然可以观察到明显的视觉差异。DDL-GRU和所提出的方法产生了更准确、结构上更加一致的深度图，特别是在包含远距离物体和细微结构的挑战性区域。这种改进可以归因于使用了深度细化，而不仅仅是依赖于最初估计的深度图。具体来说，DDL-GRU采用了循环深度细化，而所提出的方法使用了一个专门的深度细化模块来提高空间一致性和保留结构细节。例如，在第一行和第二行中，像建筑物这样的背景结构对几种竞争方法来说很难准确重建。相比之下，DDL-GRU和所提出的方法更有效地保留了这些区域，并产生了更接近真实值的深度估计。图6显示了FT数据集上的定性比较结果。

4.3.5 细节分析
接下来，我们分析了所提出方法的深度估计过程。在从融合焦点体积获得初始深度图后，模型通过一个深度细化模块进一步改进了这个预测。该模块以焦点堆栈的平均RGB图像作为输入，并预测一个残差图，然后将这个残差图加到初始深度上以产生最终的精细深度。为了展示这种细化的效果，我们在图5中展示了结果。每一行对应一个不同的样本，包括真实深度、初始深度、预测的残差和最终的精细深度。从可视化结果可以看出，初始深度图在物体边界和细微结构附近存在明显的不准确性。预测的残差图捕捉到了这些缺失的细节并进行修正，当加到初始深度上后，产生了更平滑的表面和更好的结构一致性。通过进一步检查物体区域，可以明显看出改进效果。总体而言，这项分析表明深度细化模块有效地纠正了初始估计中的错误，并提高了预测深度图的整体质量。

4.3.6 细节分析（续）
在FT数据集上的定性结果中，传统的RFVR方法产生的深度图明显比基于学习的方法更加嘈杂。一般来说，基于深度学习的方法生成的预测更加平滑和连贯；然而，它们之间仍然可以观察到明显的视觉差异。DDL-GRU和所提出的方法产生了更准确、结构上更加一致的深度图，尤其是在包含远距离物体和细微结构的挑战性区域。这种改进可以归因于使用了深度细化，而不仅仅是依赖于最初的深度图。具体来说，DDL-GRU采用了循环深度细化，而所提出的方法使用了一个专门的深度细化模块来提高空间一致性和保留结构细节。例如，在第一行和第二行中，背景结构（如建筑物）对于几种竞争方法来说难以准确重建。相比之下，DDL-GRU和所提出的方法更有效地保留了这些区域，并产生了更接近真实值的深度估计。图6显示了FT数据集上的定性比较结果。

4.3.7 细节分析（续）
我们进一步分析了所提出方法在单个样本层面的表现。特别是，我们使用分组条形图（如图7所示）对图6中显示的最后一个样本进行了详细比较，使用了五个代表性指标：Corr、MAE、RMS、Acc_1和Acc_2。为了更清晰的可视化，所有指标值都被标准化到了一个特定的范围内。Corr值直接显示，MAE和RMS通过将每个值除以比较方法中的最大值进行标准化，准确性指标则除以100。如图7所示，所提出的方法在这个样本上取得了最佳表现，获得了最高的相关性和准确性值，同时产生了最低的MAE和RMS。DDL-GRU获得了第二好的表现，并且与所提出的方法非常接近，表明基于细化的学习方法对于这个挑战性样本是有效的。然而，所提出的方法在相关性方面仍然提供了略微更好的结果。

4.3.8 对比分析（续）
在FoD数据集上，我们进一步评估了所提出方法的性能。由于每个焦点堆栈的输入图像数量有限（只有五张图像），因此这是一个更具挑战性的环境。这种设置使我们能够评估不同方法在稀疏焦点信息下的鲁棒性。定性结果显示在图8中，每一行对应一个不同的样本，列代表真实值（GT）和不同方法的预测结果，最后一列表示所提出方法的输出。与定量结果一致，传统的RFVR方法产生的深度图明显比基于学习的方法更加嘈杂。总体而言，基于深度学习的方法生成的预测更加平滑和连贯；然而，它们之间仍然可以观察到明显的视觉差异。DDL-GRU和所提出的方法在包含远距离物体和细微结构的挑战性区域产生了更准确、结构更加一致的深度图。这种改进可以归因于使用了深度细化，而不仅仅是依赖于最初估计的深度图。具体来说，DDL-GRU采用了循环深度细化，而所提出的方法使用了一个专门的深度细化模块来提高空间一致性和保留结构细节。例如，在第一行和第二行中，背景结构（如建筑物）对几种竞争方法来说难以准确重建。相比之下，DDL-GRU和所提出的方法更有效地保留了这些区域，并产生了更接近真实值的深度估计。图8显示了FT数据集上的定性比较结果。

4.3.9 细节分析（续）
我们对图6中显示的最后一个样本进行了样本级别的分析，使用分组条形图进行了详细的比较（如图7所示），使用了五个代表性指标：Corr、MAE、RMS、Acc_1和Acc_2。为了更清晰的可视化，所有指标值都被标准化到了一个特定的范围内。Corr值直接显示，MAE和RMS通过将每个值除以比较方法中的最大值进行标准化，准确性指标则除以100。如图7所示，所提出的方法在这个样本上获得了最佳的表现，获得了最高的相关性和准确性值，同时产生了最低的MAE和RMS。DDL-GRU获得了第二好的表现，并且与所提出的方法非常接近，表明基于细化的学习方法对于这个挑战性样本是有效的。然而，所提出的方法仍然提供了略微更好的整体结果。相比之下，RFVR的表现明显较弱，特别是在基于误差的指标方面，这反映了传统基于焦点度量方法的局限性。其他基于学习的方法表现优于RFVR，但仍然不如所提出的方法。

4.3.10 综合评价
在FoD数据集上的评估表明，所提出的方法在处理稀疏焦点信息时也表现出更好的鲁棒性。定性结果显示在图8中，每一行对应一个不同的样本，列代表真实值（GT）和不同方法的预测结果，最后一列表示所提出方法的输出。与传统方法相比，传统的RFVR方法在这种设置下的表现较差，主要是因为它严重依赖于更多的输入图像。相比之下，基于学习的方法展示了更好的鲁棒性，并产生了更加连贯的深度图。在这些方法中，所提出的方法始终提供了更准确和视觉上更加一致的结果。特别是，所提出的方法更好地保留了相对深度关系，并产生了更接近真实值的预测结果。例如，在第一行中，我们的方法预测的物体深度值与真实值更为接近。图8显示了FoD数据集上的定性比较结果。例如，在示例1中，我们的方法实现了0.100的均方根误差（RMS），优于次优方法（DFV-FV），后者的RMS为0.126，这表明有明显的改进。同样，在其他样本中也保持了竞争性的性能，所提出的方法始终产生较低的误差值。在某些情况下，尽管所提出的方法没有达到绝对最低的RMS，但它仍然具有很高的竞争力，并且接近表现最好的方法。例如，在示例5中，AiFDNet的表现优于其他方法；然而，所提出的方法仍然排名第二。表2展示了FoD数据集上样本间的RMS比较。每一列对应图8中显示的一个样本，其中样本1代表第一行，后续样本依次类推。为了评估所提出模型的泛化能力，我们使用MB数据集在真实世界数据上对其性能进行了评估。在这个实验中，我们将所提出的方法与AiFDNet以及两种DFV变体（DFV-FV和DFV-Diff）进行了比较。在这种情况下，在FT数据集上训练和评估的检查点被直接应用到MB数据集上，而无需任何额外的微调。这种评估协议使我们能够检验从合成焦点堆栈中学习到的表示如何迁移到真实世界场景中。MB数据集包含使用结构光系统获得的真实焦点堆栈和伪真实值图。比较结果展示在图9中。从视觉结果可以看出，所有方法在MB数据集上都表现出一定的性能下降，这是由于合成训练数据和真实世界测试数据之间的领域差异所致。尽管如此，所提出的方法在不同样本上产生了稳定且连贯的深度预测。在第一个样本中，背景区域的清晰度更高，噪声更少，这与其他竞争方法相比有明显优势。在其他样本中也可以观察到类似的行为，所提出的方法在保留细结构的同时减少了视觉伪影。例如，在第三行中，钢琴周围的区域更加一致且噪声更少；而在第四行中，椅子和桌子等物体区域的表面更加平滑且定义更清晰。在第六行中，尽管所有方法都产生了相对合理的预测，但所提出方法估计的背景与其他方法相比与真实值更为一致。总体而言，这些结果表明所提出的方法能够有效地泛化到真实世界场景中。图9展示了MB数据集上的定性比较，用于泛化分析。此外，我们还为MB数据集的一些样本提供了3D表面可视化，如图10所示，以便更直观地评估重建的几何形状。这些可视化通过将预测结果呈现为3D表面，使得结构失真和表面不一致性更容易观察。虽然在这些具有挑战性的跨领域设置中，没有任何方法能够完美重建真实值表面，但所提出的方法产生了相对更连贯和稳定的3D结构。在第一行和第二行中，所提出的方法更好地保持了整体表面形状，并且与竞争方法相比显示出较少的可见伪影。在第三行中，各种方法之间的视觉差异不太明显，大多数方法产生的表面结构相对相似。图10展示了MB数据集上的3D表面可视化，每一行对应一个真实世界测试样本，而列则展示了不同方法的真实值和重建表面。

4.4. 计算效率分析
本节分析了所提出方法在参数数量和推理时间方面的计算效率。平均推理时间是在FoD数据集上测量的，每个输入样本包含一个由五张RGB图像组成的焦点堆栈。如表3所示，所提出模型的参数数量与DFV模型相当，具有1956万个参数，而DFV-FV和DFV-Diff分别为1950万个参数。在运行时间方面，所提出的方法所需的推理时间略高于比较基线。在评估的方法中，DFV-FV实现了最快的推理时间，而AiFDNet的参数数量最少。所提出模型的额外计算成本主要来自迭代体积融合模块和随后的深度细化模块。这些组件引入了额外的处理步骤，以增强融合的焦点表示并提高预测深度图的空间一致性，同时保持了相当的模型大小。表3展示了FoD数据集上的参数数量和平均推理时间。

5. 结论
在本文中，我们提出了一个基于焦点的双分支形状深度估计框架。所提出的方法结合了两种互补的体积：一个深度焦点体积，它捕获了强大的语义和上下文信息；以及一个基于传统方向扩散拉普拉斯（DDL）的焦点体积，它保留了结构细节和高频焦点线索。为了有效利用这两种信息来源，我们引入了一个迭代门控体积融合模块，逐步细化焦点表示，并产生更具有区分性的融合体积以进行深度推断。此外，还采用了一个由焦点堆栈的平均RGB图像引导的轻量级深度细化模块，以提高空间一致性并减少最终深度图中的伪影。在合成和真实世界数据集上的实验结果表明，所提出的方法在保持良好泛化能力的同时，实现了强大的性能。

热点排行