一个统一的、无遮挡的框架，用于无监督的光场深度估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：A Unified Occlusion-free Framework for Unsupervised Light Field Depth Estimation

【字体：大中小】 时间：2026年02月15日 来源：Pattern Recognition 7.6

编辑推荐：

　　提出两阶段无监督光场深度估计框架。第一阶段通过训练K+1个模型并计算像素级遮挡视图数量生成k*图；第二阶段采用Angular Patch Filtering确定遮挡位置并优化光流一致性损失计算。实验表明该方法在遮挡区域深度估计精度显著提升，优于现有方法。

郭龙兆|张硕|林友芳

北京交通大学计算机科学与技术学院，交通数据挖掘与具身智能北京市重点实验室，中国北京100044

摘要

无监督光场（LF）深度估计方法由于不需要真实标签且易于泛化到真实世界数据而受到越来越多的关注。在无监督LF深度估计中，一种广泛使用的范式是利用估计的深度将其他视图变形到中心视图，并计算整体光度一致性损失以进行训练。然而，当发生遮挡时，这种范式会失效，导致深度估计错误。在本文中，我们提出了一种统一的无遮挡框架用于无监督LF深度估计，该框架将训练过程分为两个阶段。在第一阶段，我们估计被遮挡视图的数量。具体来说，我们首先使用前k（k∈[0, K]）损失训练K+1个模型，然后根据这些模型估计的深度逐像素计算被遮挡视图的数量。在第二阶段，我们提出了一种角度块过滤方法来估计被遮挡视图的确切位置，并在光度一致性损失计算中自适应地移除它们。通过这种方式，最终模型获得了更可靠的监督信号。此外，由于整个框架与网络结构设计无关，因此我们的框架适用于任何现有的LF深度估计网络。在合成数据和真实世界数据集上的实验表明，我们的方法优于其他最先进的无监督方法，并显著改善了深度估计结果，尤其是在遮挡区域。

引言

光场（LF）相机记录光的颜色和方向信息，并将其编码为4D LF图像。作为LF图像处理中的一个基本任务，深度估计有助于许多后续应用，如重新对焦[1]、[2]、3D重建[3]、[4]、视图合成[5]、[6]。

传统的LF深度估计方法[7]、[8]、[9]、[10]、[11]、[12]无法充分利用图像特征级别的信息，并且由于离散深度空间的存在而计算成本较高，因此提出了一些基于监督学习的方法[13]、[14]、[15]、[16]、[17]、[18]来提高LF深度估计的效率和准确性。然而，由于真实世界LF图像通常没有真实深度图，这些使用合成数据集训练的模型在应用于真实世界数据集时不可避免地会性能下降。

为了克服基于监督学习方法的局限性，提出了一些无监督方法[19]、[20]、[21]、[22]。一种广泛使用的范式是利用估计的深度将其他视图变形到中心视图，并计算光度一致性损失以进行训练。然而，当某些视图被遮挡时，光度一致性不再成立。

现有的方法已被用于解决遮挡问题，并做出了各种尝试。这些方法通常可以分为以下两类：(a) 预定义一组遮挡模式，如图1(a)所示。这些方法[15]、[20]、[23]预定义了一组掩码，并选择使颜色一致性损失最小化的掩码作为遮挡掩码。然而，由于实际遮挡情况的复杂性和不断变化，这些预定义的掩码并不总是符合实际情况，从而导致不可靠的深度估计。(b) 使用粗略的深度图，如图1(b)所示。这些方法[16]、[21]、[22]首先假设没有遮挡以获得初始的粗略深度估计。然后利用这个粗略深度图将其他视图变形到中心视图进行光度比较，从而得到预测的遮挡掩码。然而，没有正确的遮挡掩码，深度估计网络很难生成准确的深度图。错误的深度图反过来会导致错误的遮挡掩码。因此，这些方法在遮挡区域通常会产生较差的结果。在本文中，我们提出了一种新颖的统一无遮挡的无监督学习方法用于LF深度估计，可以更灵活地获得更准确的遮挡掩码。特别是，我们的训练过程分为两个阶段。在第一阶段，我们确定被遮挡视图的数量。使用前k（k∈[0, K]）光度一致性损失作为损失函数，我们训练K+1个模型。我们逐像素分析这些模型估计的深度值分布，以便准确计算中心视图中每个像素的被遮挡视图数量，我们将其称为k*图。在第二阶段，我们确定被遮挡视图的位置。基于遮挡视图在角度块中相邻的先验，我们提出角度块过滤（APF）来确定移除视图的最后位置。最后，使用我们设计的不遮挡一致性损失，遮挡区域获得了更准确的监督。

我们工作的主要贡献总结如下：

•
我们提出了一种统一的无遮挡框架用于无监督LF深度估计，可以应用于所有LF深度估计网络。
•
我们提出了一种新的方法来确定被遮挡视图的数量，然后提出角度块过滤来确定这些被遮挡视图的位置，进一步改进了我们的方法。
•
实验结果表明，与其他方法相比，我们的方法在合成和真实世界LF数据集上表现更优，具有更好的鲁棒性和泛化能力。

章节片段

传统方法

受传统立体匹配的启发，一些方法构建成本体积来找到成本最低的深度。Jeon等人[7]使用傅里叶域中的相位移动定理来估计视图之间的视差。Wang等人[24]提出了一种考虑遮挡的光场深度估计方法，以优化遮挡区域的深度估计结果。Williem等人[25]提出了受限角度熵成本，减少了主导遮挡物和噪声的影响

概述

设L∈R×V×H×W表示一个4-D LF图像，其角度分辨率为U×V，空间分辨率为H×W。LF中的每个像素可以表示为L(u, x)，其中u∈U，x∈X。U和X分别是角度和空间的2-D坐标集，即U={u|u=(u, v)，1≤u≤U，1≤v≤V，X={x|x=(h, w)}。LF图像可以看作是从分布在2-D平面L={Iu=(u, :)}上的视图集合观察到的。得益于光场相对较窄的基线

数据集和实现细节

为了全面评估模型性能，实验在合成数据集和真实世界数据集上进行。对于合成数据集，我们使用了HCI数据集[44]、HCIold数据集[45]和LFD数据集[46]。它们的每个场景都有9×9个子孔径图像（SAIs），相邻视图之间的视差范围为[-4, 4]。与UnOCC [20]和UnLFDisp [21]一样，我们以7×7个子视图作为输入，并使用HCI数据集中的所有场景来训练我们的模型。

局限性

所有无监督方法，包括我们的方法，由于依赖于光度一致性假设，在处理透明和反射区域时都存在固有的局限性，因为这些区域从根本上违反了该假设。为了解决这一局限性，我们计划在未来的工作中通过两个有前景的方向来扩展我们的方法：整合更强的几何或语义约束，以及结合基于物理的渲染模型。这有望显著提高鲁棒性

结论

在本文中，我们提出了一种新颖的两阶段无监督光场深度估计方法。在第一阶段，我们预训练K+1个模型并估计每个点的被遮挡视图数量。在第二阶段，我们提出APF来估计被遮挡视图的确切位置。实验结果表明，我们的方法在遮挡区域显著改善了深度估计结果，并克服了监督方法中的泛化问题。

CRediT作者贡献声明

郭龙兆：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，监督，软件，资源，项目管理，方法论。张硕：数据整理。林友芳：概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（编号62372032）的支持

热点排行

新闻专题

联系信箱：

粤ICP备09063491号