几何对比多视图立体视觉与共可见性传播

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

几何对比多视图立体视觉与共可见性传播

《Neurocomputing》：Geometry-contrastive multi-view stereo with co-visibility propagation

【字体：大中小】 时间：2026年02月23日 来源：Neurocomputing 6.5

编辑推荐：

　　多视图立体视觉框架融合几何引导对比学习强化弱纹理区分，跨视图注意力引导抑制边界错误传播，深度误差感知优化成本聚合，显著提升复杂场景重建精度与效率。

Jie Han|Ning Yang|Jun Fang|Lanbo Zhao|Lin Hu

西北工业大学自动化学院，中国陕西省西安市710129

摘要

监督式多视图立体视觉（MVS）已经取得了显著成果，但在复杂场景中仍存在三个系统级别的瓶颈：（i）纹理较弱的区域会导致匹配对应关系不明确；（ii）在深度不连续处进行传播时，会累积出几何上不一致的假设；（iii）统一的成本聚合方式对可靠和不可靠的证据一视同仁，从而降低了置信度。我们提出了一种基于几何的对比学习框架，该框架包含三个互补的组件——几何引导的对比学习（GGCL）、跨视图注意力引导的传播（CVAP）和深度误差感知的成本精细化（DECR）——这些组件在监督学习过程中增强了3D推理的准确性。首先，GGCL直接从真实深度构建正负样本对，以明确区分不同尺度上的匹配点和非匹配点，从而提高低纹理区域的区分能力。其次，CVAP模型模拟了共视性，使得迭代采样路径能够沿着物理表面进行，而不会跨越遮挡边界，从而在宽基线条件下防止误差累积。第三，DECR预测出轻量级的置信权重，增强可信信号的同时降低镜面反射、低光照或运动模糊区域的权重。整个系统建立在PatchMatch风格的流程之上，在保持高效的同时增强了几何鲁棒性。在DTU、BlendedMVS和Tanks and Temples数据集上的实验表明，与最新的多视图立体视觉方法相比，我们的方法在总体误差（OA）、完整性和准确性方面具有竞争力，并且可以单独分析每个组件的贡献。结果表明，对比学习目标可以与深度监督紧密结合，以减轻长期存在的MVS问题，而无需进行大量计算。

引言

多视图立体视觉（MVS）可以从已知姿态的图像中估计出密集的几何结构，广泛应用于文化遗产数字化、自动驾驶[1]和大规模地图绘制[2][3]等领域。除了这些以重建为目标的应用场景外，最近的研究还将MVS深度作为中间表示，用于以感知为导向的系统中的场景理解和实时跟踪[4][5]。进一步的研究将学习到的几何结构整合到感知流程中，以应对具有挑战性的成像条件下的大规模场景感知[6][7]，以及在嵌入式硬件上进行半监督的域适应以实现鲁棒的对象检测[8]。最近的监督式流程端到端地学习成本体积并回归深度，与经典方法相比显著提高了质量和吞吐量[9]。为了提高可扩展性，循环和级联设计使得体积更加紧凑或分阶段处理，从而在实用的内存占用下实现更高的分辨率[10]。此外，成本体积金字塔和分层搜索通过逐步缩小深度范围来提高估计精度[11]。PatchMatch风格的网络通过传播和评估假设来加速推理，而不是密集扫描所有深度，从而在较低的计算成本下保持竞争性的质量[12]。Transformer框架也被用于将长距离的跨视图上下文引入匹配过程[13]。

明确建模部分-整体关系的策略在解决局部歧义和保持密集预测任务中的对象完整性方面已被证明是有效的，例如显著性检测[14]。然而，在MVS中，即使使用更强的框架和更丰富的跨视图上下文，纹理梯度较弱或重复区域的描述符仍然缺乏这种明确的可区分性。中间级别的嵌入并没有被明确组织起来，以将真实匹配与错误匹配区分开来，因此歧义在整个流程中持续存在[13]。Transformer MVS模型增强了上下文理解，但主要在端点进行监督；例如，TransMVSNet在中间特征中引入了自我/跨视图注意力，而仅通过最终损失间接塑造了几何感知的区分能力[13]。Epipolar-aware注意力改进了沿极线方向的空间关联（MVSTER），但在纹理稀缺区域并没有通过明确的几何边界来强制实现可区分性[15]。ViT增强型编码器提供了更强的先验信息，但主要增强了容量，而不是在中间特征空间中施加区分结构[16][17]。几何感知注意力（GTA）将3D结构直接注入到注意力机制中，但在缺乏针对性监督信号的情况下，无法保证在低纹理区域下的类别可区分性[18]。统一的深度表示（UniMVSNet）稳定了搜索和成本形成，但它们主要关注假设表示，而不是在聚合之前明确区分模糊特征[19]。简而言之，最近的进展加强了上下文和假设建模，但核心问题——在低纹理条件下明确可执行的特征区分性——仍然存在。具体来说，像PatchMatchNet[12]和TransMVSNet[13]这样的方法主要通过最终深度损失来监督中间特征，因此依赖于在低纹理区域的间接监督，而我们的GGCL组件则通过从真实深度构建正负样本对来直接强制实现几何感知的特征区分。

偏移或PatchMatch风格的传播可能会导致假设在对象边界之间泄漏，特别是在宽基线条件下，加剧了深度不连续处的误差[12]。感知感知设计通过估计像素级的可见性来加权融合（Vis-MVSNet），但可见性是从不确定性间接推断出来的，在复杂的几何结构中可能会滞后[20]。随着几何信息的可用性，像素级的可见性引导视图选择进一步细化了源视图，但通常作为PatchMatch之外的外部机制运行，而不是在传播过程中学习的端到端门控[21]。挖掘非局部先验或重新设计假设传播（HPM-MVS）的方法可以减少漂移，但仍然没有明确编码共视性以防止边界之间的污染[22]。将深度-边缘对齐与可见性先验相结合的Patch变形方法（DVP-MVS）减少了“边缘跳过”现象，但仍依赖于重建的可见性和边缘线索的质量[23]。总体而言，这些进展减少了但在没有将明确的、可靠的共视性先验集成到传播过程中的情况下，并没有完全消除遮挡处的误差累积。

许多流程在融合多视图证据时，对每个假设的可靠性建模有限，因此镜面反射和视图依赖性效应可能会在需要鲁棒性的地方压倒可信的匹配结果。不确定性感知的级联（UCSNet）会降低模糊信号的权重，但在推理时的可靠性门控仍然消耗大量内存且不够精细[24]。迭代概率估计（IterMVS）明确维护了像素级的深度分布和置信度，但在多源线索冲突时聚合仍然可能导致质量下降[25]。保留成对成本以进行后期融合可以避免破坏信息性线索，但缺乏轻量级的、基于可靠性的假设门控[26]。几何一致性的聚合（GoMVS）利用局部平面结构和法线来传播可靠的成本，提高了一致性，但更强调几何平滑性而不是基于不确定性的可靠性[27]。最后，UANet将不确定性图直接注入成本体积聚合中，提高了鲁棒性，但其有效性取决于训练时的不确定性质量，并没有完全解决测试时的细粒度、基于假设的可靠性问题[28]。

我们提出了一种基于几何的对比学习框架，从三个方面加强了监督式MVS：（1）几何引导的对比学习（GGCL）——我们从真实深度中提取正负样本对，并应用多尺度对比学习目标，将真实的对应关系拉在一起，同时将不匹配的点分开，从而明确地塑造出具有几何感知的嵌入；（2）跨视图注意力引导的传播（CVAP）——我们结合跨视图注意力来模拟共视性，并调节学习到的偏移量，使传播过程沿着表面进行而不是跨越对象边界；（3）深度误差感知的成本精细化（DECR）——我们预测受深度误差影响的权重，增加可信证据的影响并抑制虚假响应。我们的系统建立在PatchMatch框架之上，在保持高效的同时大幅减少了低纹理、反射和遮挡区域的典型失败模式。正如第4.5节的实验所证实的，GGCL、CVAP和DECR针对不同的失败模式（纹理较弱、跨边界传播和不可靠的证据）起作用，因此它们是协同工作的，而不是重复的。

贡献：（i）几何引导的对比学习（GGCL）：一种基于深度监督的多尺度对比学习方案，它明确地将特征空间划分为匹配区域和非匹配区域，从而在低纹理条件下提高区分能力[9]。（ii）跨视图注意力引导的传播（CVAP）：一种传播机制，它编码共视性并抑制遮挡边界附近的假设漂移[13]。（iii）深度误差感知的成本精细化（DECR）：一个细化模块，它将组间相似性与预测的置信度结合起来，在聚合过程中强调可靠的证据。（iv）在DTU[29]、BlendedMVS[30]和Tanks and Temples[31]上的广泛实验，以及相应的消融研究，量化了精度/效率之间的权衡，并分离了每个组件的效果。

章节片段

监督式MVS方法

端到端的监督式MVS普及了使用可微分单应性将特征变形到一个由神经聚合器规范化的平面扫描成本体积中[9]。为了应对内存限制，R-MVSNet使用循环单元沿深度进行顺序规范化，实现了更高分辨率的重建[10]。级联公式进一步缩小了各阶段的采样范围，产生了更精确的估计并减少了计算量[32]。成本体积金字塔实现了从粗到细的

几何引导的对比学习（GGCL）

给定校准后的空间尺寸为

的图像，我们将参考图像表示为

，其余的源视图表示为

。这一阶段的目标是在纹理较弱的区域和深度不连续处构建具有区分能力的特征表示。因此，我们在多尺度特征提取过程中引入了具有几何感知的对比学习目标，以便特征能够编码局部外观和跨视图几何一致性。

如图1所示，我们的网络采用了

数据集

我们使用了DTU数据集[29]、Tanks and Temples数据集[31]和BlendedMVS数据集[30]。DTU数据集[29]包含了在七种不同光照条件下捕获的100多个场景，分为训练集、验证集和评估集。它遵循[42]中的方法论，并按照[9]中的描述进行了预处理。Tanks and Temples数据集[31]包括真实的室内和室外场景，分为中级和高级子集。BlendedMVS数据集[30]是

结论

本文提出了一个监督式多视图立体视觉框架，该框架在保持高效的同时增强了3D推理能力。该方法整合了三个互补的组件——几何引导的对比学习（GGCL）、跨视图注意力引导的传播（CVAP）和深度误差感知的成本精细化（DECR）——它们分别用于为低纹理区域塑造具有区分能力的多尺度特征空间，模拟共视性以约束假设更新并抑制跨边界效应

CRediT作者贡献声明

Jie Han：撰写 – 审稿与编辑、撰写原始草稿、可视化、验证、监督、软件开发、资源管理、方法论研究、资金获取、形式分析、数据管理、概念化。Ning Yang：资源管理、资金获取。Jun Fang：项目管理、形式分析、数据管理。Lanbo Zhao：研究工作。Lin Hu：研究工作。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究未获得任何外部资助。

Jie Han于2023年从中国沈阳的东北大学信息科学与工程学院获得硕士学位。他目前在中国西安的西北工业大学自动化学院攻读博士学位。他的研究兴趣包括3D重建、计算机视觉、深度学习和人工智能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号