通过跨模态注意力RGB-D融合和对抗性薛定谔桥技术提升表面法线估计的准确性

《Pattern Recognition Letters》：Enhancing Surface Normal Estimation with Cross-Modal Attention RGB-D Fusion and Adversarial Schr?dinger Bridge

【字体：大中小】 时间：2026年02月23日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　表面法线估计通过融合RGB和稀疏深度输入，结合图像转译框架与动态判别器提升精度，实验验证其优于现有方法。

作者：齐桥（Zhi Qiao）、杜一成（Yicheng Du）、李辉（Hui Li）、梅淑丽（Shuli Mei）

单位：中国农业大学信息与电气工程学院，北京市海淀区清华东路17号，邮编100083

摘要

表面法线估计是各种计算机视觉任务的基础，包括3D重建和机器人导航。传统的基于RGB的方法通常难以处理单目图像的固有歧义，这限制了它们在复杂环境中的准确性。为了解决这些问题，我们提出了一种融合RGB和稀疏深度输入的方法，增强了几何推理并提高了估计的鲁棒性。我们的方法基于“图像到图像的薛定谔桥”（Image-to-Image Schr?dinger Bridge）框架，将表面法线估计问题表述为一个熵正则化的最优传输问题。为了进一步提高性能，我们引入了一个动态判别器（Dynamic Discriminator），通过在不同尺度上保持一致性来提升预测法线图的质量。此外，我们还加入了注意力机制（attention mechanisms），以实现自适应的特征提取，从而捕捉复杂的表面几何结构。实验表明，我们的方法在准确性和感知质量方面均优于现有方法。

引言

表面法线估计在许多计算机视觉应用中起着关键作用，包括3D重建、物体识别、增强现实和机器人导航。与深度估计类似，由于图像外观与表面方向之间的复杂关系，这项任务也面临重大挑战。准确估计表面法线需要基于学习的方法，结合强几何先验和语义上下文来克服2D观测中的固有歧义。

尽管表面法线是一个局部属性，但它们提供了关于场景底层结构的宝贵几何线索，对于各种下游任务至关重要。最近的研究已经证明了它们在图像合成、物体操作、多任务学习、同时定位与映射以及CAD模型对齐等应用中的有效性。然而，现有方法主要依赖于RGB信息来预测表面法线，这在缺乏足够几何细节的复杂现实世界场景中效果有限。

为了解决这些限制，我们提出了一种新方法，将稀疏深度信息与RGB输入相结合，通过提供额外的空间信息来提高估计的准确性。现实世界应用中通常包含来自各种传感设备的稀疏深度数据，如激光雷达扫描仪、结构光传感器和飞行时间（ToF）相机。我们还引入了跨模态注意力融合网络（Cross-Modal Attention Fusion Network，CMAFN），用于动态加权两种模态的特征，CMAFN增强了融合过程，从RGB输入中捕获语义丰富性，并从深度信息中获取几何精度。将此方法集成到“图像到图像的薛定谔桥”（Image-to-Image Schr?dinger Bridge，I2SB）框架中，可以提高法线图预测的准确性和鲁棒性，应对诸如光照不明确和无纹理表面等挑战。

现有的表面法线估计方法通常依赖于卷积神经网络（CNN），这些网络假设平移等变性，并在空间位置上使用共享权重。虽然这种设计提高了效率和泛化能力，但它忽略了每个像素的空间信息的重要性，而后者对于准确推断表面方向至关重要。因此，基于CNN的方法可能在处理具有不同相机分布和视角的数据集时难以泛化。

为了克服这些挑战，我们在对抗性I2SB框架的基础上进行了改进，将该框架中的图像到图像的平移任务表述为一个熵正则化的最优传输问题。I2SB提供了一种在保持结构一致性和语义完整性的同时进行插值的原则性方法。在这项工作中，我们通过引入动态判别器来扩展I2SB框架，形成了一个对抗性训练结构，以细化生成的表面法线图。判别器在全局和局部尺度上评估预测法线的真实性，指导生成器产生与真实数据更匹配的输出。这种对抗性增强有助于减轻模式崩溃问题，并提高生成法线图的多样性。

此外，我们在模型中引入了感受野注意力卷积（Receptive Field Attention Convolution，RFAConv），根据输入内容动态调整感受野大小，从而增强特征提取能力。这使得网络能够更有效地捕捉多尺度依赖性，提高恢复精细表面细节和结构连贯性的能力。RFAConv与对抗性判别器的结合使我们的模型能够高效地将RGB和稀疏深度输入转换为准确的表面法线预测。

表面法线估计

表面法线估计是计算机视觉中的一个关键任务，在3D重建、增强现实和机器人技术中有着广泛的应用。传统方法主要依赖于手工制作的几何特征和基于优化的方法，如在受控环境下的形状反演（shape-from-shading）和多视图立体视觉（multi-view stereo），但在复杂的真实世界环境中面临挑战[1]。随着深度学习的发展，卷积神经网络彻底改变了这一领域。

概述

表面法线估计是一项具有挑战性的任务，其目标是从RGB图像和稀疏深度测量数据中预测密集的表面法线图。为此，我们提出了一个基于I2SB模型的增强型生成框架，该框架能够高效地学习多模态输入与表面法线预测之间的映射关系。我们采用了轻量级架构，并加入了注意力机制，以增强模型对信息丰富区域的关注能力。

数据集和实现细节

我们在Gobjaverse和DIODE（Dense Indoor and Outdoor Depth）数据集上评估了我们的方法。Gobjaverse包含超过50万张（512×512像素）的各种物体的图片，包括RGB、深度和法线信息。我们的训练/验证/测试数据分布在所有物体类别和几何类型中，确保了多样化的形状和视角的覆盖。DIODE提供了高分辨率的RGB-D图像，具有准确的远距离深度信息，涵盖了具有高频几何特性的室内和室外场景。

结论

在本文中，我们提出了一种用于表面法线估计的对抗性I2SB框架。通过结合稀疏深度信息与RGB图像，我们的方法解决了从2D图像准确估计表面法线的挑战。我们还引入了RFAConv和动态判别器，以提高模型捕捉详细表面方向的能力，并增强感知一致性。实验表明，所提出的模型优于现有方法。

未引用的参考文献

缺少引用：算法1

CRediT作者贡献声明

齐桥（Zhi Qiao）： 方法论设计、资金获取、数据整理。杜一成（Yicheng Du）： 验证工作。李辉（Hui Li）： 验证工作、调查分析。梅淑丽（Shuli Mei）： 监督工作、概念化设计。

利益冲突声明

齐桥报告称，本研究得到了中国国家自然科学基金的支持。如果还有其他作者，他们声明没有已知的利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究部分得到了中国国家自然科学基金（项目编号：32371995）和中国农业大学学科整合与创新项目的支持。

摘要

引言

表面法线估计

概述

数据集和实现细节

结论

未引用的参考文献

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题