基于图像平面几何解码的视图不变室内场景重建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Image-plane geometric decoding for view-invariant indoor scene reconstruction

【字体：大中小】 时间：2026年05月10日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　李明扬 | 范一萌 | 刘长松 | 徐立雪 | 王鑫 | 刘燕燕 | 张伟天津大学微电子学院，天津市，300072，中国 **摘要** 基于体积的室内场景重建具有卓越的泛化能力和实时性潜力。然而，现有框架依赖于弱的多视图几何约束，导致输入视图数量减少时重建质量下降

　　李明扬 | 范一萌 | 刘长松 | 徐立雪 | 王鑫 | 刘燕燕 | 张伟
天津大学微电子学院，天津市，300072，中国

**摘要**
基于体积的室内场景重建具有卓越的泛化能力和实时性潜力。然而，现有框架依赖于弱的多视图几何约束，导致输入视图数量减少时重建质量下降。在稀疏视图场景中，由于缺乏鲁棒的先验，这些方法常常出现几何碎片化现象。为了解决这个问题，我们提出了图像-平面几何解码重建（IPDRecon）框架，该框架将几何光学原理作为归纳偏差，系统地利用单视图空间信息进行视图不变重建。我们的方法通过三个协同模块建立了结构化的几何约束机制：像素级置信编码器（PCE）结合状态-空间建模和漫反射原理来提取距离和位置信息；仿射补偿模块（ACM）通过仿射不变性强制实施刚性几何约束，从而在稀疏视图下准确恢复复杂结构；图像-平面空间解码器（IPSD）采用多源几何先验融合策略，将传统的反投影转换为具有几何意识的空间编码。在ScanNet V2基准数据集上的广泛实验表明，该方法具有出色的稳定性，精度达到79.7%，精确度和召回率的调和平均值（F分数）为0.722。在对验证集中的每个场景进行鲁棒性评估时，当视图数量从100减少到60时，我们的方法表现出显著的鲁棒性，平均性能保留率为99.7%，每个场景的变化系数为0.24%，最大性能下降仅为0.42%。这些结果证实，我们的物理指导方法为视图受限应用的高保真重建提供了可靠的解决方案。

**引言**
随着对智能生活需求的增长，设备自主感知能力的要求不断提高。传统的二维（2D）视觉作为设备理解环境的主要手段，已经无法满足功能需求（Ji等，2017）。因此，三维（3D）视觉变得流行起来。在这些技术中，3D重建已成为3D视觉的核心技术，并且正在快速发展（Yang等，2024）。特别是室内场景重建，在智能家居、室内监控以及虚拟现实（VR）/增强现实（AR）领域具有广泛的应用前景（Jiang等，2024）。
传统的室内场景重建方法通常依赖于视觉相机与激光雷达系统的集成，典型的例子包括同时定位与地图构建（SLAM）（Hong等，2025）和运动结构估计（SFM）（Schonberger和Frahm，2016；Ye等，2024）。然而，这些方法本质上受到深度感应硬件（如激光雷达和深度相机）性能限制以及后处理平台计算需求的瓶颈。特别是在面对非朗伯表面、低纹理区域和镜面反射表面时，传统方法经常失败（Li等，2023），导致重建不完整。随着深度学习的迅速发展，其强大的特征表示能力在医学图像分析（Amin等，2024b）、视频异常检测（Amin等，2024a；Ul Amin等，2022）以及复杂模式识别任务等广泛领域取得了显著成功。受这些跨领域进步的启发，为了克服对深度感应硬件的依赖，研究人员开发了端到端重建方法，消除了对明确深度输入的需要。在这些方法中，基于体积表示的重建方法由于其强大的泛化能力和实时部署潜力而具有强大的研究前景（Sun等，2021；Murez等，2020）。
尽管具有潜力，体积框架面临一个关键瓶颈。典型框架包括三个阶段：2D特征提取、反投影和表面回归，以注册的RGB图像作为输入生成表示为有符号距离场（SDF）的重建场景。然而，现有框架的根本限制在于其反投影过程，该过程完全依赖于多视图光线交点的弱几何约束来确定空间位置，使得重建质量严重依赖于视图数量和相邻视图之间的角度差异（J. Chen等，2023；Chen等，2025）。正如表1所展示的，我们在ScanNetV2上的验证实验表明，随着视图数量的增加，重建质量显著提高，这突显了当前依赖多视图方法的根本局限性。为了减轻视图数量的限制，现有方法尝试通过视图加权（Stier等，2021）、辅助帧（Feng等，2023）和额外占用监督（Qiu等，2024）等策略来改进反投影过程。然而，如图1所示，这些方法仍然存在严重的几何碎片化和拓扑不连续性问题。具体来说，如放大的红色区域所示，基线方法无法重建完整的对象结构，导致网格断裂和大规模表面缺失，这证实了在大规模室内场景中有限的视图无法提供足够的几何约束。虽然一些大规模视觉模型（Yang等，2024a；Wang等，2025）尝试通过大规模预训练来学习像素特征相关性以预测距离信息，但这种纯数据驱动的方法在训练数据不足的复杂室内场景中仍表现出泛化局限性，并且无法直接集成到基于几何约束的反投影框架中。
受提取视图内相关性的概念启发，我们提出了IPDRecon，这是一种新的图像-平面解码框架，旨在系统地利用单视图几何信息来加强视图内的几何约束，从而有效减少室内3D重建中对视图数量的依赖。本研究的核心贡献在于将几何光学成像的物理原理作为深度网络内的归纳偏差，构建几何约束机制。首先，为了解决初始感知问题，我们提出了像素级置信编码器（PCE），它通过结合状态-空间建模和漫反射成像原理，使模型能够从光度信息中推断出初始距离和位置（Pharr等，2023）。其次，关于复杂结构的保持，我们设计了仿射补偿模块（ACM），利用仿射不变性（Forsyth和Ponce，2002）来施加刚性几何约束，确保模型即使在稀疏视图下也能准确恢复复杂的几何结构。最后，为了克服传统反投影的表示局限性，我们设计了图像-平面空间解码器（IPSD），它采用创新的多源几何先验融合策略，在成本体积内部共同编码距离、位置和几何特征。在ScanNet V2数据集上的广泛实验验证了我们方法的有效性，精度达到79.7%，F分数为0.722。除了标准指标外，我们还对整个ScanNet测试集（100个场景）进行了严格的稳定性分析。结果表明，我们的方法在保持重建质量的同时显著减少了重建伪影，并实现了卓越的视图不变性。具体来说，即使在只有60帧的稀疏视图配置下，IPDRecon在精度、召回率和F分数方面的平均性能保留率为99.7%，变化系数仅为0.24%。这种重建保真度与密集的100视图设置相当，为实际室内场景重建提供了稳健且实用的解决方案。

**总结**
我们的主要贡献如下：
• 我们提出了IPDRecon，这是一种新的图像-平面解码框架，旨在最小化对视图数量的依赖。通过将几何光学成像原理作为归纳偏差，我们的框架系统地利用单视图信息来加强视图内的几何约束。
• 我们构建了一个包含两个关键模块的系统化几何约束机制：像素级置信编码器（PCE），它结合状态-空间建模和漫反射原理进行初始感知；以及仿射补偿模块（ACM），它利用仿射不变性施加刚性约束以恢复复杂结构。
• 我们设计了图像-平面空间解码器（IPSD），专门解决3D重建中的细节丢失问题。作为专门的解码模块，IPSD采用多源几何先验融合策略，从特征表示中准确解码高保真空间结构，即使在稀疏视图条件下也能保持复杂细节。
• 在ScanNet V2上的广泛实验验证了我们方法的有效性。IPDRecon实现了79.7%的精度和0.722的F分数。关键的是，在所有验证场景的鲁棒性测试中，当视图密度从100减少到60时，我们的方法的变化系数为0.24%，性能保留率为99.7%，验证了其在视图受限场景中的稳定性。

**论文结构**
第2节概述了室内3D重建的最新方法。第3节详细介绍了IPDRecon的实现细节。第4节介绍了我们的实验协议和结果分析。第5节总结了研究工作并展望了未来的工作。

**相关工作**
室内场景重建由于其广泛的应用需求而受到广泛关注。当前的方法主要分为基于深度的、基于体积的和神经隐式表示的方法。

**方法论**
在本节中，我们详细介绍了我们提出的图像-平面解码框架（IPDRecon）的实现细节。第3.1节详细介绍了IPDRecon的重建流程。第3.2节详细介绍了像素级置信编码器（PCE）的实现细节。第3.3节描述了仿射补偿模块（ACM）的主要工作流程。第3.4节解释了图像-平面空间解码器（IPSD）的构建方法。第3.5节概述了监督方法。

**实验**
在本节中，我们提供了详细的测试条件。随后，我们展示了IPDRecon在三个主流数据集上的测试结果。此外，消融实验也证明了我们设计的有效性。

**结论**
在本文中，我们提出了IPDRecon，这是一种创新的图像平面解码框架，从根本上重新设计了体积3D重建中的反投影过程。尽管当代端到端范式显著推动了该领域的发展，但我们的分析揭示了一个持续的“视图依赖”瓶颈，这源于对多视图光线交点产生的弱几何约束的过度依赖。通过系统地将几何光学的物理原理作为归纳偏差，...

**作者贡献声明**
李明扬：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。
范一萌：撰写——审阅与编辑。
刘长松：撰写——审阅与编辑。
徐立雪：撰写——审阅与编辑、可视化。
王鑫：撰写——审阅与编辑。
刘燕燕：撰写——审阅与编辑、监督。
张伟：撰写——审阅与编辑、监督、资源管理、项目 Administration、资金获取。

**利益冲突声明**
作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报告的工作。

**致谢**
这项工作部分得到了中国航空科学基金（编号20230058048013）的支持。
李明扬于2023年毕业于天津大学精密仪器与光电子工程学院，获得测量技术与仪器硕士学位。目前，他正在天津大学微电子学院攻读博士学位。他的研究领域包括人工智能、计算机视觉和机器学习。

联系信箱：

粤ICP备09063491号

热点排行