通过自适应切片和分层融合技术实现高分辨率卫星图像的高效立体匹配

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对高分辨率卫星图像立体匹配的高计算成本与精度效率平衡难题，提出自适应切片与多尺度成本体分层融合方法，通过构建低分辨率全成本体与高分辨率紧凑成本体，结合通道注意力自适应融合策略，在保持高精度的同时将计算量降低38.3%，推理速度提升130%。

吴忠|何莉莉|刘圆圆|罗云云|林光峰

中国山西省运城市运城大学物理与电子工程系，邮编044000

摘要

为了解决高分辨率卫星图像（HRSIs）双目立体匹配中的高计算成本以及精度与效率平衡问题，本文提出了一种基于自适应切片和多成本体积层次融合的有效解决方案。首先，为了在降低计算成本的同时全面利用多尺度上下文信息，本研究构建了不同分辨率下的全成本体积（考虑所有可能的视差），然后通过整合多种先验信息来预测少数高分辨率候选视差。其次，提出了一种简洁的自适应切片（AS）策略，并在此基础上设计了双成本体积融合模块（DVF）和三成本体积融合模块（TVF），即使在待融合的成本体积具有不同候选视差的情况下，这些模块也能在通道注意力的引导下高效地融合不同类型的成本体积。AS、DVF和TVF共同利用详细信息和上下文信息，且计算开销极低。具体而言，这三个模块仅为基线模型增加了0.009M参数、1.53G乘累加操作（MACs）和5ms的推理时间，而基线模型本身具有3.078M参数、207.27G MACs和64ms的推理时间。与现有的最先进模型相比，所提出的模型将推理速度提高了130%，MACs减少了38.3%，端点误差和错误率分别降低了4.1%和8.3%。该方法为HRSIs的立体匹配任务提供了有效的解决方案，并为未来的研究提供了新的见解。

引言

高分辨率卫星图像（HRSIs）的双目立体匹配是摄影测量[1]、地球科学[2]和遥感[3]中的基本任务之一。其目标是在卫星获取的左视图和右视图图像之间建立密集的像素对应关系，即获得描述这些对应关系的密集视差图。一旦获得密集视差图，就可以根据三角测量原理计算出场景的深度（距离）信息，从而重建场景的三维空间结构。随着遥感传感器技术的快速发展，现有的民用遥感卫星已经能够获取亚米级地面采样距离（GSD）和高重叠率的高分辨率立体图像对[4]、[5]。这使得利用双目立体视觉技术从HRSIs进行大规模高分辨率3D地形感知和重建成为可能[6]，在资源勘探、灾害评估、农业管理、城市规划、环境监测以及城市规模[7]（甚至国家规模[1]）的3D地形重建等领域具有巨大的应用潜力。

然而，HRSIs的立体匹配是一项相当具有挑战性的任务。首先，在HRSIs中，地理元素（如农田、森林、山脉、道路表面、屋顶、道路、河流和湖泊）通常占主导地位。因此，HRSIs通常具有重复纹理和弱纹理区域[8]，这加剧了匹配歧义的问题，对立体匹配的精度提出了更严重的挑战[5]。其次，遥感场景中的左视图和右视图图像往往由于两个因素而表现出明显的视觉差异。一个是左右图像的获取时间可能不同，存在几天甚至几个月的差异，导致季节变化、阳光变化等。另一个因素是左右图像通常具有较大的视角差异，导致遮挡、几何变形等。第三，卫星图像的相对较低清晰度，主观上表现为模糊的细节，进一步复杂化了立体匹配。更重要的是，作为一项密集的像素匹配任务，立体匹配本身具有较高的计算复杂性[9]。例如，为近距离图像（即普通相机拍摄的图像）设计的最先进（SOTA）立体匹配网络需要数十到数百亿次乘累加操作（MACs）来处理540×960像素的图像对[10]。不幸的是，HRSIs通常覆盖大面积且具有更高的分辨率（例如1024×1024）[5]，使得计算开销问题更加突出。因此，适用于HRSIs的立体匹配模型必须同时解决精度和计算效率的挑战。

为了实现快速准确的立体匹配，本文综合运用了多种创新思想来应对上述挑战。首先，为了高效获取包含上下文信息和局部细节的高质量图像特征，构建了一个具有“编码器-解码器”结构的多尺度特征提取（MFE）模块。MFE旨在在不同尺度上提取和整合上下文信息，同时通过跳跃连接为浅层特征提供快速传播路径，以保留更多详细信息。

其次，在成本聚合阶段，现有的遥感图像立体匹配网络通常构建一个考虑所有可能视差的全4D成本体积[8]、[11]，该体积具有四个维度，分别对应于通道、视差、宽度和高度。然后使用大量3D卷积层进行成本聚合。然而，全4D成本体积和3D卷积导致了巨大的计算开销，成为整个网络的性能瓶颈。与现有工作相比，本文在低分辨率（即原始图像分辨率的1/16和1/8）下构建了两个全成本体积。然后，构建了一个双成本体积融合模块（DVF），在通道注意力的引导下融合这两个低分辨率成本体积，以便全面利用不同尺度的上下文信息。在相对较高的分辨率（即原始图像分辨率的1/4）下，使用候选视差预测模块（CDP）为每个像素预测N个高质量候选视差，从而构建一个“紧凑”的成本体积，其中包含少数候选视差。通过这种方式，在确保成本体积保持相对较高空间分辨率的同时，显著降低了计算开销。

特别是，众所周知，低分辨率成本体积包含更多的上下文信息，因此有利于在重复纹理和弱纹理等区域进行特征匹配；相反，高分辨率成本体积具有更高的空间分辨率，包含小尺度局部细节，有利于在详细图像区域（如物体边界、微小结构等）进行特征匹配。因此，融合和利用高分辨率和低分辨率的成本体积对于提高视差精度至关重要[12]、[13]。然而，全成本体积/紧凑成本体积的有效融合是一个相当大的挑战。主要困难在于用于构建全成本体积的候选视差是固定的，所有像素共享相同的候选视差，而用于构建紧凑成本体积的候选视差是由网络本身预测的，这意味着不同像素可能具有不同的候选视差。因此，这两种类型的成本体积不能直接融合。

为了解决这个问题并有效整合不同成本体积的优势，本文提出了一种简洁而有效的自适应切片（AS）策略。基于高分辨率紧凑成本体积的候选视差，它直接对上采样的全成本体积进行切片，以获得与紧凑体积相同维度的“切片”成本体积。然后，在通道注意力的引导下，设计了一个三成本体积融合（TVF）模块，以自适应地融合两个切片成本体积与紧凑体积。AS和TVF模块巧妙地融合了不同类型的成本体积，同时仅引入了低计算开销。

最后，高分辨率成本体积的成本聚合显著影响视差精度，同时需要高计算开销。简单地降低成本聚合模块的规模会降低其性能。考虑到这一点，本文采用了一种维度融合（DF）策略，将4D成本体积的通道和视差两个维度融合为一个维度，然后使用2D卷积进行成本聚合。这种策略显著降低了计算开销，同时保持了良好的精度。

总之，上述系统设计的策略和模块共同构成了我们的ASHF-Net。如图1所示，与当前最先进的（SOTA）模型HMSM-Net [11]和CMSP-Net [8]相比，所提出的ASHF-Net在精度上达到了可比或更高的水平，同时在推理速度上显著优于它们，从而在精度和计算开销之间实现了出色的平衡。

本文的主要贡献如下：1）提出了一种自适应成本体积切片策略，该策略在预测的视差候选的引导下从低分辨率全成本体积中重新采样上下文信息。2）提出了一种高效的全成本体积和紧凑成本体积融合策略，可以自适应地融合这两种类型的成本体积，并在极低的计算开销下全面利用上下文信息和局部细节。3）为HRSIs构建了一个高效的立体匹配网络，在精度和计算开销之间实现了出色的平衡，优于现有的SOTA模型。

方法论

给定一对经过极轴校正的高分辨率卫星图像（HRSIs），所提出的ASHHF-Net旨在以端到端的方式高效地获得左右图像之间的密集像素对应关系，即获取高质量的视差图。ASHHF-Net的架构如图2所示。接下来，我们将详细阐述每个关键模块的基本原理和细节。

数据集

在实验中，使用了两个广泛认可的数据集：Urban Semantic 3D（US3D）[32]和WHU-Stereo [5]。这两个数据集中的图像由卫星捕获，覆盖了美国和中国的多个城市的各种地形。表2显示了数据集的详细信息。

结论

为了满足在HRSIs的立体匹配中平衡高精度和低计算开销的迫切需求，本文提出了一种基于自适应切片和多尺度成本体积层次融合的高效立体匹配网络ASHHF-Net。ASHHF-Net提取多尺度图像特征，仅在低和中等分辨率下构建全成本体积，然后生成一组候选视差以构建高分辨率的紧凑成本体积

CRediT作者贡献声明

吴忠：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，软件，数据管理，概念化。何莉莉：写作 – 审稿与编辑，可视化，软件，调查。刘圆圆：写作 – 审稿与编辑。罗云云：可视化。林光峰：写作 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中国山西省基础研究计划（编号202403021222304）、运城大学博士研究启动项目（编号YXBQ-202523）、运城大学科学研究项目（编号YY-202403）以及2025年山西省高等教育机构综合改革与质量提升项目（省级数字文化遗产发展计划在高等教育机构中的应用）的支持

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法论

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行