高分辨率卫星图像(HRSIs)的双目立体匹配是摄影测量[1]、地球科学[2]和遥感[3]中的基本任务之一。其目标是在卫星获取的左视图和右视图图像之间建立密集的像素对应关系,即获得描述这些对应关系的密集视差图。一旦获得密集视差图,就可以根据三角测量原理计算出场景的深度(距离)信息,从而重建场景的三维空间结构。随着遥感传感器技术的快速发展,现有的民用遥感卫星已经能够获取亚米级地面采样距离(GSD)和高重叠率的高分辨率立体图像对[4]、[5]。这使得利用双目立体视觉技术从HRSIs进行大规模高分辨率3D地形感知和重建成为可能[6],在资源勘探、灾害评估、农业管理、城市规划、环境监测以及城市规模[7](甚至国家规模[1])的3D地形重建等领域具有巨大的应用潜力。
然而,HRSIs的立体匹配是一项相当具有挑战性的任务。首先,在HRSIs中,地理元素(如农田、森林、山脉、道路表面、屋顶、道路、河流和湖泊)通常占主导地位。因此,HRSIs通常具有重复纹理和弱纹理区域[8],这加剧了匹配歧义的问题,对立体匹配的精度提出了更严重的挑战[5]。其次,遥感场景中的左视图和右视图图像往往由于两个因素而表现出明显的视觉差异。一个是左右图像的获取时间可能不同,存在几天甚至几个月的差异,导致季节变化、阳光变化等。另一个因素是左右图像通常具有较大的视角差异,导致遮挡、几何变形等。第三,卫星图像的相对较低清晰度,主观上表现为模糊的细节,进一步复杂化了立体匹配。更重要的是,作为一项密集的像素匹配任务,立体匹配本身具有较高的计算复杂性[9]。例如,为近距离图像(即普通相机拍摄的图像)设计的最先进(SOTA)立体匹配网络需要数十到数百亿次乘累加操作(MACs)来处理540×960像素的图像对[10]。不幸的是,HRSIs通常覆盖大面积且具有更高的分辨率(例如1024×1024)[5],使得计算开销问题更加突出。因此,适用于HRSIs的立体匹配模型必须同时解决精度和计算效率的挑战。
为了实现快速准确的立体匹配,本文综合运用了多种创新思想来应对上述挑战。首先,为了高效获取包含上下文信息和局部细节的高质量图像特征,构建了一个具有“编码器-解码器”结构的多尺度特征提取(MFE)模块。MFE旨在在不同尺度上提取和整合上下文信息,同时通过跳跃连接为浅层特征提供快速传播路径,以保留更多详细信息。
其次,在成本聚合阶段,现有的遥感图像立体匹配网络通常构建一个考虑所有可能视差的全4D成本体积[8]、[11],该体积具有四个维度,分别对应于通道、视差、宽度和高度。然后使用大量3D卷积层进行成本聚合。然而,全4D成本体积和3D卷积导致了巨大的计算开销,成为整个网络的性能瓶颈。与现有工作相比,本文在低分辨率(即原始图像分辨率的1/16和1/8)下构建了两个全成本体积。然后,构建了一个双成本体积融合模块(DVF),在通道注意力的引导下融合这两个低分辨率成本体积,以便全面利用不同尺度的上下文信息。在相对较高的分辨率(即原始图像分辨率的1/4)下,使用候选视差预测模块(CDP)为每个像素预测N个高质量候选视差,从而构建一个“紧凑”的成本体积,其中包含少数候选视差。通过这种方式,在确保成本体积保持相对较高空间分辨率的同时,显著降低了计算开销。
特别是,众所周知,低分辨率成本体积包含更多的上下文信息,因此有利于在重复纹理和弱纹理等区域进行特征匹配;相反,高分辨率成本体积具有更高的空间分辨率,包含小尺度局部细节,有利于在详细图像区域(如物体边界、微小结构等)进行特征匹配。因此,融合和利用高分辨率和低分辨率的成本体积对于提高视差精度至关重要[12]、[13]。然而,全成本体积/紧凑成本体积的有效融合是一个相当大的挑战。主要困难在于用于构建全成本体积的候选视差是固定的,所有像素共享相同的候选视差,而用于构建紧凑成本体积的候选视差是由网络本身预测的,这意味着不同像素可能具有不同的候选视差。因此,这两种类型的成本体积不能直接融合。
为了解决这个问题并有效整合不同成本体积的优势,本文提出了一种简洁而有效的自适应切片(AS)策略。基于高分辨率紧凑成本体积的候选视差,它直接对上采样的全成本体积进行切片,以获得与紧凑体积相同维度的“切片”成本体积。然后,在通道注意力的引导下,设计了一个三成本体积融合(TVF)模块,以自适应地融合两个切片成本体积与紧凑体积。AS和TVF模块巧妙地融合了不同类型的成本体积,同时仅引入了低计算开销。
最后,高分辨率成本体积的成本聚合显著影响视差精度,同时需要高计算开销。简单地降低成本聚合模块的规模会降低其性能。考虑到这一点,本文采用了一种维度融合(DF)策略,将4D成本体积的通道和视差两个维度融合为一个维度,然后使用2D卷积进行成本聚合。这种策略显著降低了计算开销,同时保持了良好的精度。
总之,上述系统设计的策略和模块共同构成了我们的ASHF-Net。如图1所示,与当前最先进的(SOTA)模型HMSM-Net [11]和CMSP-Net [8]相比,所提出的ASHF-Net在精度上达到了可比或更高的水平,同时在推理速度上显著优于它们,从而在精度和计算开销之间实现了出色的平衡。
本文的主要贡献如下:1)提出了一种自适应成本体积切片策略,该策略在预测的视差候选的引导下从低分辨率全成本体积中重新采样上下文信息。2)提出了一种高效的全成本体积和紧凑成本体积融合策略,可以自适应地融合这两种类型的成本体积,并在极低的计算开销下全面利用上下文信息和局部细节。3)为HRSIs构建了一个高效的立体匹配网络,在精度和计算开销之间实现了出色的平衡,优于现有的SOTA模型。