《iScience》:MFMINet: Multimodal fusion and cross-layer interaction network for semantic segmentation of high-resolution remote sensing images
编辑推荐:
为解决高分辨率遥感图像(HRRSI)语义分割中因光谱模糊、高程信息缺失和几何混淆导致的类间相似对象(如道路与屋顶)区分难题,研究人员开展了名为MFMINet的多模态融合与跨层交互网络研究。该研究通过设计多模态跨层融合模块(MCFM)整合IRRG图像与nDSM高程数据,结合自注意力模块(SAM)和双空间感知模块(DSAM)增强全局上下文建模能力,并采用特征增强模块(FEM)自适应选择Transformer或CNN进行特征聚合。实验表明,该方法在ISPRS Vaihingen和Potsdam数据集上mIoU分别达到89.96%和88.24%,显著提升了复杂场景下的分割精度。
在城市规划、土地覆盖分析等领域,高分辨率遥感图像(HRRSI)的语义分割技术正发挥着越来越重要的作用。然而,传统的基于单一成像模态的方法常常受到光谱模糊、高程线索缺失以及几何混淆等问题的困扰。比如,在区分光谱相似但实际类别不同的地物(如道路和屋顶)时,仅依靠红外-红-绿(IRRG)图像往往力不从心。虽然多源数据融合被视为一种有前景的解决方案,但如何有效利用来自不同模态特征的互补信息,仍然是一个巨大的挑战。
近年来,深度卷积神经网络(DCNNs)在计算机视觉(CV)领域的成功应用,推动了遥感图像语义分割技术的快速发展。从全卷积网络(FCN)到U-Net,从SegNet到DeepLabv3+,研究者们不断尝试通过各种网络结构来提升分割精度。然而,高分辨率遥感图像通常具有场景复杂、地物特征多元、类内差异大而类间相似性高等特点,这使得仅使用单模态数据难以有效区分具有相似光谱特征的地物。
值得注意的是,计算机视觉领域也面临着类似的挑战。为了解决这一问题,一些学者提出了视觉Transformer(ViT),利用Transformer中的自注意力机制,使模型能够同时考虑特征图中所有像素之间的关系,从而增强模型对全局上下文信息的建模能力。与此同时,研究表明多模态数据可以从不同角度展示目标的特征信息,因此利用多模态数据的互补性可以更好地区分具有相似光谱特征的区域。
在RGB-D(RGB和深度)图像中利用多模态数据融合进行语义分割是一种较为通用的方法,通过引入深度图来增强RGB图像特征中的空间细节。然而,由于高分辨率遥感图像包含独特的光谱组合,通常包含小物体和复杂场景,并且归一化数字表面模型(nDSM)中包含的高程信息复杂且带有噪声,此外大多数现有的语义分割模型仅使用元素相加或逐通道拼接,无法有效利用多模态数据中的互补特征信息来提升模型性能。因此,当在高分辨率遥感图像语义分割中结合使用IRRG图像和nDSM图像时,RGB-D语义分割方法并不能直接适用。
为了能够有效利用nDSM数据中的特征信息实现高分辨率遥感图像的精确语义分割,研究人员提出了一种名为多模态融合与多层交互网络(MFMINet)的双向编码器-解码器网络。该模型通过多模态跨层融合模块(MCFM)将高层语义信息与低层空间细节信息进行融合,探索不同信息模态之间的互补性。此外,还引入了自注意力模块(SAM)来捕获长距离空间依赖性并优化融合特征。同时,研究人员还开发了特征增强模块(FEM),该模块智能地选择窄通道的Transformer块和宽通道的CNN块,然后通过逐点卷积实现最优特征集成。此外,还提出了双空间感知模块(DSAM)来减轻下采样效应并处理全局多尺度上下文信息。
这项研究发表在跨学科期刊《iScience》上,为高分辨率遥感图像语义分割领域提供了新的解决方案。研究人员通过设计一系列创新性模块,有效克服了传统方法中的局限性,在多个基准数据集上取得了领先的性能。
为开展这项研究,作者团队主要应用了几项关键技术方法:首先,构建了基于ResNet-50(处理IRRG图像)和ResNet-34(处理nDSM图像)的双分支编码器-解码器网络架构;其次,设计了多模态跨层融合模块(MCFM)实现跨模态和跨层特征的有效融合;第三,引入了自注意力模块(SAM)增强全局上下文建模能力;第四,开发了双空间感知模块(DSAM)用于提取多尺度上下文特征;最后,提出了特征增强模块(FEM)自适应地选择Transformer或CNN进行特征聚合。实验在两个公开的ISPRS基准数据集(德国Vaihingen和Potsdam数据集)上进行,包含IRRG图像和nDSM数据,共六类地物标签。
单模态语义分割
早期研究主要集中于单模态语义分割方法。全卷积网络(FCN)作为代表性的编码器-解码器网络,取代了传统CNN中的全连接层,使网络能够处理任意大小的输入并输出相应大小的结果。通过跳跃连接,FCN结合了不同层的特征图,保留了更多的空间细节信息。在此基础上,U-Net提出了更高效的跳跃连接结构,实现了不同特征图的精确融合,提高了分割精度。SegNet通过记录编码过程中的池化索引并将其用于解码过程的监督,使解码过程更加规范。扩张卷积通常用于缓解特征图大小与感受野之间的矛盾,它使用零卷积核对输入图像进行卷积,在保证感受野不减少的同时获得不同尺度的特征图,从而获得更多的上下文信息。
多模态融合语义分割
多源数据的互补信息整合已成为克服单模态分析局限性的关键策略。早期的工作如Noh等人提出的FuseNet,通过双编码器处理RGB图像和深度图,并通过元素相加融合其中间特征。Ha等人提出了MFNet,一个用于城市场景中RGB-T分割的实时双分支网络。为了更好地恢复空间细节,几种方法强调在解码期间或跨多个网络级别进行融合。Wang等人设计了一个反卷积网络,其中RGB和深度数据分别在编码和解码阶段处理。Sun等人提出了FuseSeg网络,其中最初通过元素相加融合的特征随后在解码器中通过张量连接进行融合,以减轻信息损失。
多模态高分辨率遥感图像语义分割
在遥感图像领域的研究中,像素级多源遥感数据融合主要基于光学遥感图像、nDSM、激光雷达(LiDAR)和合成孔径雷达(SAR)。Zhao等人提出了MS2-NET网络,该网络设计了多阶段融合模块,通过过滤多模态数据中的噪声来校准偏差信息。Sun等人提出了一种多模态融合机制以及多阶段特征融合模块,通过该模块可以实现多模态特征的自适应融合,增强从全局到局部的上下文融合。Xiong等人提出了一种基于Transformer的中间多模态融合模块,该模块使用中间可学习令牌通过自注意力机制融合RGB和高级模态特征。
实验结果与讨论
在ISPRS Vaihingen数据集上的实验表明,MFMINet实现了89.96%的mIoU,比第二好的方法SFANet高出1.20%。MFMINet在所有类别中都表现出色,特别是在建筑、树木和低植被类别中,mIoU分别达到96.04%、90.57%和88.73%。这凸显了MFMINet在捕捉复杂细节和物体边界方面的有效性,这对于遥感应用至关重要。
在Potsdam数据集上的最终评估中,MFMINet在多个指标上达到了最先进的性能,获得了88.24%的最高mIoU分数。在汽车类别中,该方法实现了86.93%的mIoU,比第二好的方法SFANet高出超过1个百分点。在类间相似性高的类别,如树木和低植被,该方法仍然提供了优异的结果,mIoU分别为83.57%和87.26%,比最接近的竞争对手高出2%以上。
计算复杂度分析
MFMINet的GFLOPs性能处于中等水平,其参数量为133.09M,适中且合适,在性能和可行性之间取得了良好的平衡。此外,MFMINet每个训练周期仅需0.39小时,比同类方法(如MGCNet的1.63小时和CMFNet的1.11小时)更具时间效率,增强了其实际应用性,特别是在资源有限的环境中。
消融研究
通过消融研究评估了MFMINet中核心组件的影响。当省略DSAM、SAM、FEM或MCFM模块时,所有指标的性能均出现下降,这凸显了每个组件在网络效能中的关键作用。具体而言,当使用简单的元素相加代替MCFM进行IRRG和nDSM跨模态融合时,会导致分割粗糙且无法提取小物体。当用直接特征传递代替SAM时,网络无法建立跨遥远区域的连贯空间关系,导致分割边界模糊和粗糙,部分区域粘连,小物体检测性能下降。当使用简单特征融合代替DSAM时,模型难以有效建模全局语义特征。当在解码器中使用简单卷积层代替FEM时,会丢失空间细节信息,从而无法准确区分相似目标。
研究结论与意义
MFMINet模型的提出旨在增强多模态高分辨率遥感图像语义分割的性能。该模型的核心是MCFM,它巧妙地将高层语义特征与低层空间细节结合起来,实现更精确的分割。此外,创新性地引入了双空间感知模块(DSAM),利用双路径处理策略充分利用全局多尺度上下文信息,指导解码过程。为了增强全局上下文建模能力,在多模态特征融合和DSAM阶段之间加入了SAM,有效捕获长距离空间依赖性并在多尺度处理前优化融合的RGB-DSM特征。在解码器部分,开发了FEM,智能地选择窄通道的Transformer块和宽通道的CNN块,然后通过逐点卷积实现最优特征集成。这种自适应方法有效整合了不同层次的特征,去除了冗余信息,进一步提高了语义分割图的精度。
尽管MFMINet模型为高分辨率遥感图像语义分割领域带来了新的研究视角,但研究者认识到优化模型参数数量和增强小目标物体的特征提取能力仍然是未来工作的关键方向。研究者将继续探索,旨在实现更高效、更精确的遥感图像语义分割技术。
研究局限性
当前研究存在几个值得注意的局限性:首先,虽然该方法在小物体(如汽车)分割方面表现出强大的定性性能,但定量评估主要依赖于整体指标。针对小目标分割的更针对性和深入的分析(如实例级指标或尺寸感知评估协议)尚未进行。其次,本研究的实验验证仅限于两个具有相似传感模态和场景特征的城市基准数据集。尽管MFMINet在Vaihingen和Potsdam数据集上都取得了一致的改进,但其跨场景和跨数据集的泛化能力尚未得到彻底研究。最后,MFMINet引入了多个基于注意力和融合的模块,这不可避免地增加了模型的参数大小和架构复杂性。虽然在当前的实验设置中计算效率仍然可接受,但需要进一步的优化和轻量级设计以促进大规模部署和实时应用。
这项研究通过创新性的网络设计和模块化策略,为多模态遥感图像语义分割提供了有效的解决方案,不仅在学术上具有重要价值,也为实际应用提供了技术支撑。