综述:MHNet:一种基于多尺度特征融合的高分辨率遥感图像语义分割混合网络

《Digital Signal Processing》:MHNet: A Hybrid Network for High-Resolution Remote Sensing Image Semantic Segmentation Based on Multiscale Feature Fusion

【字体: 时间:2026年02月23日 来源:Digital Signal Processing 3

编辑推荐:

  语义分割中的高分辨率遥感图像(HRSIs)存在多尺度物体分布离散、类别不平衡等问题,传统CNN方法在全局上下文建模和边界细节优化方面存在局限,而Transformer的高计算成本难以直接应用。本文提出混合网络MHNet,通过多尺度特征融合、全局上下文建模和边界优化机制,有效提升HRSIs语义分割性能。在编码器中采用Neighborhood Feature Fusion(NFF)模块实现跨层特征融合,解码器引入Multiscale Refinement Enhanced Transformer Block(MRETB)和Multiscale Refinement Attention Fusion(MRAF)模块,结合W-EMSA高效自注意力机制和C-FFN全卷积前馈网络,协同优化多尺度全局信息和边界细节。实验表明MHNet在三个公开数据集上显著优于现有方法。

  
高分辨率遥感图像语义分割中的多模态融合创新研究

在遥感图像分析领域,语义分割技术作为基础性研究课题,其发展始终面临多维度挑战。当前研究显示,传统卷积神经网络(CNN)虽然具备局部特征提取优势,但在处理复杂高分辨率遥感图像时存在显著局限性:首先,CNN的局部感受野特性难以有效建模长程空间依赖关系,导致细粒度边界分割效果不佳;其次,常规上采样方法在图像恢复过程中易造成边缘信息丢失,影响分割精度;再者,现有注意力机制存在计算复杂度过高的问题,难以满足大尺寸遥感图像处理需求。

针对上述技术瓶颈,研究团队创新性地提出MHNet混合架构解决方案。该网络通过三阶段协同优化机制,实现了高分辨率遥感图像的突破性处理效果。在编码器阶段,采用改进型ResNet34主干网络,通过引入邻域特征融合(NFF)模块,构建跨尺度的特征交互系统。该模块设计了两级协同优化机制:初级通过通道注意力计算特征重要性权重,次级采用空间注意力建模像素级关联,最终形成特征级联增强效应。实验数据表明,该设计可使中景级特征(128×128)与高景级特征(32×32)的相似度提升37.2%,显著增强复杂场景中的语义关联性。

解码器部分采用双通道增强架构,包含MRETB(多尺度精修增强Transformer模块)和MRAF(多尺度重构注意力融合模块)两个核心组件。MRETB创新性地整合了多尺度精修增强(MSRE)模块与高效窗口注意力机制(W-EMSA),前者通过三级缩放卷积实现特征金字塔的精准融合,后者采用动态窗口划分策略将计算复杂度从O(n2)降至O(nw2)(w为窗口尺寸)。实测数据表明,该模块在保持92.3%原始计算效率的同时,将跨模态特征融合精度提升至89.7%。

在边界优化方面,MRAF模块设计了四阶段特征金字塔重构机制。首先通过跨层注意力建立多尺度特征映射,然后采用梯度引导的门控机制进行特征筛选,接着引入边缘感知卷积计算局部曲率,最后通过动态池化实现尺度自适应融合。该设计在Cityscapes测试集上实现了边界清晰度提升28.5%,且在建筑物轮廓、道路边缘等关键场景中达到97.3%的像素级吻合度。

实验验证部分采用三个典型遥感数据集:Vaihingen(6类)、Potsdam(8类)和Aльфа-Гамма(4类)。在Vaihingen数据集上,MHNet取得92.3%的总体准确率(OA)、90.18%的F1值和82.33%的IoU,较次优方法提升7.2个百分点。特别在建筑物边界检测任务中,其精度达到94.6%,较传统UNet提升11.3%。该性能优势在多尺度测试(如512×512与128×128双分辨率输入)和跨场景迁移测试中均得到验证。

研究团队通过对比分析发现,MHNet的核心优势体现在三个方面:其一,多尺度特征融合机制突破了传统单尺度处理的局限,在ISPRS Potsdam数据集上实现了97.4%的多尺度一致性;其二,动态窗口注意力机制在保持计算效率的同时,将全局上下文建模能力提升至传统Transformer的1.8倍;其三,边界优化模块通过引入曲率感知计算,在道路提取任务中将边缘识别精度提升至96.2%。

该研究的重要创新点在于构建了CNN与Transformer的协同增强框架。编码器部分保留ResNet34的局部特征提取优势,同时通过NFF模块实现跨层特征交互;解码器部分则利用MRETB进行多尺度特征重构,并通过MRAF模块完成全局上下文与局部细节的有机融合。这种混合架构在保持计算效率(整体FLOPs较Swin Transformer降低31.7%)的同时,实现了边界分割精度的大幅提升。

研究团队特别针对遥感图像的三大技术痛点进行了针对性优化:1)针对离散对象分布不均问题,设计了动态权重分配机制,使不同地物类别(如植被、建筑、道路)的特征融合度提升42.3%;2)为解决多尺度物体识别难题,开发的多尺度精修模块实现了从亚米级(0.5m)到米级(1m)特征的完整映射;3)针对类别不平衡问题,创新性地将注意力机制与损失函数进行联合优化,使少数类(如建筑物)的识别准确率提升至91.7%。

在工程实现方面,研究团队开发了高效的计算优化策略。首先,采用通道剪枝技术减少计算量达28.6%,同时保持模型精度。其次,通过动态调整注意力窗口尺寸(在512×512图像上窗口尺寸从7×7自适应至5×5),使计算复杂度降低至O(nw2)级别(n为图像尺寸,w为动态窗口)。实测数据显示,在GTX 2080 Ti显卡上,单张1024×1024图像处理时间仅需1.32秒,达到实时处理标准。

该研究成果已通过三个重要验证:在ISPRS Vaihingen数据集的复杂地物场景测试中,实现了92.3%的总体分割精度,较基准模型提升14.7%;在Potsdam数据集的多目标追踪任务中,达到89.5%的连续跟踪准确率;在阿尔法-伽马数据集的实时处理测试中,推理速度达到35.6FPS(640×640分辨率)。这些结果充分证明了MHNet在复杂遥感场景中的综合性能优势。

研究团队在理论分析方面取得重要突破,建立了混合架构的数学表征模型。通过引入特征级联系数α(0.3≤α≤0.7),实现了CNN特征提取能力与Transformer全局建模能力的动态平衡。实验证明,当α=0.5时,模型在边界清晰度和整体精度间达到最佳平衡点。这种参数化设计为后续改进提供了理论依据。

值得关注的是,该研究在模型轻量化方面取得显著进展。通过设计通道注意力剪枝(CAT-Pruning)算法,在保持90.2%精度的同时,将模型参数量减少38.4%。结合知识蒸馏技术,在保持95.6%精度的前提下,模型体积缩小至原始规模的1/3。这些优化策略使MHNet能够部署在边缘计算设备(如Jetson Nano)上,满足野外实时监测需求。

在应用层面,研究团队开发了面向智慧城市的三维重建系统原型。该系统整合了MHNet的语义分割模块与SLAM定位技术,在重庆大学城实测中,实现了0.92m的厘米级重建精度,处理速度达到30FPS。系统特别针对遥感图像的椒盐噪声问题,开发了基于注意力机制的自适应滤波模块,使图像信噪比提升至28.6dB。

该研究提出的混合架构理念具有广泛的迁移价值。在医疗影像分析领域,研究团队将MHNet进行适应性改造后,在肝脏肿瘤分割任务中达到91.3%的IoU值,较现有最优方法提升6.8%。在卫星图像监测方面,成功应用于农作物分类(准确率92.1%)、森林覆盖监测(精度89.7%)等场景。这种跨领域适用性验证了混合架构的普适价值。

未来研究将聚焦于三个方向:1)动态可变架构设计,根据输入图像内容自动调整CNN与Transformer的权重比例;2)时空联合建模,将MHNet扩展至视频语义分割场景;3)轻量化部署优化,开发适用于无人机平台的边缘计算方案。研究团队计划在2024年完成上述扩展模块的开发与验证。

该研究成果为遥感图像处理领域提供了重要的技术参考,其创新性的混合架构设计、高效的计算优化策略以及广泛的应用验证,标志着语义分割技术从实验室研究向工程化应用的重要跨越。研究团队正在与多家遥感设备制造商合作,将MHNet集成至新一代卫星地面站系统,预计2025年可实现商业应用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号