面向遥感图像分割的谱?空域协同感知与动态语义推理(Spectral–spatial Collaborative Perception and Dynamic Semantic Reasoning for Remote Sensing Image Segmentation)

《Engineering Applications of Artificial Intelligence》：Spectral–spatial collaborative perception and dynamic semantic reasoning for remote sensing image segmentation

【字体：大中小】 时间：2026年06月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　摘要：高分辨率遥感图像(high-resolution remote sensing imagery)的语义分割(semantic segmentation)在复杂地物场景中仍面临前景?背景不平衡、类内光谱与形态差异显著、相邻类别间语义混淆，以及小尺度目标难以

摘要：高分辨率遥感图像(high-resolution remote sensing imagery)的语义分割(semantic segmentation)在复杂地物场景中仍面临前景?背景不平衡、类内光谱与形态差异显著、相邻类别间语义混淆，以及小尺度目标难以准确表征等挑战。为此，研究人员提出了一种融合谱?空域协同建模(spectral–spatial collaborative modeling)与动态语义推理(dynamic semantic reasoning)的深度学习遥感图像分割方法。该方法在光谱域与空间域之间引入自适应特征调制(adaptive feature modulation)机制，动态平衡分割过程中多频信息的贡献，从而增强细粒度结构及亚像元级(sub?pixel?scale)目标的表征能力。在特征推理阶段，采用基于路径自适应选择(path?adaptive selection)的动态推理策略，实现卷积神经网络(CNN, Convolutional Neural Network)捕获的局部空间细节与Transformer建模的全局上下文信息之间的有效协作。此外，引入跨域特征协调约束(cross?domain feature coordination constraint)以缓解建筑物、裸地与植被等类别间的语义混淆，并采用多尺度自适应特征融合(multi?scale adaptive feature fusion)方案提升模型对目标尺度及地物形态变化的鲁棒性。在Potsdam和LoveDA高分辨率遥感数据集上的实验结果表明，所提方法在不同模型配置下均取得一致且稳定的性能提升，验证了谱?空域协同感知与动态语义推理策略在遥感图像语义分割中的有效性。实现代码公开发布于：https://github.com/bcs1107/SpectraSwin.git

论文解读：面向遥感图像分割的谱?空域协同感知与动态语义推理——SpectraSwin模型研究

一、研究背景与意义

高分辨率遥感图像具有亚米级空间分辨率、丰富的光谱信息与广域覆盖特点，在精细化城市管理、精准农业监测、灾害评估及生态环境分析中具有重要应用价值。语义分割作为遥感图像解译的核心任务，旨在为图像中每个像素分配准确的语义类别标签，其精度直接影响后续空间分析与决策过程的可靠性。随着空间分辨率和成像精度的提高，高分辨率遥感影像在提供更详细信息的同时，也显著增加了语义分割任务的复杂性。现存问题主要包括：（1）前景与背景类别严重不平衡，车辆、道路设施等小尺度目标在训练中易被主导类别掩盖，难以学习稳定且具有判别力的特征表示；（2）受成像条件、地表材质及观测视角影响，同类别在地物光谱与纹理特征上呈现显著的类内异质性(intra?class heterogeneity)；（3）建筑物与裸地、低矮建筑与灌木丛等类别光谱或结构特征高度相似，引致严重的类间混淆(inter?class confusion)及边界模糊与误分；（4）亚像元或近亚像元目标在高分辨率影像中含有限有效信息，传统特征提取机制难以捕获其关键细节。上述因素常共存并相互耦合，对模型的特征表达能力、动态适应性与多尺度推理能力提出更高要求。

深度学习方法推动了遥感影像语义分割的发展。全卷积网络(FCN, Fully Convolutional Network)通过端到端逐像素预测奠定了基本框架；U?Net凭借编码器?解码器(encoder–decoder)架构与跳跃连接(skip connection)有效融合低级空间细节与高级语义信息；Attention U?Net及Double Attention U?Net等通过引入空间或通道注意力进一步增强了对关键区域的聚焦能力。近年Transformer架构因其全局依赖建模优势被引入语义分割（如SegFormer、Mask?Former），一定程度上缓解了传统卷积网络局部感受野受限的问题。然而，现有以Transformer为主或CNN?Transformer混合模型仍存在局限：大多依赖通道重加权策略建模光谱信息，缺乏对高频谱?空域细节的显式建模；特征提取与融合多采用静态单通路结构，难以根据目标尺度和语义复杂度自适应调整感受野与推理路径，导致在小目标识别及易混淆类别区分上性能受限。Segment Anything Model(SAM)、基于状态空间模型的Mamba及扩散驱动分割方法虽具潜力，但计算复杂度高且依赖交互或先验条件，限制了其在高分辨率遥感影像细粒度分割中的直接应用。综上，现有方法尚难在同一框架内协同实现谱?空域信息联合建模、对多尺度目标结构的动态适应，以及有效缓解前景?背景失衡、类内异质、类间混淆和亚像元目标识别。为此，Bai Chenshuai、Wu Kaijun、Bai Xiaofeng与Wu Xiaoqiang（兰州交通大学电子信息与工程学院）开展了本研究，提出谱?空域动态门控与多通路推理网络SpectraSwin，从特征建模与推理路径两个层面增强对复杂遥感场景的自适应能力。实验结果证明SpectraSwin在分割精度、小目标识别能力及边界保持方面优于主流方法，各动态模块对性能提升具有关键作用，表明该方法在高分辨率遥感影像细粒度分割任务中具有良好有效性与泛化能力。本文发表于Engineering Applications of Artificial Intelligence。

二、关键技术方法概述

研究人员以高分辨率遥感影像语义分割为任务，选用公开基准数据集ISPRS Vaihingen/Potsdam中的Potsdam数据集（38幅超高分辨率正射校正遥感影像，含不透水面、建筑、低矮植被、树木、汽车、背景六类语义标注）与LoveDA数据集（城镇与农村场景的高分辨率遥感影像及像素级语义标注），构建训练?验证?测试流程开展对照实验与消融研究。提出的SpectraSwin网络核心关键技术方法包括：（1）混合光谱注意力(Hybrid Spectral Attention, HSA)模块——将通道注意力(channel attention)与离散余弦变换(DCT, Discrete Cosine Transform)结合，从频域增强对高频光谱细节的感知，提升亚像元级小目标可区分性；（2）动态多通路推理(Dynamic Multi?path Inference, DMI)机制与轻量自适应感受野融合(Adaptive Receptive Field Fusion Lite, ARFF_Lite)模块——通过门控策略(gating strategy)实现卷积通路的自适应选择，高效整合CNN局部结构信息与Transformer全局上下文特征；（3）谱?空域协同注意力(Spectral–Spatial Cooperative Attention, SSCA)机制——显式调节光谱注意力与空间注意力间的权重分布，缓解光谱或结构相似类别（如建筑?裸地、低矮建筑?灌木）间的混淆；（4）多尺度特征金字塔融合(Multi?scale Feature Pyramid Fusion, MFPF)模块——采用自适应加权策略集成不同尺度特征表示，增强对类内尺度变化与形态差异的鲁棒性。

三、研究结果

High resolution remote sensing image segmentation model（高分辨率遥感图像分割模型）

研究人员综述了从高分辨率遥感图像分割方法由基于CNN模型演进至基于Transformer及混合动态架构的历程，指出现有模型在协同处理前景?背景不平衡、类内异质、类间混淆及亚像元目标识别等关键问题上存在局限，引出本研究所提SpectraSwin框架的创新定位。

Methods（方法）

研究人员针对高分辨率遥感图像语义分割面临的多尺度目标识别、复杂背景干扰及谱?空信息强耦合等核心挑战，以及在前景?背景不平衡、类内异质、类间混淆和亚像元目标识别方面协同处理的困难，提出SpectraSwin框架，系统设计了HSA、DMI与ARFF_Lite、SSCA及MFPF四个核心组件，分别解决高频光谱细节感知不足、CNN与Transformer特征缺乏动态协作、易混淆类别语义混叠、多尺度及形态变异鲁棒性差的问题，并通过跨域特征协调约束辅助缓解类别混淆。

Datasets（数据集）

研究人员选用两个广泛使用的公开高分辨率遥感语义分割基准数据集——Potsdam数据集（38幅超高分辨率正射校正遥感图像，六类语义标注：impervious surfaces、building、low vegetation、tree、car、clutter/background）与LoveDA数据集——开展实验验证，说明数据来源与类别设置。

Discussions（讨论）

研究人员指出高分辨率遥感语义分割的关键挑战不仅源于类别数增加，更源于光谱与空间信息的强耦合、深层特征传播中多尺度结构的不一致性，以及层级抽象过程中高频边界细节逐步衰减导致的判别力退化；传统卷积网络易产生局部平滑效应并弱化细微边界，而所提SpectraSwin通过分层光谱自注意力、多频信息协同及动态推理路径在机制层面重构特征嵌入空间的判别结构，缓解了谱?空耦合与边界模糊问题。消融实验与特征响应分析显示HSA、DMI+ARFF_Lite、SSCA及MFPF各模块均对性能提升有实质性贡献，且模型在不同配置下保持稳定增益。

Conclusions（结论）

本研究针对高分辨率遥感语义分割中常见的边界模糊(boundary ambiguity)、多尺度不一致(multi?scale inconsistency)及光谱混叠(spectral aliasing)问题，提出了SpectraSwin框架。与依赖加深网络或扩大参数量获取性能提升的方法不同，本工作通过分层光谱自注意力(hierarchical spectral self?attention)、多频信息协同(multi?frequency information collaboration)、谱?空域协同感知(spectral–spatial cooperative perception)及动态语义推理(dynamic semantic reasoning)等机制，系统性重构了特征嵌入空间(feature embedding space)的判别结构。实验在Potsdam和LoveDA高分辨率遥感数据集上证明，SpectraSwin在分割精度、小目标识别能力及边界保持性能方面优于现有主流方法，消融研究与特征响应分析验证了各动态模块的关键作用，表明所提方法在高分辨率遥感影像细粒度分割任务中具有较强有效性与泛化能力。

四、研究结论翻译（Conclusion部分汉译）

本研究针对高分辨率遥感语义分割中普遍存在的边界模糊、多尺度不一致及光谱混叠问题，提出了SpectraSwin框架。不同于依赖加深网络或扩大参数量以获取性能提升的思路，本文通过分层光谱自注意力、多频信息协同、谱?空域协同感知及动态语义推理等机制，系统性重构了特征嵌入空间的判别结构。在Potsdam和LoveDA高分辨率遥感数据集上的实验表明，SpectraSwin在分割精度、小目标识别能力及边界保持性能上优于现有主流方法；进一步的消融研究与特征响应分析验证了各动态模块在性能提升中的关键作用，说明所提方法在高分辨率遥感影像细粒度分割任务中具有良好有效性与泛化能力。

热点排行