基于差分注意力机制的视觉变换器，结合自适应空间特征处理技术，用于遥感场景分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对遥感场景分类中信号与噪声比低的问题，本文提出DAViT-ASFC框架，通过自适应空间特征条件化和差异注意力模块提升分类精度，在三个数据集上达到最优性能。

李元|吴翔|王家村|博宇明|倪峰|江长辉

南京理工大学自动化学院，南京，210094，中国

摘要

遥感场景分类是一项具有挑战性的任务，需要模型能够捕捉到噪声较大、变化多样的图像中的精细空间细节和复杂上下文关系。尽管视觉Transformer（ViT）在建模全局依赖关系方面取得了显著成功，但其传统架构在遥感应用中存在严重的信噪比（SNR）瓶颈问题：因为对细粒度物体的初始特征嵌入往往会将背景元素也包含进来，导致噪声干扰，进而影响对关键区域的关注。为了解决这些问题，我们提出了一种名为“自适应空间特征调节差分注意力视觉Transformer”（DAViT-ASFC）的新框架。首先介绍了ASFC模块，这是一个前端信号调节器，通过并行多分支架构捕捉多尺度上下文。在该模块中，跨尺度激励（CSE）机制能够动态地调整各尺度特征的贡献，从而放大最具信息量的特征。随后引入了差分注意力模块（DAM）作为后端注意力净化器。该模块借鉴了差分放大器的原理，通过计算两个注意力图之间的差异来系统地消除常见的注意力噪声，从而实现对关键特征的稀疏且精确的关注，大幅提高了注意力机制的信噪比。在三个遥感数据集上的广泛实验表明，DAViT-ASFC实现了最先进的分类精度，优于现有方法。

引言

遥感场景分类（RSSC）在遥感研究领域发挥着重要作用，其目标是根据图像内容为航拍或卫星图像分配语义标签[1]。这项任务支持多种应用，包括城市规划、环境监测、灾害响应和农业管理[2]。然而，遥感图像具有独特的特性，使得场景分类尤为困难。首先，分类结果高度依赖于物体在多个尺度上的区分能力。如图1（a）和（b）所示，一个在某个视角下较大且清晰的物体（如“飞机”），在“机场”场景的更大背景下会变成一个微小的细节。这种语义模糊性源于细粒度物体在整体场景表示中的信号较弱。其次，区分显著特征与大量背景噪声的挑战在图1（c）和（d）中的“河流”和“湖泊”类别中表现得尤为明显。这两个场景具有相似的局部纹理（如水和周围的森林），这些背景噪声阻碍了仅基于局部特征的识别。因此，模型必须抑制这种背景噪声才能感知水体的整体形状，这是区分线性河流和封闭湖泊的关键特征。

卷积神经网络（CNN）因其能够从局部到全局尺度提取层次化特征而被广泛用于遥感场景分类[3]。为了进一步提高性能，许多研究通过引入注意力机制（如Squeeze-and-Excitation（SE）网络[4]和卷积块注意力模块（CBAM）[5]来帮助模型关注更显著的空间和通道信息。然而，卷积的固有归纳偏差使得CNN难以有效建模解释复杂场景布局所需的长距离全局依赖关系。后来，自注意力[6]在计算机视觉中的成功应用催生了基于Transformer架构的许多新模型[7]，为CNN的局限性提供了强有力的解决方案。Transformer的核心优势在于它能够建模输入各部分之间的关系，非常适合处理具有大规模空间组织的遥感场景。视觉Transformer（ViT）[8]是这一领域的基础模型，它将图像视为一系列补丁，并计算它们之间的全局交互。然而，标准ViT架构在面对航拍图像的独特特性时存在根本性挑战。问题始于初始特征嵌入过程，该过程采用固定步长的卷积操作，这会压缩大图像区域，并不可避免地将小而关键物体的信号与主导的背景混合，从而削弱这些信号的强度。结果，模型接收到的输入表示序列信噪比（SNR）较低，这对后续的注意力层构成了严重挑战。标准注意力机制由于softmax函数的性质，倾向于将注意力分散到所有标记上，当接收到这些已经模糊、低SNR的输入时，很难区分关键物体的微弱信号和背景噪声。因此，这一问题进一步加剧，产生了严重的注意力噪声，最终掩盖了对关键区域的关注。

在这项工作中，我们提出了一种名为“自适应空间特征调节差分注意力视觉Transformer”（DAViT-ASFC）的新框架，它被设计为一个端到端的信号增强和噪声抑制系统。为了解决输入信号减弱的问题，我们的框架采用了自适应空间特征调节（ASFC）模块。ASFC作用于初始特征图，在特征进入主编码器之前提升其特征质量。现有的多分支和多尺度特征提取方法[9]主要侧重于被动聚合空间上下文，通常依赖于简单的加法或连接等静态融合策略。相比之下，ASFC被明确构建为一个主动信号调节器，采用并行多分支架构同时处理不同空间尺度的特征。在此框架中，保留了一个全分辨率分支以严格保留最细微的细节，而并行分支通过下采样后上采样来恢复空间对齐。此外，为了克服静态融合的局限性，ASFC引入了跨尺度激励（CSE）机制。该机制根据输入图像的内容动态调整各分支的贡献，使模型能够放大最具信息量的频率成分。这一过程有效增强了小物体的弱化信号，从而向主编码器提供一系列高SNR的特征表示。

尽管ASFC模块提供了高质量的特征表示，但这些增强后的信号仍可能被注意力噪声淹没。这种现象发生在标准注意力机制由于softmax函数的作用，给大量无关背景区域分配了较小但显著的分数时。为了解决这一下游瓶颈，本研究将差分注意力模块（DAM）[10]从自然语言处理（NLP）领域引入到视觉领域。DAM的核心作用是缓解这一瓶颈。该模块借鉴了电气工程中差分放大器的原理[11]，计算两个独立的注意力图。关键在于，两个图中都会存在对常见背景模式的广泛低级关注。通过从一个图中减去另一个图，可以系统地消除这种共模噪声，仅保留差异性高显著性的特征。这一过程产生了更稀疏、更集中的注意力分布。然而，原始的NLP公式通常依赖单一的静态标量来控制这种减法，这对于遥感图像的多样性来说过于僵化。为了克服这一限制，我们设计了一种创新的数据依赖门控机制。这种门控机制作为智能的视觉策略选择器，分析每张图像的特征，动态调整对主要对象的关注与对背景模式的抑制之间的平衡。这种动态方法确保了ASFC提取的高质量表示得到最大程度的利用，防止其在网络深层被淹没。我们的工作主要贡献如下：

1.

我们提出了一种新的ASFC模块，通过多分支架构生成多尺度特征表示，以增强弱化的信号。它还使用CSE机制动态调整这些不同尺度的权重，优先考虑最具信息量的特征，提高输入的SNR。

2.

先进的DAM采用数据依赖的门控机制，动态计算两个注意力图之间的差异。这种方法有效增强了关键区分特征的关注度，同时过滤掉背景噪声。

3.

我们提出了DAViT-ASFC，这是一个将前端特征调节与后端注意力净化协同整合的统一框架。广泛实验表明，该框架在三个具有挑战性的公共数据集UCM、AID和NWPU上实现了最先进的分类精度。

章节片段

RSSC的基础架构

深度学习在RSSC中的应用始于经典CNN的成功，因为它们具有强大的层次化特征提取能力。最初的研究主要集中在通过微调将经典CNN架构（如AlexNet[12]、VGGNet[13]和GoogleNet[14]）适配到遥感数据集上。随后，更深层、更强大的网络架构（如ResNet[15]和DenseNet[16]迅速成为主流骨干

提出的方法

图2展示了所提出的DAViT-ASFC的整体框架，它被设计为一个双阶段信号增强和净化系统。首先，卷积主干从输入图像中提取原始特征图，这些特征图由于复杂的背景通常信噪比较低。在前端信号调节阶段，这些噪声特征由ASFC模块处理。ASFC动态聚合多尺度上下文，并通过残差连接调整原始特征，从而

数据集

我们在三个广泛使用的遥感图像场景分类数据集上评估了我们提出模型的性能：UCMerced（UCM）数据集、Aerial Image Dataset（AID）和西北工业大学（NWPU）数据集。这些数据集的详细信息如下。

1) UCM数据集：UCM数据集[38]包含2,100张航拍图像，涵盖21种土地利用类型，每种类型有100张图像。每张图像的分辨率为0.3米/像素，大小为

结论

本文提出了一种新的DAViT-ASFC框架，用于解决阻碍标准ViT在遥感场景分类中表现的关键信噪比瓶颈问题。我们的工作识别并解决了一系列问题，这些问题始于初始特征嵌入过程中输入信号的减弱，进而加剧了后续的注意力噪声问题。为了应对这些弱化的输入信号，该框架首先采用了ASFC模块作为前端信号调节器

CRediT作者贡献声明

李元：撰写——原始草案、软件、方法论、概念化。吴翔：撰写——审阅与编辑、监督、方法论、概念化。王家村：撰写——审阅与编辑、监督。博宇明：监督。倪峰：监督。江长辉：监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

RSSC的基础架构

提出的方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行