DGSeg:结合文本先验和结构感知的双重引导方法,用于开放式词汇表的遥感图像分割
《Computers & Geosciences》:DGSeg: Dual guidance with textual priors and structural awareness for open-vocabulary remote sensing segmentation
【字体:
大
中
小
】
时间:2026年05月11日
来源:Computers & Geosciences 4.4
编辑推荐:
朱洪明|陈华纪|杜博文|刘思聪|刘勤
上海同济大学计算机科学与技术学院
**摘要**
开放词汇语义分割在任意类别的像素级识别方面展现了巨大的潜力。然而,当应用于遥感图像时,现有方法常常会遇到具有相似纹理的土地覆盖类型之间的语义混淆问题,以及在实际场景中地理对象边界划
朱洪明|陈华纪|杜博文|刘思聪|刘勤
上海同济大学计算机科学与技术学院
**摘要**
开放词汇语义分割在任意类别的像素级识别方面展现了巨大的潜力。然而,当应用于遥感图像时,现有方法常常会遇到具有相似纹理的土地覆盖类型之间的语义混淆问题,以及在实际场景中地理对象边界划分不足的问题。为了解决这些挑战,我们提出了一个框架,该框架结合了两个简单 yet 有效的模块。首先,引入了一个文本引导的特征细化模块,在进行相似性计算之前修改视觉表示。该模块利用自注意文本先验来引导通道注意力,优先突出语义相关区域,同时减少分散注意力的背景噪声,从而增强具有类似纹理模式的类别的可区分性。此外,还设计了一个结构感知引导模块,利用 CLIP 特征中的中间空间信息来指导上采样过程,从而增强结构细节的恢复,并促进更完整的边界划分。在多个遥感基准测试上的广泛研究证明了我们方法的优越性,平均 mIoU 提高了 3.97%。结果表明,我们的框架能够更可靠地实现对复杂多样遥感图像的自动分析。
**引言**
语义分割为每个像素分配标签,将图像分割成有意义的区域,而无需繁琐的手动解释。它是现代地球科学中各种重要应用的基础工具,例如灾害响应(Pi 等,2021;Fang 等,2024)、农业监测(Luo 等,2024)和土地覆盖变化检测(R. Xu 等,2023;Wang 等,2024;Xie 等,2025)。深度学习的出现彻底改变了这一领域,并改变了地理空间数据的分析方式(J. Li 等,2024;Huang 等,2024)。例如,混合 CNN–Transformer 网络(C. Zhang 等,2022;Liu 等,2021)和基于注意力的表示学习技术(Li 等,2021;Ma 等,2023;Wang 等,2022)通过捕获长距离依赖性显著提高了特征的可区分性。此外,最近还开发了先进的表示学习范式,如频率引导的去噪和非欧几里得几何嵌入,以明确抑制复杂的背景噪声并保留细粒度结构细节(Li 等,2026b;Li 等,2025;Li 等,2026a)。然而,尽管这些方法在特定场景中表现出色,但它们根本上受到预定义标签集的限制。在地球科学应用中,这导致了现有遥感资源提供的基本、广泛的物理类别与下游任务实际需要的细粒度、功能特定概念之间的显著语义不对齐。
为了解决这种语义不对齐问题,开放词汇语义分割(OVSS)通过自然语言查询实现了超出固定标签空间的灵活预测,将图像分析从识别预定义对象转变为任务驱动的语义提取。这一能力极大地惠及了多样的地球科学下游任务。例如,在城市形态学研究中,研究人员可以绕过离散的物理标签(如“建筑物”),直接查询功能性复合指标(如“不透水表面”(Weng,2012)用于城市热岛建模。同样,在海上活动监测中,OVSS 可以区分针对特定任务的细粒度船舶(如“货船”与通用“船舶”),这对于港口物流或渔业管理至关重要(Sun 等,2022;Waqas Zamir 等,2019)。此外,在数据稀缺地区(如极地地区)的环境监测中,OVSS 有助于探索超出预定义分类法的特殊或新兴土地覆盖类型(Desjardins 等,2023)。虽然这一范式为更灵活的分割打开了令人兴奋的前景,但由于 CLIP 的监督基于图像级别,其在像素级别密集预测方面的性能受限,需要许多修改。一些尝试探索了提示学习技术(Zhou 等,2022;Qin 等,2023)来处理不同的语义粒度,以及设计用来改善静态图像和文本特征对齐的高效适配器模块(R. Zhang 等,2022;Liang 等,2023;Gao 等,2024)。然而,由于有限的像素级手动注释,这些算法大多会导致严重的过拟合。另一条研究路线采用了两阶段流程(例如 Ding 等,2022;M. Xu 等,2022;Ghiasi 等,2022a;Ghiasi 等,2022b),首先获得类别不可知的掩码提议,然后对每个区域进行基于 CLIP 的分类。这些方法存在显著的处理延迟和空间定位差,尽管它们看起来实现起来很直接。同时,也基于 CLIP 的基本视觉表示开发了几种一步适应方法。一些工作(Han 等,2023)强调了视觉编码器的轻量级适应以减轻补丁级别噪声,而其他工作(J. Xu 等,2022;Luo 等,2023;Chen 等,2023;M. Xu 等,2023)致力于通过动态分组视觉令牌或将其图像级知识蒸馏为分割后的局部令牌来学习空间连贯的语义区域。值得注意的是,CAT-Seg(Cho 等,2024)将分割表述为一个带有成本聚合的密集匹配问题,这是迈向像素感知 OVSS 的重要一步,后续工作进一步探索了细粒度局部信息的保留(Xie 等,2024)。
在地球科学领域,最初的尝试包括 SegEarth-OV(K. Li 等,2024)和 OVRS(Cao 等,2025)已成功将 OVSS 引入到遥感分析中。然而,由于地球观测数据的巨大复杂性,这些初步适应仍然难以区分语义混淆和恢复结构细节。为了克服这些瓶颈,我们提出了 DGSeg,一个新的双重引导框架,旨在解决以下两个核心挑战:
**遥感分割中的一个主要挑战是概念上不同的类别(例如农田与草地、屋顶与铺砌表面)具有惊人相似的纹理,导致语义歧义。**为了应对这个问题,最近的工作如 TPOV-Seg 选择使用文本信息来细化成本体积。这本质上是一种在后处理阶段的聚合策略,作用于预先计算出的相似性。虽然有效,但我们认为相似性计算过程本身对特征噪声和模糊的视觉纹理非常敏感。如果直接使用未细化的特征进行相似性计算,所得到的成本体积往往会出现严重的语义混淆。为此,我们引入了一个文本引导的特征细化模块(TGFRM),它利用类别级别的文本先验来驱动通道和空间注意力。通道维度可以被视为潜在语义过滤器的池,每个过滤器代表一个独特的模式。因此,反映目标类别更高层次语义描述的文本特征可以被视为引导通道注意力到语义相关过滤器的自然指南。通过应用这种预处理干预,网络可以选择性地增强语义相关特征,抑制背景响应,并在早期就扩大特征距离。这导致更清晰、更具区分性的相似性图,最终提高整体开放词汇分割的准确性。
**除了语义歧义之外,将图像级视觉语言模型(VLMs)适应于密集地球科学预测的另一个根本限制在于结构细节的固有稀释。**冻结的 CLIP 编码器针对全局语义对齐进行了优化,这不可避免地牺牲了像素级的空间连贯性,导致复杂场景中的轮廓碎片化和边界恢复不良。此外,传统的解码策略通常将上采样视为被动的数据恢复过程,未能充分利用中间 CLIP 特征中嵌入的丰富空间信息作为可靠的引导。为了弥合这一差距,我们提出了一个结构感知引导增强(SAGE)机制。SAGE 不是依赖于简单的特征串联,而是从视觉编码器的中间层次中显式提取结构线索,作为主动的空间引导,在上采样过程中动态地对齐这些低级几何细节与高级语义表示。因此,该机制显式规范了解码轨迹,保留结构细节并确保连续的边界恢复。**
**我们的核心贡献在于提出了 DGSeg,这是一个新的双重引导 OVSS 框架,旨在解决地球科学应用中普遍存在的语义歧义和几何不一致性问题。具体来说,我们提出了:**
(1) 一个文本引导的特征细化模块,作为早期的语义干预。通过利用文本先验在校准相似性计算之前的视觉特征,它显式地解决了源代码中具有相似纹理的不同类别之间的混淆。
(2) 一个结构感知引导增强模块,它利用中间 CLIP 层次的空间信息来指导上采样过程并恢复细边界细节。在多个遥感基准测试上的广泛实验表明了一致的改进,验证了所提出方法的有效性。
**方法论和算法**
在本节中,我们将详细阐述我们研究中使用的方法。首先概述整个工作流程,并详细说明每个组件的功能。在接下来的部分,我们将介绍为遥感领域定制的模块设计,以及我们采用的相似性计算和聚合策略。
**实验**
在本节中,我们概述了实验设计。首先解释选择特定数据集和评估指标的原因。然后,我们描述了用于定量和定性分析的方法。我们还涵盖了消融研究及其实现细节。
**定量评估**
我们对多个遥感数据集进行了彻底的比较,以验证所提出的技术。如表 4 所示,我们的方法表现出色,在所有基准测试中获得了最高的平均 mIoU 值。虽然像 TPOVSeg 这样的最新最先进方法在具有高度变化的空间分辨率的数据集(如 iSAID 和 FAST,分别为 40.69% 和 10.59%)上表现强劲,但我们的方法仍然具有很高的竞争力(分别为 40.56% 和 9.63%)。
**与传统分割范式的比较**
传统的遥感分割方法本质上受到封闭集假设的约束,通过刚性的决策边界将视觉特征映射到预定义的离散标签空间。因此,当遇到地理领域变化或以前未见过的类别时,它们的性能常常会急剧下降。相比之下,OVSS 将范式从判别性边界映射转变为连续的跨模态语义对齐,从而提高了性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号