用于遥感图像语义分割的全球线性注意力网络
《Knowledge-Based Systems》:A global linear attention network for semantic segmentation of remote sensing images
【字体:
大
中
小
】
时间:2026年02月28日
来源:Knowledge-Based Systems 7.6
编辑推荐:
语义分割在遥感图像中应用广泛,但传统卷积神经网络存在全局依赖建模不足和计算复杂度高的问题。本文提出全局线性注意力网络(GLANet),创新性地设计平方加线性注意力(SLA)模块,通过矩阵乘法结合性降低计算复杂度至少96%,同时增强全局特征表达能力。实验表明,GLANet在Potsdam和Vaihingen数据集上mIoU分别提升0.90%和0.63%,且资源消耗优于现有线性注意力方法。
方一伟|李春华|李欣|刘欣|徐振楠
中国南京河海大学计算机科学与软件工程学院,211100
摘要
遥感图像(RSI)的语义分割在多个领域中发挥着关键作用,包括土地覆盖分类、环境监测和城市规划。尽管卷积神经网络(CNN)在这些领域表现出色,但它们也面临诸多挑战。其中一个挑战是特征图中全局依赖性的探索不足,这削弱了每个语义类别的特征表示。此外,CNN中普遍使用的点积注意力(DPA)虽然在捕捉全局语义细节方面表现优异,但其计算复杂度为二次方,限制了其处理大规模RSI的实用性。为了解决这些问题,我们提出了一种新的全局线性注意力网络(GLANet),其中嵌入了一个平方加线性注意力(SLA)模块。SLA模块通过利用矩阵乘法的结合性高效地捕获全局空间信息,并建立特征关系,与典型的DPA相比,计算负载至少减少了96%,所需计算资源也减少了12%-26%。大量实验验证了GLANet的性能优于现有的主流方法,在波茨坦数据集上的mIoU提高了0.90%,在Vaihingen数据集上提高了0.63%。此外,消融研究和数学分析进一步证明了SLA模块的效率和优越性。源代码将在
https://github.com/fangyiwei98/GLANet处发布。
引言
遥感图像(RSI)的语义分割是计算机视觉中的一个重要挑战任务,需要精确地将每个像素标记为其对应的语义类别。这一复杂任务在多个应用中具有巨大潜力,包括城市规划[1]、[2]、环境监测[3]、[4]和地理信息系统[5]、[6]。
深度学习(DL)方法最近变得非常突出,它们直接从原始数据中学习特征,无需手动特征工程。通过使用卷积神经网络(CNN),DL方法显著提升了RSI分割的性能。这些方法捕捉了详细的空间和上下文特征,显著提高了分割的准确性和效率。例如,Yin等人[7]通过开发相关权重模块和特征融合模块实现了地质灾害的精确分割。同样,Li等人[8]通过结合分类推理和本体推理提高了性能和可解释性。Guo等人[9]引入了一个粗到细的边界细化网络(CBR-Net)从RSI中提取建筑物,逐步细化预测并增强边缘检测。此外,高分辨率网络(HRNet)[10]通过保持高分辨率表示在各种视觉识别任务中提高了性能。Zhou等人提出了一个分割深度可分离图卷积网络(SGCN)[11],有效捕获了用于道路提取的全局上下文信息。另外,Dang引入了一个基于自监督学习的多尺度残差网络(MSResNet)[12]来检测RSI中的水体,利用未标记数据提高检测准确性。尽管取得了这些进展,但适应区域变化仍然是一个挑战,这可能会在复杂场景中降低性能。
为了解决这一限制,引入了注意力机制,通过选择性关注相关区域来提高模型性能。例如,Wang等人[13]通过一个方向注意力网络提高了精度,该网络学习了土地覆盖的方向和全局语义特征。Zheng等人[14]开发了一个多尺度通道交叉注意力网络(MCCANet),动态融合上下文特征,有效强调了不同大小的物体并提高了分割精度。尽管这些方法主要关注局部空间或通道信息,但它们可能会忽略对准确表示各种土地覆盖至关重要的全局信息。
点积注意力(DPA)[15]被提出用于增强全局信息建模。DPA识别输入中所有空间位置之间的关系,有助于全面理解全局和局部上下文。Hu等人[16]引入了全局-局部自注意力(GLSA)机制,Meng等人[17]设计了一个类引导变换器块,Li等人[18]设计了高效的注意力模块来捕获上下文依赖性,同时最小化计算需求。此外,Xiao等人[19]提出了一种混合架构,通过Transformer(EMRT)增强多尺度表示,从RSI中学习局部特征和全局表示。
然而,DPA存在一些挑战,尤其是其计算复杂度。当处理长度为N的输入时,计算复杂度达到O(N2)。由于需要计算输入中所有位置的成对注意力分数,导致二次方复杂度,使得它对于较长序列的计算变得不可行。已经设计了多种策略来缓解这一挑战并提高可扩展性。研究[20]通过稀疏分解将复杂度降低到
尽管在解决DPA的计算挑战方面取得了进展,但仍然需要更高效和可扩展的解决方案,特别是对于处理大规模数据集(如RSI)而言。尽管当前方法有效降低了复杂度,但在保持计算效率和学习表示能力之间仍可能遇到困难。为了克服这些障碍,本研究引入了一种全局线性注意力网络(GLANet)。本工作的贡献如下:
•为了减轻DPA的计算负担,设计了一个平方加线性注意力(SLA)模块。该模块利用矩阵乘法的结合性线性降低复杂度,并采用平方加核函数来增强注意力机制的表示能力。
•在SLA模块的基础上,我们引入了一种新的网络架构GLANet。GLANet利用SLA高效的复杂度管理和捕捉全局特征依赖性的能力,将其优势融入到结构设计中。通过部署SLA模块,GLANet有效优化了全局空间特征的表示,使其在处理大规模RSI分割任务时表现出色。
部分摘录
遥感图像的语义分割
语义分割是RSI处理中的关键任务,其目标是将每个像素准确分类为相应的语义类别。深度学习(DL)的出现推动了基于CNN的方法的发展,这些方法因能够辨别复杂的图像特征并提供准确的分割结果而受到赞誉。
最近的研究揭示了一系列创新策略,以提高RSI中语义分割的准确性和效率。其中值得注意的是异构信息
方法论
在本节中,我们首先概述了所提出的GLANet。随后,我们详细介绍了SLA模块中保持线性复杂度的机制,并给出了平方加函数的数学表达式。
实验与分析
在本节中,我们描述了使用的数据集,概述了实验设置,并定义了应用的评估指标。然后我们进行了数学分析,以突出平方加函数的优势,并通过消融研究验证了所提出模块的有效性。还提供了SLA模块的复杂性分析。最后,我们报告了比较实验的结果。
结论
总之,研究表明DPA机制在捕捉全局依赖性方面具有显著的建模能力。然而,其计算复杂度通常为二次方,这在大规模RSI中带来了重大挑战。为了解决这些计算需求,我们引入并实现了GLANet。
GLANet的一个关键创新在于引入了SLA,旨在减轻DPA固有的计算负担。通过利用
CRediT作者贡献声明
方一伟:写作——审稿与编辑,撰写——初稿,可视化,软件,方法论,调查,形式分析,数据管理,概念化。李春华:写作——审稿与编辑,监督,资源管理,项目管理,资金获取,形式分析,概念化。李欣:写作——审稿与编辑,监督,调查,形式分析,概念化。刘欣:写作——审稿与编辑,监督,形式分析。徐振楠:
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:方一伟、李春华、李欣、刘欣、徐振楠报告获得了中华人民共和国教育部的财务支持。李欣报告获得了江苏省人力资源和社会保障部的财务支持。刘欣报告获得了江苏省水利部的财务支持。
致谢
本工作部分得到了中国国家重点研发计划(项目编号2023YFC3209301和2023YFC3209201)、中央高校基本科研业务费(项目编号B220206006、B230201007和B230204009)、江苏省水利科技项目(项目编号2021080)、国家自然科学基金(项目编号42104033和42101343)、江苏省优秀博士后计划(项目编号2022ZB166)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号