
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在智能景观分析中,使用混合Swin Transformer-MAMBA学习框架和可解释性人工智能(Explainable AI)技术进行层次化多目标检测
《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》:Hierarchical Multi-target Detection in Intelligent Landscape Analysis Using a Hybrid Swin Transformer-MAMBA Learning Framework and Explainable AI
【字体: 大 中 小 】 时间:2026年05月10日 来源:ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9
编辑推荐:
摘要在复杂的遥感场景中,实现准确且可解释的多目标识别仍然是一个重大挑战,这主要是由于光谱异质性、多尺度对象变化、空间重叠以及模型透明度有限所致。尽管基于卷积和变换器的方法在景观分析方面取得了进展,但它们往往难以同时实现高检测精度、长距离上下文推理、计算效率和可解释性。为克服这些限
在复杂的遥感场景中,实现准确且可解释的多目标识别仍然是一个重大挑战,这主要是由于光谱异质性、多尺度对象变化、空间重叠以及模型透明度有限所致。尽管基于卷积和变换器的方法在景观分析方面取得了进展,但它们往往难以同时实现高检测精度、长距离上下文推理、计算效率和可解释性。为克服这些限制,本文提出了一种混合式Swin Transformer–MAMBA–DETR框架,用于分层多目标景观理解。Swin Transformer核心通过移位窗口自注意力机制提取多尺度空间表征,有效地建模了局部和层次依赖关系。为了增强全局上下文一致性,集成了一种MAMBA状态空间模块,以线性计算复杂度捕捉长距离序列关系,从而在保持特征连续性的同时减少内存开销。基于DETR的检测头实现了端到端的无锚点对象识别,消除了启发式区域提议,并提高了收敛稳定性。此外,基于Grad-CAM的可解释性模块生成了特定类别的激活图,提高了可解释性并支持透明的决策分析。在LoveDA数据集上的全面实验,以及在MAVSD和FAIR1M上的跨领域评估表明,该框架在LoveDA上实现了86.53%的mIoU和91.72%的mAP,表现优于强大的基于CNN和变换器的基线模型。该模型在光照变化、遮挡和域变换条件下也表现出较强的鲁棒性,性能下降幅度不到2%。这些结果表明,所提出的方法为大规模智能景观监测提供了一种有效、高效且可解释的解决方案。
在复杂的遥感场景中,实现准确且可解释的多目标识别仍然是一个重大挑战,这主要是由于光谱异质性、多尺度对象变化、空间重叠以及模型透明度有限所致。尽管基于卷积和变换器的方法在景观分析方面取得了进展,但它们往往难以同时实现高检测精度、长距离上下文推理、计算效率和可解释性。为克服这些限制,本文提出了一种混合式Swin Transformer–MAMBA–DETR框架,用于分层多目标景观理解。Swin Transformer核心通过移位窗口自注意力机制提取多尺度空间表征,有效地建模了局部和层次依赖关系。为了增强全局上下文一致性,集成了一种MAMBA状态空间模块,以线性计算复杂度捕捉长距离序列关系,从而在保持特征连续性的同时减少内存开销。基于DETR的检测头实现了端到端的无锚点对象识别,消除了启发式区域提议,并提高了收敛稳定性。此外,基于Grad-CAM的可解释性模块生成了特定类别的激活图,提高了可解释性并支持透明的决策分析。在LoveDA数据集上的全面实验,以及在MAVSD和FAIR1M上的跨领域评估表明,该框架在LoveDA上实现了86.53%的mIoU和91.72%的mAP,表现优于强大的基于CNN和变换器的基线模型。该模型在光照变化、遮挡和域变换条件下也表现出较强的鲁棒性,性能下降幅度不到2%。这些结果表明,所提出的方法为大规模智能景观监测提供了一种有效、高效且可解释的解决方案。
生物通微信公众号