ConvLSTM-GCN-Transformer:一种用于植被指数地图预测的时空图注意力模型

【字体: 时间:2026年02月13日 来源:Expert Systems with Applications 7.5

编辑推荐:

  高分辨率植被指数预测、混合架构、时空建模、GCN、Transformer、跨传感器泛化、Landsat数据

  
Mohamed Chahine Bouaziz | Ali Ben Abbes | Mourad El Koundi | Imed Riadh Farah
RIADI实验室,ENSI,马努巴大学,突尼斯马努巴,2010年,突尼斯

摘要

植被指数(VIs)是评估植被健康状况、生产力以及在日益增长的气候和土地利用压力下生态系统变化的重要工具。对这些指数进行可靠的预测对于可持续资源管理和气候适应至关重要。然而,由于植被动态的非线性、非平稳性和时空特性,准确的VI预测仍然具有挑战性。大多数现有的深度学习模型仅预测单点或区域平均值,忽略了基于地图进行准确预测所需的空间连续性和像素间依赖性。相反,生成空间明确VI地图的方法在结合森林、水体、城市区域和裸土的异质景观中往往表现不一致。这些挑战凸显了需要一种能够在保持时间连贯性的同时整合局部和全局空间信息的架构。本文介绍了一种混合ConvLSTM–GCN–Transformer架构,用于从时间序列数据中预测高分辨率的VI。ConvLSTM捕捉时间演变,图卷积网络(GCN)模型处理局部空间依赖性,而Transformer增强了全局特征表示。该模型在基于Landsat影像(1996–2025年)的月度NDVI地图上进行训练,取得了0.034的RMSE和0.866的NSE,性能优于基线模型。进行了两项泛化研究来评估其鲁棒性:(i)使用Sentinel-2和MODIS影像的跨传感器评估(RMSE分别为0.064和0.09);(ii)对增强植被指数(EVI)和土壤调整植被指数(SAVI)的跨指数适应。所有代码均公开可用,以支持可重复性(点击此处)。

引言

气候变化和土地利用变化的综合影响对生态系统造成了越来越大的压力,因此植被监测成为可持续发展的关键优先事项(Wen等人,2025年)。植被指数(VIs)提供了植被健康状况、生物量和生产力的定量度量,是评估生态系统动态的重要工具(Kooistra等人,2024年)。植被指数源自多光谱卫星影像,广泛用于干旱评估、作物产量估算和土地退化分析(Ferchichi, Abbes, Barra, & Farah,2022年)。随着全球气候变率的增加,准确及时的VI预测对于可持续土地管理和粮食安全变得至关重要(Sishodia, Ray, & Singh,2020年;Zeng等人,2022年)。可靠的预测支持主动决策,优化资源分配,并加强增强生态系统韧性的适应策略。
在过去十年中,植被动态建模取得了显著进展,从传统的统计技术发展到现代深度学习(DL)框架(Liu等人,2024年)。早期的统计方法如自回归(AR)、ARIMA和季节性ARIMA模型(Fernández-Manso, Quintano, & Fernández-Manso,2011年;Mohanty, Behera, Panda, & Swetanisha,2025年)能够捕捉季节性趋势,但难以处理卫星衍生植被数据的非线性和非平稳行为(Mohanty等人,2025年)。机器学习(ML)算法如随机森林(RF)、支持向量机(SVM)和多层感知器(MLPs)后来引入了数据驱动的灵活性,提高了预测准确性(Ang等人,2022年;Khaki & Wang,2019年)。然而,这些模型通常将空间观测视为独立的,忽略了控制植被生长和退化的空间和时间依赖性(Balti, Abbes, Sang, Mellouli, & Farah,2023年;Wang等人,2025年)。
深度学习通过能够学习序列模式和复杂依赖性的架构进一步推进了植被建模。卷积神经网络(CNNs)、长短期记忆网络(LSTMs)和混合CNN–LSTM框架在捕捉时间和上下文动态方面表现出色(Gao等人,2023年;Reddy & Prasad,2018年)。然而,这些方法大多只预测单点或区域平均值,忽略了高分辨率映射所需的细尺度空间细节和连续性。
最近的研究开始转向基于地图的预测框架,这些框架预测全分辨率的VI地图而不是基于点的估计(Schwalbert等人,2018年)。ConvLSTM架构已经证明了建模时空依赖性和捕捉季节性NDVI变化的能力(Ahmad, Yang, Ettlin, Berger, & Rodríguez-Bocca,2023年;Kartal, Iban, & Sekertekin,2024年;Robin等人,2022年)。更先进的框架如Graph WaveNet、GWConvLSTM和ConvLSTM-SAC-NL结合了图结构或注意力机制,以改善空间关系的表示并提高计算效率(Beyer, Ahmad, Yang, & Rodríguez-Bocca,2023年;Cai等人,2024年;Xu等人,2024年)。然而,现有方法是在小型或空间均匀的数据集上开发的,对大型异质区域的泛化能力较差。这一限制突显了需要能够在保持时间连贯性的同时整合局部和全局空间信息的模型的需求。
图卷积网络(GCNs)和Transformer的最新进展为这些挑战提供了有希望的解决方案。GCNs通过将数据表示为图来建模空间依赖性,通过相邻节点传播特征以保持局部连贯性。这种方法在交通预测和遥感等应用中已被证明有效(Bhatti, Tang, Wu, Marjan, & Hussain,2023年;Jiang, Zhang, Lin, Tang, & Luo,2019年;Wu等人,2020年)。Transformer最初是为自然语言处理设计的(Vaswani等人,2017年),利用自注意力捕捉长距离依赖性,并已被用于土地覆盖制图和环境监测等视觉任务(Dosovitskiy,2020年;Tang, Li, Zhang, & Tang,2023年)。它们在环境建模中的整合在医学成像、土地覆盖制图和城市规划中显示出强大潜力(Chen等人,2021年)。GCNs的局部结构学习和Transformer的全局上下文推理的互补优势使其组合特别适合空间明确的植被预测(Dong, Long, Xu, & Xiao,2021年;Huo等人,2023年;?ajina, Ore?ki, & Iva?i?-Kos,2025年)。
当前的VI预测文献揭示了三个关键差距。首先,大多数研究仅预测单点或区域平均VI值,忽略了基于地图进行准确预测所需的空间模式和依赖性。其次,现有的基于地图的方法能够捕捉空间变异性,但在不同传感器或如森林、湿地和城市区域等异质景观中的泛化能力较弱。第三,研究主要集中在NDVI上,对其他植被指数如EVI或SAVI的关注有限,从而降低了模型在更广泛监测环境中的适应性。这些限制强调了需要一种能够使用大型异质卫星数据集共同建模时间、空间和多指数动态的架构。
本文介绍了一种用于高分辨率VI地图预测的ConvLSTM–GCN–Transformer架构。该模型处理历史VI时间序列数据,以在多样化景观中生成全分辨率的月度预测。ConvLSTM层捕捉时间演变,GCN模块通过像素邻接图确保空间一致性,Transformer编码器提取长距离上下文模式。为了评估鲁棒性,进行了两项泛化实验:(i)使用Sentinel-2和MODIS影像的跨传感器评估;(ii)对EVI和SAVI的跨指数适应。
本研究的主要贡献总结如下:
  • 一种结合空间结构和时间动态的混合ConvLSTM–GCN–Transformer架构,用于VI地图预测。
  • 使用稀疏GCN操作的基于图的空间公式,高效地在大规模卫星数据上建模空间交互。
  • 该模型在涵盖森林、城市区域、水体和裸土的异质景观上进行了训练(1996–2025年),能够在多样化的环境条件下实现稳健的学习。
  • 通过严格的跨传感器泛化(Sentinel-2、MODIS)和跨指数泛化(EVI、SAVI)验证了该架构的适应性。
  • 本文的其余部分结构如下:第2节回顾了植被指数预测的最新进展。第3节介绍了所提出的方法和模型架构。第4节描述了数据集和预处理程序。第5节展示了实验框架、结果、消融研究和泛化实验。第6节深入讨论了研究结果。第7节探讨了局限性并提出了未来的研究方向。最后,第8节总结了本文的主要贡献和发现。

    相关工作

    相关工作

    本节回顾了与时空预测相关的VI预测和先进深度学习模型的关键发展。它概述了从传统的基于标量的预测到最近的基于地图的方法的主要方法,强调了它们的优点和当前的局限性。最后,讨论了图和Transformer架构在其他领域中的新兴应用,这些应用激发了我们提出的混合框架的设计。

    方法论

    本节介绍了开发和评估所提出的架构的方法论,该架构结合了卷积LSTM、图卷积网络和注意力模块,用于建模序列图像数据中的复杂时空动态。如图1所示,该架构利用了局部时间编码、基于空间的推理和全局上下文建模的互补优势,以实现高保真度的预测。

    数据集

    本节描述了用于训练和评估所提出架构的数据集,包括来自Landsat卫星数据的月度单通道图像,覆盖了1996年至2025年突尼斯北部的比泽尔特地区。下面详细介绍了研究区域和数据准备过程,强调了数据收集和预处理的自动化方法。

    实施细节

    实验实施使用了高性能计算设置,以确保训练和测试过程中的效率和稳定性。硬件配置包括Intel i5-14400F CPU、32 GB RAM和具有12 GB VRAM的NVIDIA RTX 5060 GPU,为深度学习任务提供了足够的计算能力。实验主要使用TensorFlow/Keras作为框架,并利用CUDA环境来优化GPU利用率。

    讨论

    本研究提出了一种用于高分辨率、基于地图的植被指数预测的混合ConvLSTM–GCN–Transformer架构,旨在解决现有时空模型的互补局限性。所提出的框架结合了时间记忆(ConvLSTM)、局部空间规范化(GCN)和全局上下文建模(Transformer),实现了空间和时间上的连贯NDVI预测。在多十年的Landsat NDVI数据上,该模型取得了0.034的RMSE和

    局限性和未来工作

    尽管所提出的框架展示了强大的预测性能和跨传感器泛化能力,但仍存在一些局限性,这些局限性指出了未来研究的方向。当前的空间图构建依赖于固定的局部邻接方案,这适用于中等和粗糙的空间分辨率,但在应用于非常高分辨率的影像时可能过于简化。在涉及机载数据或高分辨率卫星图像的场景中,需要更精细的

    结论

    本研究提出了一种新颖的混合时空框架,用于长期NDVI预测,结合了ConvLSTM、图卷积网络(GCN)和Transformer架构。所提出的模型旨在共同捕捉多十年Landsat时间序列数据中的时间动态、局部空间连贯性和长距离上下文依赖性,同时保持大规模应用的计算可行性。
    包括消融分析在内的全面实验表明,

    CRediT作者贡献声明

    Mohamed Chahine Bouaziz:概念化、方法论、软件、写作——原始草案。
    Ali Ben Abbes:监督、验证、形式分析。
    Mourad El Koundi:监督、验证、数据管理。
    Imed Riadh Farah:监督、项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号