《Pattern Recognition》:GCMNet: A Global Context Mamba Network for Long-term Time Series Forecasting
编辑推荐:
针对长时序预测中全局信息不足和计算效率低的问题,本文提出全局上下文Mamba网络(GCMNet),通过全局上下文补丁嵌入模块和双Mamba层捕捉跨变量和时序依赖,在8个真实数据集上验证其有效性。
刘向森|任金昌|张洪明|张二雷
西北农林科技大学信息工程学院,中国杨凌712100
摘要
时间序列预测在许多关键的现实世界领域中发挥着重要作用,准确预测未来趋势对于指导重要的决策过程至关重要。尽管深度学习的最新进展,特别是基于Transformer的架构,显著提升了预测能力,但在计算效率和长期预测准确性方面仍存在挑战。此外,现有的补丁嵌入方法往往无法捕捉到全面的时间依赖性。为了解决这些限制,我们提出了全局上下文Mamba网络(GCMNet),这是一种新型架构,它通过使用全局上下文补丁嵌入模块和Mamba的高效序列建模能力来提取全局时间信息。我们的模型结合了变分和时序Mamba层,以有效捕捉变量间的相关性和时间动态,同时保持高计算效率。在八个真实世界数据集上的实验结果表明,GCMNet在长期时间序列预测任务中的表现优于八种最先进的方法。
引言
时间序列预测(TSF)在多个领域中发挥着重要作用,包括能源[1]、金融[2]、交通[3]和气候[4]等,其中准确预测未来趋势对于做出明智的决策至关重要[5]。同时,大规模序列数据的指数级增长加剧了对能够有效捕捉长时间复杂时间动态的模型的需求[6]。
近年来,循环神经网络(RNNs)和卷积神经网络(CNNs)被用于TSF的应用,并且表现优于传统的统计方法[7]。然而,RNNs经常遇到梯度消失问题和长序列下的计算效率问题,而CNNs由于其固有的有限感受野可能难以捕捉全局时间模式[8]。利用自注意力机制,Transformer架构[9]无需循环操作即可有效捕捉长期依赖性,从而显著提高了预测准确性[10]。尽管如此,Transformer面临计算成本高的挑战,该成本随序列长度的增加而呈二次方增长,这给管理大规模数据和满足长期TSF(LTSF)场景下的实时要求带来了困难[11]。
在基于深度学习的TSF领域,补丁嵌入已成为一种常见的技术,通过将输入序列分割成较小的补丁来提取局部时间特征[12]。传统的补丁嵌入方法通常采用实例归一化和简单的分割,例如在PatchTST[13]中使用的方法。虽然它们在捕捉细粒度局部模式方面有效,但一个关键的限制是它们倾向于忽略整个序列的全局上下文。这种忽视会严重限制模型理解全面时间依赖性的能力,从而导致预测性能不佳。这种现象在解决LTSF问题时尤为明显,这些问题表现出长距离的全局模式。例如,在高度波动的金融市场或复杂的气候系统中,仅依赖局部补丁的模型可能会误解总体趋势或突然的变化,因为它需要考虑完整的时间范围。这些方法通常无法充分表示局部事件如何影响或在更长的时间范围内反过来影响更广泛的系统动态。与现有的补丁嵌入方法不同,后者通常缺乏一种明确的机制来将这种全局上下文直接融合到每个局部补丁中,而带有注意力机制的Transformer通过在整个序列中进行成对比较来捕捉全局交互,尽管它的计算成本较高。最近的基于Mamba的模型,如S-Mamba[14]和TimeMachine[15],在用线性复杂性建模长期时间依赖性方面表现出色,但它们往往忽略了同样重要的多变量TSF中复杂的序列间依赖性。
受这些方法的启发,我们提出了一种新型的全局上下文Mamba网络(GCMNet),以克服LTSF任务的这些限制。一方面,GCMNet设计了一个全局上下文补丁嵌入(GCPE)模块,该模块显式提取全局时间信息并将其与局部补丁段智能融合。GCPE的独特架构确保每个补丁都富含全面的时间上下文,有效解决了传统补丁嵌入问题中固有的全局信息缺失问题。同时,与Transformer中密集的自注意力交互相比,它提供了一种更计算高效的方式来整合全局特征。另一方面,GCMNet设计了一个独特的变分和时序Mamba(VTM)层,以实现更全面和有效的信息获取。VTM层旨在同时建模变量间相关性和长期时间动态。这使得GCMNet能够解决复杂的多变量时间序列预测任务。本文的主要贡献包括:
- •
我们提出了一种带有GCPE和Mamba的新型GCMNet模型,用于LTSF。与仅捕获固定补丁大小内局部上下文的传统补丁嵌入方法不同,GCMNet设计的GCPE模块有效地从整个时间序列中捕获全局上下文信息,并将其与局部补丁表示融合,从而增强了其捕捉扩展时间依赖性的能力并提高了整体预测准确性。
- •
我们开发了一种新型的变分和时序Mamba(VTM)层,利用两个Mamba块分别捕获变量间相关性和时间依赖性,从而提高了LTSF的性能。
- •
我们证明了GCMNet在八个真实世界数据集上的LTSF任务中优于八种最先进的方法,验证了其有效性和稳健性。
本文的结构如下:第2节回顾了与TSF相关的工作。第3节详细介绍了提出的GCMNet,包括整体架构、GCPE模块和VTM层。第4节展示了实验结果并进行了分析。最后,第5节总结了本文并概述了潜在的未来工作。
相关研究
相关工作
在本节中,我们回顾了三项相关工作:(1)基于补丁嵌入的TSF,(2)基于深度学习的TSF,以及(3)基于Mamba的TSF。
初步介绍
时间序列预测。我们将TSF任务定义如下:多变量时间序列被输入模型,模型预测未来的序列,其中L和T分别代表回望窗口的长度和预测范围,N是变量的数量。
状态空间模型(SSMs)。状态空间模型(SSMs)为系统动态行为的建模提供了一个正式框架。通过使用隐藏的“状态”,它们可以
数据集
为了评估性能,我们使用了八个真实世界的数据集。这些数据集涵盖多个领域:能源(ETT1)、电力(Electircity2)、天气(Weather3)和金融(Exchange5)[38]。
关于这些数据集的详细信息
结论
在本文中,我们提出了一种基于Mamba的新型GCMNet用于长期时间序列预测。GCMNet引入了两项关键创新:(1)全局上下文补丁嵌入(GCPE)模块,通过全局时间上下文聚合增强局部补丁表示;(2)变分-时序Mamba(VTM)层,利用双Mamba块同时捕捉时间动态和变量间依赖性。全面的实验表明,GCMNet取得了卓越的性能
CRediT作者贡献声明
刘向森:撰写——原始草稿、可视化、软件、方法论、调查、数据整理、概念化。任金昌:撰写——审阅与编辑、验证、监督、项目管理、正式分析。张洪明:撰写——审阅与编辑、监督、项目管理。张二雷:撰写——审阅与编辑、监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了西安科学技术局基金(编号24NYGG0024)的支持。所有作者均已阅读并批准了手稿。