RoGAtten:用于多变量时间序列预测的旋转门线性注意力机制

《Neural Networks》:RoGAtten: Rotary Gated Linear Attention for Multivariate Time Series Forecasting

【字体: 时间:2026年01月12日 来源:Neural Networks 6.3

编辑推荐:

  多变量长期时间序列预测中,提出可缩放旋转位置嵌入(SRoPE)和旋转门控线性注意力(RoGAtten)机制,通过理论证明将线性注意力与旋转位置编码结合,提升模型对长距离依赖和跨变量交互的表达能力,实验显示相比SOTA方法在8个真实数据集上MSE降低3.85%,MAE降低1.71%。

  
梁敖博|孙艳|史晓侯|李可
北京邮电大学计算机学院,中国北京100876

摘要

物联网中的数千个网络节点产生了大量的长期时间序列数据。预测网络流量有助于识别安全风险并改进网络管理。在过去的几年中,基于Transformer的模型(Transformers)在预测准确性方面取得了卓越的成果。然而,注意力机制面临着在表达能力和计算效率之间取得平衡的挑战。最近,提出了一种名为Mamba的有效状态空间模型。它在建模长期依赖关系方面表现出色。同时,其门控网络结构也为改进注意力机制提供了灵感。在本文中,我们从理论上证明了带有旋转位置嵌入的线性注意力可以重写为类似于Mamba的形式。基于这一见解,我们设计了一种可扩展的旋转位置嵌入(SRoPE)机制,该机制引入了一个缩放因子来调整信息流,同时保留了相对位置关系。这为模型赋予了类似遗忘门的功能,并允许与现有的多头机制无缝集成,从而实现了比以前的注意力变体更高的表达能力。然后,我们提出了用于多变量时间序列预测的旋转门控线性注意力(RoGAtten)。RoGAtten用于捕捉序列间的依赖关系。SRoPE可以提供序列级的鉴别器,并调整变量间交互的强度,使预测结果更符合领域知识。在8个真实世界数据集上的广泛实验表明,与最先进的方法相比,RoGAtten将MSE降低了3.85%,MAE降低了1.71%。

引言

时间序列预测可以根据两个主要维度进行分类:单变量与多变量,以及短期预测与长期预测。单变量预测专注于建模单个变量,而多变量预测则捕捉多个相关变量之间的交互。同样,短期预测强调局部时间动态,而长期预测则需要能够建模扩展的依赖关系并减少累积误差。本工作属于多变量长期预测(MLTF)范畴。其主要任务是根据历史观测数据预测指定时期的未来值。MLTF在各个领域都至关重要,包括交通(Liu等人,2022a)、能源管理(Kang等人,2025)、金融(Cheng等人,2022)、推荐系统(Lan等人,2024)、故障诊断(Yang等人,2024a)和气候(Zhang等人,2022)等。在物联网(IoT)的生产环境中,网络流量分析中的带宽和延迟等指标通常形成相互关联的多变量时间序列(MTS)(Long等人,2022)。如图1所示,通过分析历史数据,MLTF可以提供未来趋势预测,使网络管理员能够识别异常模式、检测潜在威胁、动态调整安全策略并优化资源分配(Calder和Sevegnani,2017)。
最近,基于Transformer的模型(Transformers)在自然语言处理(NLP)(Gillioz等人,2020)和计算机视觉(CV)(Pang等人,2025)等多个领域取得了显著成功。这一趋势也扩展到了MLTF领域。Transformer使用Softmax自注意力(Vaswani等人,2017)(SA)自动学习整个序列中元素之间的依赖关系。然而,随着物联网设备的迅速扩展,流量数据的数量和维度也在呈指数级增长。自注意力的二次复杂度导致了巨大的计算成本,从而限制了它们的适用性和预测性能。因此,提出了许多衍生模型,如Informer(Zhou等人,2021)、Autoformer(Wu等人,2021)和Pyraformer(Liu等人,2022b),通过改进自注意力的实现来降低复杂性。尽管付出了这些努力,它们并没有从根本上改变逐个令牌化的策略,并且随着历史观测长度的增加可能会过拟合。为了解决这个问题,PatchTST(Nie等人,2023)提出了一种逐块令牌化方法。它将时间序列分成块,并使用共享的Transformer编码器分别处理每个变量。另一种方法是iTransformer(Liu等人,2024),它采用序列级令牌并反转Transformer的建模方向以捕捉序列间的依赖关系。然而,这些模型仍然保留了SA来建模单个时间序列内的时间模式或不同变量之间的关系。在处理更长或更高维的时间序列数据时,这些模型仍然会消耗过多的计算资源。
在过去的几年中,提出了线性注意力(LA)(Katharopoulos等人,2020)来解决SA的二次复杂性问题。尽管效率较高,但LA面临特征多样性不足的挑战(Choromanski等人,2020),因为基于核的近似方法本质上将高维的上下文交互压缩到了低秩特征空间中。这种压缩限制了在建模非线性依赖关系时的表达能力。尽管一些工作试图注入相对位置信息来增强LA的表达能力(Su等人,2024),LA在建模复杂和长期依赖关系时仍然遇到困难。最近,提出了一种名为Mamba的状态空间模型(SSM)(Gu和Dao,2023)。Mamba使用数据驱动的参数化矩阵使状态预测过程对输入序列具有选择性,实现了与SA类似的长期建模能力。此外,还开发了一种硬件感知的并行计算算法,使得Mamba具有线性复杂度。然而,多变量数据通常表现出丰富的序列间依赖关系。使用顺序范式来建模这种与位置无关的关系可能会导致结构信息的丢失和序列交互的建模不足。尽管如此,不可否认的是,Mamba的数据驱动设计为改进注意力机制提供了宝贵的见解。因此,我们的目标是开发一种架构,同时实现SA的表达能力和稳定性,同时保持线性复杂度(Mahdi等人,2024)。
在本文中,我们提出了一种新颖的可扩展旋转位置嵌入(SRoPE)机制,该机制引入了一个自适应的缩放因子来灵活控制令牌的旋转幅度。我们从理论上证明了带有SRoPE的LA可以重新表述为SSM的变体,同时保留了注意力机制的灵活性和表达能力。SRoPE自然适合自回归建模范式,并可以无缝集成到各种注意力架构中。基于这些发现,我们提出了旋转门控线性注意力(RoGAtten),它通过门控网络和SRoPE改进了LA。RoGAtten使用输入和输出门控机制来精细化特征转换,而SRoPE则自适应地调节令牌间的信息流。我们可以将RoGAtten应用于捕捉序列内的时间依赖关系和序列间的相关性。对于时间建模,SRoPE保留了相对位置的因果属性;对于序列间建模,不同的相位编码作为特征标识符,引导模型更精确地控制变量间的交互。本文的主要贡献总结如下:
  • 我们提出了SRoPE,以便在过滤关键上下文特征的同时动态纳入相对位置信息,从而实现更选择性的多变量依赖关系学习。
  • 我们提出了用于多变量时间序列预测的RoGAtten。通过引入专门设计的SRoPE和门控网络,RoGAtten可以无缝集成到现有的基于注意力的模型中,同时提高性能。
  • 我们在8个广泛使用的真实世界数据集上进行了广泛的实验。与最先进的方法相比,RoGAtten平均将MSE降低了3.82%,MAE降低了1.71%。
  • 其余部分组织如下。第2节我们回顾了MLTF和基于SSM的模型的相关工作,强调了激发我们研究的现有差距。第3节介绍了我们模型设计所需的初步知识。第4节介绍了提出的方法论,详细说明了公式推导的核心原理。第5节展示了数据集、实验设置、基线模型和评估指标,随后是对结果的全面分析。最后,我们提供了论文的结论,讨论了发现、局限性和未来研究的方向。

    相关工作

    相关工作

    在本节中,我们回顾了MLTF的典型方法和下游应用,以及对最近基于Transformer和SSM的模型的详细概述。

    初步知识

    在本节中,我们提供了MLTF的定义,并回顾了SA、LA、RoPE和SSM的概念。

    方法论

    在本节中,我们首先提供了将RoPE解释为类似遗忘门的Mamba的理论证明,并讨论了提出的RoGAtten。随后,我们展示了模型的完整框架,并详细介绍了从历史观测到输出预测值的过程。

    实验

    我们在第5.4节对8个真实世界数据集评估了提出的RoGAtten,并在第5.5节进行了消融研究,以证明我们设计各组分的有效性。然后我们在第5.6节对不同的超参数进行了评估,以验证模型的鲁棒性。在第5.9节和5.10节中,我们可视化了模型的效率和预测结果。

    结论

    在本文中,我们提出了用于多变量时间序列预测的旋转门控线性注意力RoGAtten。我们从理论上证明了序列令牌的旋转过程可以被视为Mamba的SSM结构中的遗忘门,同时提供了额外的相对位置信息。我们比较了LA和Mamba的架构差异,并设计了在LA中添加额外的输入门和跳过连接模块。输入门过滤出了序列中更有用的特征。

    数据可用性

    数据将应要求提供。

    CRediT作者贡献声明

    梁敖博:撰写——原始草稿、可视化、验证、软件、方法论、调查、数据整理、概念化。孙艳:撰写——审阅与编辑、监督、资金获取。史晓侯:撰写——审阅与编辑、验证。李可:撰写——审阅与编辑、验证。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号