《Knowledge-Based Systems》:AsynFormer: Transformer Capturing Asynchronous Cross-Variate Dependencies for Efficient Multivariate Time Series Forecasting
编辑推荐:
本文提出AsynFormer模型,通过双流Transformer架构和变量代理模块,有效捕捉异步跨变量依赖及细粒度时序动态,在11个真实数据集上验证,长期预测准确率超70%,短期误差降低3.59%和5.04%。
彭何|甘彦雷|刘旭翔|林润|周冠宇|谢俊|刘瑶|刘桥
中国电子科技大学计算机科学与工程学院,四川成都,611731,中国
摘要
多变量时间序列预测(MTSF)在许多领域中至关重要,因为这些领域的运营和战略决策依赖于准确的预测。在这些领域中,有效的预测至关重要,需要精确地建模复杂模式,包括跨变量依赖性和序列内部动态。每个时间序列中的独特趋势特征带来了挑战;现有的架构试图将时间序列分割成多个片段,并对这些片段应用自注意力机制。然而,它们要么忽略了异步的跨变量交互(例如,领先-滞后效应),要么随着变量数量的增加而产生二次复杂性。为了弥合这一差距,我们提出了一个基于Transformer的模型AsynFormer,以同时捕获序列内部和跨变量相关性。此外,我们设计了一个变量级别的代理模块,降低了模型的复杂性,并确保了其适用于高维数据集。我们在十一个真实世界数据集上进行了广泛的实验,涵盖了长期和短期预测任务。对于长期预测,AsynFormer在超过70%的情况下(49/70)优于基线模型。对于短期预测,它在均方误差(MSE)上降低了3.59%,在平均绝对误差(MAE)上降低了5.04%。最终,AsynFormer提供了一个可扩展且稳健的框架,证明了在不牺牲良好运行效率的情况下,可以对复杂的异步依赖性进行建模。
引言
多变量时间序列预测(MTSF)对于许多领域都是必不可少的功能,例如金融[1]、[2]、智能交通[3]、[4]、气象[5]、[6]和能源系统[7]、[8],在这些领域中,可靠的预测可以推动运营效率和战略规划。准确的MTSF取决于捕捉多变量时间序列中固有的两种主要模式:跨变量依赖性和序列内部动态。前者描述了不同变量之间的相关性和因果关系,而后者捕捉了每个单独序列中的长期趋势和短期波动。
基于片段的方法通过将每个变量的序列分割成时间段来处理序列内部动态[13]、[14],从而以细粒度的方式对序列内的波动进行建模。然而,这种分割本质上忽略了跨变量交互。相比之下,iTransformer[10]将每个变量的整个时间轨迹编码成一个单独的token,并应用变量级别的自注意力来捕捉跨变量依赖性,但牺牲了细粒度的时间建模。最近的架构[9]、[11]结合了变量级别和片段级别的注意力机制来共同学习跨变量相关性和序列内部波动;然而,当处理大量序列变量时,它们的计算成本可能会变得过高[15]。
此外,现有方法假设变量间的影响是同步发生的,要么通过交错要么通过并行化变量级别和片段级别的注意力模块[16]、[17]、[18]来实现。然而,在现实世界系统中,多变量交互通常是异步和延迟的。一个典型的例子是汽车供应链中的领先-滞后相关性,如图1所示:上游原材料的短缺首先导致电池产量减少,随后下游汽车销售出现滞后下降。同样,在糖尿病管理中,由于吸收动态,皮下注射胰岛素后大约一小时会观察到血糖明显下降[19]。为了进一步阐明潜在机制,我们绘制了Weather、ETTh1/h2/m1数据集的变量片段级皮尔逊相关性热图1。如图2所示,子图(a-d)中的对角区域显示出明显的带状结构,表明这些变量之间存在一致的同步耦合。然而,子图(e-h)的非对角区域则表现为分散和偏移的簇,而不是集中在对角线上,这揭示了跨片段存在复杂且不均匀的滞后相关性。这些观察结果突显了纯粹同步的片段级注意力机制的不足。因此,需要一种新的架构范式,能够有效地、高效地建模这些关键的领先-滞后关系,从而显著提高预测准确性。
除了上述设计之外,我们进一步利用了多变量时间序列中固有的异步跨变量相关性和序列内部动态。从技术上讲,我们提出了AsynFormer,这是一个基于Transformer的框架,它通过片段级建模同时捕获异步时间点的跨变量依赖性和每个变量内的局部时间模式。为了确保在高维环境中的可扩展性,我们引入了一个变量级别的代理模块,该模块由特定于变量的可学习token构建,有效地压缩了全局时间上下文,从而通过将其与序列长度解耦来降低自注意力的二次复杂性。此外,我们引入了频域正则化损失,明确地对齐预测序列和真实序列之间的频谱特征,增强了跨扩展预测范围的时间连贯性和鲁棒性。我们的主要贡献有三个方面:
- •
我们提出了AsynFormer,一个双流Transformer框架,它结合了异步的变量级注意力分支(用于滞后依赖性)和片段级时间分支,同时捕获跨变量交互和细粒度的序列内部动态。
- •
我们设计了一个变量级别的代理模块,它用一小部分可学习的代理token代替了所有变量片段之间的完全成对自注意力,以保持计算效率。
- •
在十一个数据集上的广泛实验表明,AsynFormer在长期和短期预测任务中均达到了最先进的性能,并在各种基准测试中表现出更高的效率。
相关工作
基于Transformer的架构在自然语言处理[20]和计算机视觉[21]中的兴起促进了它们在时间序列预测中的应用。与时间卷积网络(TCNs)[22]、[23]和循环神经网络(RNNs)[24]、[25]模型不同,Transformer天生支持长距离依赖性和序列数据的并行处理,提供了强大的建模能力和可扩展性。为了将Transformer适应于预测任务,最近的变体在四个关键方面进行了改进
初步准备
问题定义。给定一个有序的T个历史观测值序列,表示为,其中L表示回望窗口,C表示通道数。目标是构建一个预测模型f(?·?),该模型应学习序列X中固有的模式和不确定性,以估计未来的H个未知值,从而生成预测序列。预测的目标是确保每个预测值
片段嵌入
为了精确捕捉时间序列内部和跨时间序列的演变模式,AsynFormer采用了片段级嵌入策略,其中输入序列X被分割成不重叠的片段,如图3所示。每个片段随后被嵌入到一个包含位置信息的token中。此外,为了捕捉序列内部动态,我们为每个变量随机初始化了序列级代理。此外,我们编码整个序列以生成上下文级代理,定义为
实验设置
数据集。我们全面评估了AsynFormer在十一个公共基准测试上的准确性和效率。这些数据集包括七个用于长期预测的数据集:ETTh1、ETTh2、ETTm1、ETTm2、Exchange、Traffic和Weather。此外,我们还使用了四个用于短期预测的交通网络数据集:PeMS03、PeMS04、PeMS07和PeMS08。这些数据集的详细规格在表1中。这些数据集的规格如下:
•ETT(电力)
结论
在本文中,我们介绍了AsynFormer,这是一个新颖的统一基于Transformer的框架,专为MTSF设计,旨在解决异步跨变量交互和细粒度时间动态问题。与现有的同步注意力方法不同,AsynFormer通过其双流架构同时捕获异步跨变量依赖性和局部序列内部动态。为了确保计算可扩展性,我们提出了一个变量级别的代理模块,该模块利用
作者声明
亲爱的编辑:
我们声明这篇题为“AsynFormer:Transformer捕获异步跨变量依赖性以实现高效多变量时间序列预测”的手稿是原创的,之前从未发表过,目前也没有被其他地方接受发表。
我们希望引起编辑的注意,以下是我们中的一位或多位作者发布的与当前提交的手稿相关的内容。如果有关这些出版物的副本
CRediT作者贡献声明
彭何:可视化、资源、项目管理、方法论。甘彦雷:写作——原始草稿、项目管理。刘旭翔:验证、监督。林润:项目管理。周冠宇:可视化、软件。谢俊:调查、资金获取、正式分析。刘瑶:监督、概念化。刘桥:方法论、调查、资金获取。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
我们感谢匿名审稿人的宝贵讨论和建设性反馈。这项工作得到了中国国家自然科学基金(U22B2061)、中国国家重点研发计划(2022YFB4300603)和四川省自然科学基金(2024NSFSC0496)的支持。