编辑推荐:
时间序列预测中,SpecSplishing机制通过频谱分割和下移增强模型捕捉高频成分的能力,实验显示预测误差平均降低4.59%,训练次数减少29.15%。
丁志华|陈震|叶念根|朱佳怡|孙伟强
上海交通大学集成电路学院,上海,200240,中国
摘要
在用于时间序列分析时,深度神经网络(DNNs)通常对信号中的高频成分不够敏感,这限制了它们对能量分布在高频段的信号的预测性能。尽管最近在频率域中对时间序列进行了显式建模的尝试,但捕捉信号中的高频成分仍然具有挑战性且效果不佳。在本文中,我们提出了一种名为SpecSplishing的新机制,以克服DNNs在捕捉高频成分方面的固有局限性。SpecSplishing通过分割并下移频谱,使得转换后的序列能够更好地被DNNs处理。通过理论分析,我们展示了这种能够对时间序列进行非正交分解的机制,在使用基于自注意力的模型时提供了互补的优势,而这些模型本质上执行的是正交分解。实验结果表明,SpecSplishing显著减少了训练迭代次数,平均减少了29.15%,并提高了高频成分的拟合效果。与基线模型相比,下移表示法提高了预测准确性,均方误差(MSE)降低了多达53.95%,在多个基准数据集上的平均降低率为4.59%。
引言
时间序列中的高频成分通常对应于瞬态和关键信号,例如金融领域的突然市场波动[1]、[2]、医疗保健中生命体征的突然峰值[3]、[4],或传感器监测中的剧烈环境干扰[5]。准确建模这些高频模式对于及时和精确的预测至关重要,但对现代深度学习模型来说仍然具有挑战性。
时间序列预测的最新进展可以大致分为时域方法和频域方法。时域模型,如PatchTST[6]、iTransformer[7]和DLinear[8],侧重于架构创新以增强长期依赖性建模并提高效率。另一方面,基于频率的模型旨在将频谱特征明确地纳入DNNs中。例如Amplifier[9]、FilterNet[10]和FAN[11]。虽然频域方法是一个有前景的方向,但仍存在挑战。一个重要的观察是,DNNs在训练过程中天生倾向于优先处理低频成分,导致高频信号欠拟合[12]、[13]。
在本文中,我们提出了SpecSplishing,这是一种有效的频域时间序列表示方法,显著提高了基于Transformer的时间序列预测器的性能。SpecSplishing将时间序列的子带分割并下移至较低频段,从而缓解了DNNs的上述固有局限性。在基准数据集上的广泛实验表明,使用SpecSplishing可以将预测MSE降低高达53.95%,平均降低率为4.59%。
我们的贡献包括:
1.我们提出了SpecSplishing,这是一个与模型无关的预测框架,它使用可微分的基于Sigmoid的滤波器进行近乎无损的频段分割,然后将高频成分移至较低频段。SpecSplishing平均降低了4.59%的MSE。
2.我们通过理论分析表明,SpecSplishing的非正交分解补充了自注意力的正交特性(定理1),从而为DNNs的时间序列表示提供了新的视角。
3.SpecSplishing有效加速了模型收敛。实验结果表明,所需的训练迭代次数平均减少了29.15%,同时模型参数数量没有显著增加,从而降低了训练资源消耗。
4.我们进行了一系列实证研究,发现尽管模型倾向于处理低频成分,但过于细化的子带分割会损害它们建模跨子带依赖性的能力,这为增强模型的结构通用性和建模能力提供了新的见解。
章节片段
时域预测模型
基于Transformer的架构由于其强大的长距离依赖性建模能力,最近在时间序列预测领域占据了主导地位。诸如Pyraformer[14]、ETSformer[15]和PatchTST[6]等变体通过层次化注意力机制、趋势-季节性分解或块序列处理来增强时间表示。
除了基于注意力的模型之外,轻量级架构如DLinear[8]、TimesNet[16]和TSMixer[17]采用线性或简化的方法
SpecSplishing:通过频谱分割和下移克服高频学习挑战
本节详细描述了SpecSplishing,并从理论上说明了SpecSplishing如何解决基于自注意力的模型的内在局限性。
实验
本节系统评估了在集成SpecSplishing之前和之后各种时间序列预测模型的性能变化。实验结果表明,SpecSplishing在不同模型中一致地提高了预测准确性。此外,对不同频段预测性能的分析证实了SpecSplishing的有效性。
结论
SpecSplishing通过解决长期存在的高频学习挑战,为改进深度学习模型进行复杂时间序列预测提供了一条原则性和有效的方法。通过分割输入频谱并策略性地将高频子带移至低频谱范围,SpecSplishing将难以学习的信号转换为更易于优化的表示形式。
结果显示,在多个数据集上均取得了持续且显著的改进
CRediT作者贡献声明
丁志华:撰写——原始草案、方法论、概念化。陈震:可视化、软件、资源。叶念根:验证、数据管理。朱佳怡:调查、形式分析。孙伟强:撰写——审阅与编辑、监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了中国国家重点研发计划(项目编号2024YFB2908301)和中国国家自然科学基金(项目编号62331017)的支持。
丁志华于2022年从天津大学获得电子信息工程学士学位。他目前正在上海交通大学电子工程系攻读博士学位。他的研究兴趣包括时间序列预测的理论和应用。