基于组件独立性的自适应学习与局部优化方法在长期预测中的应用
《Engineering Applications of Artificial Intelligence》:Component-wise independent adaptive learning and local optimization for long-term forecasting
【字体:
大
中
小
】
时间:2026年01月20日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
长期时间序列预测面临小数据过拟合、模型层训练进度不一致及可解释性差等问题。本文提出CIALLO框架,通过分解趋势、波形、幅度三成分实现独立建模与优化,解决训练不一致和可解释性难题,并在电力变压器温度与交通流量预测中验证其有效性。
陈飞|程可|王世通|王远泉
江苏科技大学计算机学院,中国江苏省镇江市丹徒区长辉路666号,212003
摘要
长期时间序列预测(LTSF)在小数据集上面临重大挑战,这些问题包括过拟合、模型层间训练进度不一致以及缺乏可解释性。为了解决这些问题,我们提出了基于组件独立自适应学习和局部优化(CIALLO)的新型并行预测框架。该框架将时间序列分解为可逆的组成部分——趋势、波形和幅度——从而实现独立建模和有针对性的训练。模块化的优势包括:灵活的子模型选择、独立的预训练、更清晰的收敛性分析以及更高的训练效率。该框架通过分解和组件级优化强调结构可解释性,而非事后关注。
在基准电力变压器温度(ETT)数据和交通数据集上的实验表明,CIALLO的性能与最先进模型相当或具有竞争力,尤其是在长期预测和数据量有限的情况下。对设计模块的消融实验显示,轻量级子模型和独立组件训练可以提高优化稳定性,而引导梯度对最终性能的影响很小。分解实验表明,去趋势处理起主导作用,而幅度调整仅在缩放可靠时才有益。组件贡献分析和提前停止行为分析揭示了不同组件间训练进度的不一致性。训练时间分析还显示,与基线方法相比,CIALLO的整体收敛速度更快。样本间的误差贡献、代表性预测案例以及设计子模型的参数也被可视化和分析。
最后,总结了总体结果,并讨论了其对未来模型设计和可解释性的影响。
引言
时间序列分析是统计学和数据分析中的一个重要领域,在金融、气象、经济、工业生产等多个领域发挥着关键作用。长期时间序列预测(LTSF)是指基于过去观测数据预测未来值的任务。这项技术在金融、能源、交通和医疗保健等多个领域得到广泛应用,例如股票市场趋势预测、电力负荷预测、交通流量预测和疾病传播建模。
传统的统计模型因其简单性和可解释性而长期受到青睐。例如,自回归积分移动平均模型(ARIMA)(Kendall和Ord,1990年)利用自相关和偏相关,季节性ARIMA(SARIMA)(Box等人,1978年)加入季节性项以增强预测能力。此外,自回归条件异方差性模型(ARCH)(Engle,1982年)通过估计过去序列的方差来评估未来波动性的大小。作为统计方法,它们简单有效且易于解释。
随着计算能力的提升,越来越多的深度学习模型也开始应用于时间序列领域。从密集神经网络(DNN)开始,如DLinear(Zeng等人,2022年)、TimeMixer(Wang等人,2024b年)、循环神经网络(RNN)模型(例如长短期记忆网络LSTM(Hochreiter和Schmidhuber,1997年)、门控循环单元GRU(Chung等人,2014年)、SegRNN(Lin等人,2023年)到卷积神经网络(CNN)模型(例如时间卷积网络TCN(Bai等人,2018年)以及基于变压器的模型(如Informer(Zhou等人,2020年)、PatchTST(Nie等人,2022年)、iTransformer(Liu等人,2023年)、TimeMixer++(Wang等人,2024a年)等。这些模型通常具有复杂的结构和多层不同模块,使得模型各模块之间的适配更加困难,也难以解释(Ye等人,2017年;Zhou等人,2024年)。通常需要许多技巧来确保模型达到最优状态。Bejani和Ghatee(2021年)
专家混合模型(MoE)是一种广泛使用的方法,通过集成专门的专家模型来提高性能(Zeevi等人,1996年)。MoE模型在时间序列分析中最近受到了关注。FreqMoE(Liu,2025年)将专家分配给频率成分,MoLE(Ni等人,2023年)结合线性专家,Time-MoE(Shi等人,2024年)在大数据集上进行训练。这些方法突显了MoE在复杂时间序列任务中的有效性。
这些模块结合使用时,通常可以分为三种架构,如图1所示。第一种也是最常见的方法是直接使用变压器或其他模块对输入序列进行编码,这往往导致模型规模较大。第二种方法从PatchTST开始,通过分割输入序列来降低编码器的复杂性。第三种方法是SegRNN,使用三个模块进一步减小模型规模。
最新模型面临的一个主要挑战是过拟合问题。时间序列数据往往难以收集,导致数据集相对较小。同时,模型规模的扩大加剧了过拟合问题,特别是对于在有限数据上训练的大型模型。此外,研究表明,神经网络层捕获不同频率成分和概念表示的速度不同(Selvaraju等人,2016年;Chattopadhyay等人,2017年),导致各层之间的学习速度存在差异。在应用提前停止来确定最优模型时,某些层可能已经过拟合,而其他层仍欠拟合。此外,由于深度残差模型的顺序结构,评估每一层的训练进度仍然具有挑战性。
另一个关键问题是模型的可解释性。高度复杂的模型在其决策过程中往往缺乏透明度,这使得解释其行为变得困难。这对于股票价格预测和天气预报等应用尤为重要,因为可解释性对于信任和决策至关重要。
总结来说,我们发现了以下问题:
- •
分割限制:虽然分割在时间序列分割中很常见,但其简单的处理方式可能会妨碍模型捕捉长期依赖关系的能力。
- •
训练进度不一致:在多层网络中,由于优化动态的不同,不同模块的训练进度可能不同。虽然整体模型可能达到全局最优,但某些子模块可能会过拟合,而其他模块则欠拟合。这种收敛不平衡会降低模型性能和泛化能力。
- •
缺乏可解释性:端到端训练使得评估单个模块变得复杂,难以确定它们的有效性。
为了解决这些挑战,我们采用了一种完全可逆的组件分离方法,允许每个组件独立训练。这种方法有助于缓解模型不同部分之间训练进度不一致的问题。此外,通过组件分离,我们可以清楚地了解每个组件对模型预测的贡献。鉴于深度学习可解释性的一个关键方面是修改反向传播方法以识别对结果影响最大的元素(Montavon等人,2015年;Bach等人,2015年;Chefer等人,2020年),我们还尝试了专门的梯度传播技术。这确保了每个组件在联合训练后仍保持可解释性。基于这些考虑,我们提出了CIALLO框架,该框架包括三个阶段:
- •
组件独立:输入序列被分割成小块,每个块通过完全可逆的方法进行分解,以降低模型拟合难度并提高预测的透明度。
- •
自适应
局部化
:为每个组件设计的模型分别进行独立训练,以达到最优状态,从而进一步分析各种模型的优势。
•全局学习
:将每个组件的最优训练模型集成到主模型中进行整体微调,并使用引导梯度
,这可能进一步提高模型性能、完成预测和评估。相关研究
在本章中,我们主要关注减轻模型过拟合的常用方法。
分割。序列分割通常可以降低模型复杂性,同时通过参数共享提高模型的泛化性能。在PatchTST(Nie等人,2022年)之后,许多模型都采用了这种方法,例如segRNN(Lin等人,2023年)、PatchMLP(Tang和Zhang,2024年)。
分割表示为:
方法论
在本节中,我们使用单个块来解释图3和图4中展示的训练和推理工作流程。
实验
配置我们的实验在配备了Nvidia 3090 GPU和Kaggle Tesla P100(16 GB)的系统上进行。环境包括Python 3.12和PyTorch版本2.5.1,以及CUDA 12.4,为模型训练和评估提供了必要的计算资源和框架。
数据集我们的方法旨在解决在小数据集上训练模型时遇到的挑战,其中样本数量有限往往导致过拟合
结论与讨论
在这项工作中,我们提出了CIALLO,这是一种基于组件的建模框架,旨在解决神经网络长期时间序列预测中的两个关键问题。首先,我们解决了子模块间训练进度不一致的问题,这削弱了提前停止的有效性。通过将输入序列分解为趋势、波形和幅度三个独立的组件并分别进行训练,CIALLO使各模块的优化计划保持一致,从而提高了模型性能
CRediT作者贡献声明
陈飞:撰写——原始草稿、可视化、验证、软件、方法论、调查、正式分析、数据整理、撰写——审阅与编辑、概念化、项目管理、资源协调、监督。程可:正式分析、资金获取、方法论。王世通:方法论、资源协调。王远泉:资源协调。
写作过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用了ChatGPT(OpenAI)来提高手稿的清晰度、语法和可读性。使用该工具后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。
资助
这项工作部分得到了国家自然科学基金(编号:62472142)的支持,部分得到了河北省自然科学基金的Jing-Jin-Ji项目(编号:H2024202009)的支持,还得到了天津市自然科学基金(编号:24JCZXJC00080和24YFXTHZ00250)以及江苏省研究生研究与实践创新计划(编号:KYCX25_4381)的支持。这些项目提供了学术和培训支持,但没有影响
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文报告的工作。
致谢
作者感谢所有在修订本手稿过程中提供宝贵建议的同事和合作者。他们的反馈有助于改进实验设计的清晰度和可解释性分析的呈现。我们 also 感谢研究团队和机构的支持,他们在整个研究过程中提供了建设性的学术环境。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号