通过结合即插即用（plug-and-play）的Transformer变体的模块化深度学习框架来提升股票价格预测的准确性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　股票价格预测面临非平稳性、噪声和极端事件挑战，传统模型和深度学习存在分布偏移、尾部风险鲁棒性及计算效率问题。本文提出RevIN-CNN-(Transformer变种)-BiLSTM模块化框架：RevIN动态归一化缓解非平稳性，CNN捕捉局部时序模式，可插拔Transformer（标准/轻量/iTransformer等）建模全局依赖，BiLSTM双向融合时序信息。实验表明在4个跨市场数据集上，该框架将RMSE降低50%，MAPE降低54%，GPU训练时间增加22%，且在无重新训练情况下实现跨市场高效泛化。消融实验验证各模块协同效应，特别是RevIN对极端事件的鲁棒性优化和Transformer插拔设计显著提升适应性。

黄玉明|杨晨旭

中国香港中文大学工程系，新界沙田，邮编999077，中国特别行政区

摘要

由于金融时间序列具有高度的非平稳性和噪声性，并且偶尔会受到具有持续影响的极端事件的影响，因此股价预测仍然具有挑战性。尽管最近的深度学习模型，特别是卷积神经网络（CNN）、循环神经网络（RNN）和Transformer，在预测准确性方面有所提高，但它们在分布漂移、尾部风险鲁棒性和处理长序列的计算需求方面仍存在显著限制。为了克服这些挑战，我们提出了一个模块化的、基于知识的深度学习框架，该框架整合了可逆实例归一化（RevIN）、卷积神经网络（CNN）、即插即用的Transformer变体以及双向LSTM（BiLSTM）。RevIN作为一个专家驱动的决策支持模块，动态地对数据进行归一化，以减轻制度转变的影响，同时保持输出在经济上有意义的范围内。CNN捕捉局部时间微模式，Transformer变体（标准Transformer、iTransformer等）处理全局时间和跨变量依赖性，而BiLSTM融合了前向和后向的时间动态。这种完全模块化的、即插即用的架构能够轻松集成新的Transformer变体，而无需重新训练现有组件，从而确保长期的适应性和可扩展性。在四个跨市场数据集（NASDAQ-AAPL、NASDAQ-MSFT、SSE-600519和HKEX-00005）上的实证评估表明，与五个强大的基线模型相比，我们的框架分别将RMSE和MAPE降低了50%和54%。这些性能提升仅伴随着GPU训练时间约22%的增加，且推理延迟与轻量级模型相当。跨市场测试进一步证明了该框架在不同市场制度和货币下的鲁棒泛化能力，即使不进行重新训练也能显著优于基线模型。消融研究验证了每个模块的互补贡献，突显了集成专家驱动的归一化和模块化深度学习组件对于构建鲁棒金融决策支持系统的有效性。本研究中使用的代码和数据可在以下链接获取：https://github.com/DyeDye-diyung/Framework_for_Financial_Time-Series_Forecasting。

引言

由于股票价格时间序列具有复杂的统计特性，预测股票价格仍然是一项艰巨的任务。股票价格通常伴随着高水平的噪声，对外部宏观经济冲击、政策干预和投资者情绪变化非常敏感，并且经常受到市场崩盘或突然上涨等极端事件的干扰。这些时间序列本质上是非平稳的：它们的均值和方差会随时间演变，违反了许多传统计量经济模型的平稳假设（Wiley, 2011）。此外，明显的非线性依赖性和长记忆效应意味着过去的市场事件会对未来价格产生持久影响（Chen, Hussain, Cauteruccio, & Zhang, 2023）。波动聚集——即持续高或低方差时期——进一步增加了准确预测的难度（Patel, Shah, Thakkar, & Kotecha, 2015）。综上所述，这些内在复杂性凸显了需要专门且鲁棒的预测框架，以有效应对股票价格预测所面临的独特挑战。

早期研究采用了传统的机器学习技术，如决策树、支持向量机（SVM）和随机森林（Kara, Boyacioglu, Baykan, 2011, Kumar, Thenmozhi, 2006）。后续研究采用了深度架构，特别是卷积神经网络（CNN）和循环神经网络（RNN），其中长短期记忆（LSTM）单元因其捕捉时间依赖性的能力而受到特别关注（Fischer, Krauss, 2018, Hoseinzade, Haratizadeh, 2019）。然而，每个模型家族都有众所周知的局限性：基于树的模型和SVM模型对噪声敏感，无法表达长距离动态；而CNN和LSTM模型容易过拟合、超参数不稳定，并且处理非常长的序列时计算开销较大（Chen et al., 2023）。

为了克服这些限制，特别是在高效建模长距离依赖性方面，Transformer架构为时间序列预测开辟了新的途径，展示了其在建模全局模式方面的卓越能力（Wang, Chen, Zhang, & Zhang, 2022）。然而，传统的Transformer需要大量的数据和计算资源，并且仍然容易受到分布漂移和极端值异常的影响（Tay, Dehghani, Bahri, & Metzler, 2022）。最近的改进，例如iTransformer，通过针对序列数据定制架构部分缓解了这些缺陷（Liu et al., 2023）；然而，要应对金融序列的完整复杂性，还需要进一步的进展。

平行研究探索了多模态预测，将文本新闻、社交媒体情绪或宏观经济指标与价格数据相结合（Cheng, Yang, Xiang, & Liu, 2022）。报告的收益通常是渐进的，多模态流程引入了对齐挑战、增加了计算成本，并且容易受到噪声或无关信号的影响（Lakkaraju et al., 2024）。此外，数据收集的高成本和新闻处理中的固有延迟往往限制了实际应用（Zhang, Sjarif, & Ibrahim, 2024a）。

虽然这些进展代表了重要的进步，但如何同时有效应对所有挑战仍然是一个未解决的问题，特别是非平稳性和适应性。为了弥合这些剩余的差距，我们提出了一个模块化的深度学习框架，该框架整合了RevIN、CNN、即插即用的Transformer变体和BiLSTM用于股价预测。可逆实例归一化（RevIN）减轻了非平稳性和极端市场事件的影响；CNN模块捕捉短期局部价格模式；可互换的Transformer模块（例如Transformer、iTransformer）有效学习长距离依赖性；双向LSTM（BiLSTM）层在两个方向上建模时间动态。这种模块化设计使得可以轻松集成新的Transformer架构，确保对未来创新的适应性。

我们的主要贡献总结如下。

•
面向未来的模块化。 支持无缝插入任何Transformer变体，无需更改周围模块。
•
在非平稳性下的鲁棒性。 RevIN显著降低了对市场制度转变、极端事件和规模变化的敏感性。
•
高效的长序列建模。 RevIN–CNN –(Transformer变体)–BiLSTM级联实现了高预测准确性，并且计算成本可控。
•
出色的跨市场泛化能力。 在四个不同的股票数据集上的实证结果表明，尽管训练和测试环境之间存在显著的分布差异，但仍能保持高预测准确性。

为了全面概述我们的研究方法和本研究中的综合评估过程，整体工作流程如图1所示。

本文的其余部分结构如下。第2节回顾了股票价格预测的相关工作。第3节描述了所提出的模块化架构，强调了其即插即用的Transformer能力。第4节介绍了实验设置和结果，包括基线比较、跨市场泛化测试和详细的消融研究。第5节总结了关键发现并提出了未来研究的方向。

股票价格预测的研究已经从传统的机器学习算法逐步发展到先进的深度神经网络，最近又朝着具有混合Transformer和多模态整合的模块化架构发展。每个阶段都带来了性能的提升，但仍面临未解决的挑战，包括对非平稳性的鲁棒性、计算效率以及有效处理长距离依赖性。

早期的努力依赖于

框架概述

我们设计了一个深度模块化框架RevIN-CNN-(Transformer Variants)-BiLSTM，以协调金融预测的三个相互冲突的要求：对非平稳性的鲁棒性、准确的长距离依赖性建模以及计算效率。对于输入张量

X \in R^{B \times T \times N} （批量大小

B，预测范围T，变量数量N），处理流程如下：

1.
可逆实例归一化（RevIN）去除时变的比例/偏移，然后将其恢复到原始单位。
2.
CNN提取短期

实验

本节分为两个主要小节，以确保清晰性和完整性。第4.1节（实验协议）详细介绍了数据集、预处理方法、评估指标和实现设置，而第4.2节（结果与分析）报告了实证发现，包括基线比较、跨市场验证和消融研究。

结论与未来工作

本文介绍了一个模块化的RevIN-CNN-(Transformer变体)-BiLSTM框架，旨在解决股票价格预测中持续存在的障碍，即高噪声、明显的非平稳性和复杂的时间依赖性。通过协同融合可逆实例归一化来减轻漂移、使用CNN提取局部模式、使用可互换的Transformer变体进行全局依赖性建模以及使用BiLSTM处理双向上下文，该框架实现了

数据和代码的可用性

本研究开发的源代码，包括所有用于数据预处理、模型训练、评估和统计测试的脚本，已公开发布，以确保完全的可复现性。代码托管在GitHub仓库中：https://github.com/DyeDye-diyung/Framework_for_Financial_Time-Series_Forecasting。本研究中分析的数据集来自公共的AKShare开源数据接口，以及下载和准备这些数据所需的脚本

CRediT作者贡献声明

黄玉明：概念化、方法论、软件、写作——原始草案。杨晨旭：监督、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

框架概述

实验

结论与未来工作

数据和代码的可用性

CRediT作者贡献声明

利益冲突声明

热点排行