Quantformer：从注意力机制到盈利——基于定量Transformer的交易策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Quantformer: from attention to profit with a quantitative transformer trading strategy

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本研究提出基于Transformer的量化模型quantformer，通过线性嵌入处理股票市场数值数据，解决传统因子策略在捕捉长时序依赖和融合多源数据上的不足。在2010-2023年中国A股市场4601只股票的超过500万条滚动数据中验证，该模型在年化收益、夏普比率等指标上显著优于100种传统因子策略，尤其在动态市场环境下展现出更强的适应性和预测精度。

张照峰|陈邦豪|朱胜新|尼古拉斯·朗格内

中国广东省/珠海市跨学科数据科学研究与应用重点实验室，北京师范大学-香港浸会大学，珠海市，519087，广东

摘要

在传统的量化交易实践中，应对复杂多变的金融市场一直是一个持续的挑战。对于学习算法来说，全面捕捉各种市场变量（包括长期信息）以及可能导致利润的关键信号仍然是一项艰巨的任务。为了解决这一挑战，本文介绍了一种基于Transformer的增强型神经网络架构——quantformer，用于构建投资因子。quantformer借鉴了情感分析的思想，不仅利用了其在捕捉长期依赖关系和建模复杂数据关系方面的固有优势，还能够处理数值输入，并准确预测给定时期内的未来回报。本研究收集了2010年至2023年间中国资本市场4,601只股票的超过500万条滚动数据。研究结果表明，该模型在预测股票趋势方面优于其他基于100个因子的量化策略。值得注意的是，quantformer创新性地使用类似Transformer的模型来建立因子，并结合市场情绪信息，显著提高了交易信号的准确性，为量化交易策略的未来发展提供了有希望的启示。实现细节和代码可在Github上找到。

引言

股票交易的目标是根据买卖一家或多家公司股票的过程来优化资本市场的投资回报。当股价波动产生正差价时，交易者就能获利。然而，股票受到众多因素的影响，这构成了一个复杂的系统，使得人们难以盈利。由于市场的高度波动性和相互关联性，评估股票的趋势本身就具有挑战性（Wang等人，2022b）。因此，随着资本市场的发展，人们构建了许多策略和工具，其中量化策略发挥了重要作用。

一些传统的量化工具，如马科维茨投资组合理论（Markowitz，1952）和资本资产定价模型（CAPM）（Sharpe，1964），主要侧重于静态的基本分析。换句话说，这些策略旨在通过简单的计算和分析来获利。此后，随着计算机科学的发展，引入了更多的量化方法和工具。在这些方法中，基于因子的策略受到了广泛关注。1993年，法玛和弗伦奇（Fama & French，1993）提出了法玛-弗伦奇三因子模型（FF3），该模型在量化交易中产生了重要影响。2015年，法玛和弗伦奇对其模型进行了修订，提出了五因子资产定价模型（FF5）（Fama & French，2015）。除了这一经典理论外，几十年来还发表了大量的交易策略。例如，施、孔、杨、李和崔（Shi, Kong, Yang, Li, & Cui，2024）利用多因子模型构建了一个最优投资组合以捕捉未来的投资机会（FIO）。

基于因子的量化交易通常遵循两种主要方法，如图1所示。第一种方法涉及计算股票因子值。根据这些计算值对股票进行排名，形成一个池子。一旦这个池子建立起来，资产就会被持有预定的时间段。然后会在特定的时间间隔对投资组合进行调整，以确保其与不断变化的市场条件和因子读数保持一致。第二种方法使用一个固定的股票池，其中因子指导长期/短期信号的生成。交易者接收到因子信号后可以执行相应的操作，从而根据因子洞察对市场波动做出动态响应。

近年来，机器学习（ML）已成为交易算法和决策过程中的重要工具。ML方法使系统能够从数据中学习并做出决策，特别适用于庞大且动态的股票市场。例如，Nayak、Mishra和Rath（2015）利用基于手动指标的机器学习算法，但潜在的随机游走假设可能会妨碍理解本质上非平稳序列的任务。随着不同架构的出现，Feng等人（2019）引入了关系股票排名（RSR）来捕捉交易数据中的市场情绪。Kehinde、Adedokun、Kareem、Akpan和Olanrewaju（2025b）提出了关于LOESS（STL）和极端学习机（ELM）的高频金融预测模型。然而，现代ML模型在现实交易环境中也面临挑战，例如它们在同时实现预测准确性、计算效率和稳定交易性能方面的局限性（Kehinde、Chan和Chung，2023）。

尽管之前已有许多实验尝试在量化金融领域使用ML因子来获取市场情绪，但本研究仍面临两个困难。首先，在自然语言处理（NLP）领域，模型用于将文本中的单词通过词嵌入转换为词向量作为输入。然而，金融数据集不仅包含行业类型等分类数据，还包含价格波动、成交量和财务指标等定量数据。如果输入仅包含分类数据，时间序列可以被视为一个句子（Gorishniy、Rubachev和Babenko，2022）。在大多数情况下，输入将涉及数值数据，这些数据无法通过词嵌入进行转换。然而，在许多量化金融应用中，输入由连续的数值变量组成，这些变量不能通过为离散令牌设计的词嵌入自然表示。

其次，大多数NLP任务可以转化为序列到序列（seq2seq）问题，例如在机器翻译、对话系统和语音识别中。例如，Transformer架构就是基于seq2seq架构的（Vaswani等人，2017）。为了利用现有输出，Transformer中的解码器在训练过程中依次输出样本并使用掩码操作来处理输入序列。然而，在股票预测中，目标通常是准确预测一段时间内的未来回报，因此Transformer模型很少用于此类任务。

为了解决这些问题，我们提出了quantformer，这是一种适应滚动量化数据和量化金融任务的改进型Transformer架构，并将其用作投资因子。Quantformer可以直接输入数值数据，这种方法类似于情感分析。我们的贡献体现在以下几个方面：

•

我们提出了quantformer，其结构适用于以滚动股票相关时间序列数据作为输入，无需定位模块或词嵌入。新的线性嵌入结构更适合数值类型输入。

•

根据我们的实验，在相同的时间段内，基于quantformer的因子在回测中的表现优于其他100个传统因子策略。因子通过各种指标进行评估，如年化回报、夏普比率和风险价值（VaR）。

•

我们测试了quantformer在不同交易频率（每日、每周和每月）和标记方案（市场中20%、10%、5%和1%的股票比例）下的表现。这些实验表明，基于Transformer的模型在量化金融任务中具有强大的潜力。

本文的结构如下。第2节讨论了基于机器学习的先前量化金融工作。第3节和第4节介绍了quantformer。将训练并回测基于quantformer的因子。为了进行实际的回测，我们收集了过去14年（2010年至2023年）4,600多只股票的数据。为了全面测试因子的能力，我们按不同的频率划分数据（第4.2节）并在不同的训练规模下进行训练（第5.2节）。最后，第4节和第5节讨论了回测结果，包括quantformer因子与其他100个因子的比较以及从这种比较分析中获得的见解。

部分摘录

初步介绍

本节简要介绍了关于股票预测与市场情绪以及基于机器学习（ML）方法的量化金融交易方法的发展的相关工作。

方法论

一些研究人员尝试改进Transformer以用于时间序列和量化金融应用，并提出了改进的模型（见表1中的时间序列论文），但仍有一些方面尚未考虑。对于时间序列类型的数据，如股票价格或每日回报，合理假设序列中的每个数据都会自动被分配一个“位置”，这与句子不同。基于这一观察，我们提出了位置编码模块

实验

在本节中，我们将测试前一节介绍的quantformer架构在股票价格预测方面的能力。我们将详细说明实验设置，包括数据资源、实现细节、交易策略和指标。

结果与讨论

在分析各个策略的基础上，本节对实验结果进行了评估和讨论。讨论重点关注不同时间频率（每月、每周和每天）和不同训练规模的效果比较。

结论

本研究提出了一种新的神经网络架构quantformer，该架构受到Transformer架构的启发，用于量化股票预测和交易。我们解决了处理数值金融输入数据的需求，而不是文本，并将模型调整为适用于预测任务，而不是NLP中常见的序列到序列问题。为了直接处理数值时间序列数据，我们用标准线性层替换了词嵌入层，并去除了输出掩码

未引用引用

图2。

CRediT作者贡献声明

张照峰：概念化、方法论、软件、资源、撰写——原始草稿、撰写——审阅与编辑、可视化。陈邦豪：软件、验证、资源、撰写——原始草稿。朱胜新：资源、撰写——审阅与编辑、监督、资金获取。尼古拉斯·朗格内：方法论、撰写——审阅与编辑、监督、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言