股票交易的目标是根据买卖一家或多家公司股票的过程来优化资本市场的投资回报。当股价波动产生正差价时,交易者就能获利。然而,股票受到众多因素的影响,这构成了一个复杂的系统,使得人们难以盈利。由于市场的高度波动性和相互关联性,评估股票的趋势本身就具有挑战性(Wang等人,2022b)。因此,随着资本市场的发展,人们构建了许多策略和工具,其中量化策略发挥了重要作用。
一些传统的量化工具,如马科维茨投资组合理论(Markowitz,1952)和资本资产定价模型(CAPM)(Sharpe,1964),主要侧重于静态的基本分析。换句话说,这些策略旨在通过简单的计算和分析来获利。此后,随着计算机科学的发展,引入了更多的量化方法和工具。在这些方法中,基于因子的策略受到了广泛关注。1993年,法玛和弗伦奇(Fama & French,1993)提出了法玛-弗伦奇三因子模型(FF3),该模型在量化交易中产生了重要影响。2015年,法玛和弗伦奇对其模型进行了修订,提出了五因子资产定价模型(FF5)(Fama & French,2015)。除了这一经典理论外,几十年来还发表了大量的交易策略。例如,施、孔、杨、李和崔(Shi, Kong, Yang, Li, & Cui,2024)利用多因子模型构建了一个最优投资组合以捕捉未来的投资机会(FIO)。
基于因子的量化交易通常遵循两种主要方法,如图1所示。第一种方法涉及计算股票因子值。根据这些计算值对股票进行排名,形成一个池子。一旦这个池子建立起来,资产就会被持有预定的时间段。然后会在特定的时间间隔对投资组合进行调整,以确保其与不断变化的市场条件和因子读数保持一致。第二种方法使用一个固定的股票池,其中因子指导长期/短期信号的生成。交易者接收到因子信号后可以执行相应的操作,从而根据因子洞察对市场波动做出动态响应。
近年来,机器学习(ML)已成为交易算法和决策过程中的重要工具。ML方法使系统能够从数据中学习并做出决策,特别适用于庞大且动态的股票市场。例如,Nayak、Mishra和Rath(2015)利用基于手动指标的机器学习算法,但潜在的随机游走假设可能会妨碍理解本质上非平稳序列的任务。随着不同架构的出现,Feng等人(2019)引入了关系股票排名(RSR)来捕捉交易数据中的市场情绪。Kehinde、Adedokun、Kareem、Akpan和Olanrewaju(2025b)提出了关于LOESS(STL)和极端学习机(ELM)的高频金融预测模型。然而,现代ML模型在现实交易环境中也面临挑战,例如它们在同时实现预测准确性、计算效率和稳定交易性能方面的局限性(Kehinde、Chan和Chung,2023)。
尽管之前已有许多实验尝试在量化金融领域使用ML因子来获取市场情绪,但本研究仍面临两个困难。首先,在自然语言处理(NLP)领域,模型用于将文本中的单词通过词嵌入转换为词向量作为输入。然而,金融数据集不仅包含行业类型等分类数据,还包含价格波动、成交量和财务指标等定量数据。如果输入仅包含分类数据,时间序列可以被视为一个句子(Gorishniy、Rubachev和Babenko,2022)。在大多数情况下,输入将涉及数值数据,这些数据无法通过词嵌入进行转换。然而,在许多量化金融应用中,输入由连续的数值变量组成,这些变量不能通过为离散令牌设计的词嵌入自然表示。
其次,大多数NLP任务可以转化为序列到序列(seq2seq)问题,例如在机器翻译、对话系统和语音识别中。例如,Transformer架构就是基于seq2seq架构的(Vaswani等人,2017)。为了利用现有输出,Transformer中的解码器在训练过程中依次输出样本并使用掩码操作来处理输入序列。然而,在股票预测中,目标通常是准确预测一段时间内的未来回报,因此Transformer模型很少用于此类任务。
为了解决这些问题,我们提出了
quantformer,这是一种适应滚动量化数据和量化金融任务的改进型Transformer架构,并将其用作投资因子。Quantformer可以直接输入数值数据,这种方法类似于情感分析。我们的贡献体现在以下几个方面:
•我们提出了quantformer,其结构适用于以滚动股票相关时间序列数据作为输入,无需定位模块或词嵌入。新的线性嵌入结构更适合数值类型输入。
•根据我们的实验,在相同的时间段内,基于quantformer的因子在回测中的表现优于其他100个传统因子策略。因子通过各种指标进行评估,如年化回报、夏普比率和风险价值(VaR)。
•我们测试了quantformer在不同交易频率(每日、每周和每月)和标记方案(市场中20%、10%、5%和1%的股票比例)下的表现。这些实验表明,基于Transformer的模型在量化金融任务中具有强大的潜力。
本文的结构如下。第2节讨论了基于机器学习的先前量化金融工作。第3节和第4节介绍了quantformer。将训练并回测基于quantformer的因子。为了进行实际的回测,我们收集了过去14年(2010年至2023年)4,600多只股票的数据。为了全面测试因子的能力,我们按不同的频率划分数据(第4.2节)并在不同的训练规模下进行训练(第5.2节)。最后,第4节和第5节讨论了回测结果,包括quantformer因子与其他100个因子的比较以及从这种比较分析中获得的见解。