基于知识蒸馏和课程学习的、在概念漂移情况下的金融强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Decision Support Systems》：Financial reinforcement learning under concept drift based on knowledge distillation and curriculum learning

【字体：大中小】 时间：2026年02月16日 来源：Decision Support Systems 6.8

编辑推荐：

　　概念漂移问题在金融高频交易中的强化学习框架研究。提出环境情绪感知的框架，结合知识蒸馏和课程学习应对突发与渐进式概念漂移。实验显示在TAIEX期权数据上PnL-MAP提升38.17%，夏普比率提高0.07，维持库存风险稳定，检测到每周约一次的突发漂移事件。

王长安|黄祖豪|陈巧婷|方一棠

国立阳明交通大学信息管理与金融系，新竹市，300093，台湾

摘要

做市商通过持续以公开报价提供买卖订单来为金融市场提供流动性，同时从买卖价差中获利。为了应对这种高频序列决策问题，已经提出了多种深度强化学习算法。然而，在高度动态和复杂的金融环境中识别和解决机器学习系统的传统概念漂移问题一直是一项非常具有挑战性的任务。在本文中，我们提出了一种新型的强化学习框架，该框架结合了环境情感感知、课程学习和知识蒸馏技术。借助基于市场情感分析的突发概念漂移检测器，我们的交易模型能够在市场发生重大变化时重新调整自身结构。此外，我们还设计了一种新的课程学习方法，以提高在多样化时间段内的学习效率。知识蒸馏技术被用来提升代理处理日常渐进式概念漂移的能力。使用台股期权（TXO）数据进行的实验表明，我们的方法优于传统模型，实现了38.17%的盈亏比（PnL-MAP）提升和0.07的夏普比率（Sharpe ratio）提升，同时保持了可比的库存风险。在测试期间，大约每五个做市交易日（即每周一次）会检测到一次突发概念漂移事件。这也验证了基于情感感知强化学习框架的做市策略能够有效提升交易表现。

引言

强化学习（RL）通过与环境互动来试错式地开发最优交易策略[1]。这种方法对于高频交易（如做市）尤为重要。做市商通过持续以公开报价提供买卖订单来增强金融市场流动性，同时从买卖价差中获利。然而，快速变化的市场环境常常导致概念漂移问题，即市场条件基础分布的意外变化。为了解决这些挑战，我们提出了一种结合环境情感感知的新型强化学习框架，该框架融入了知识蒸馏和课程学习技术，旨在提升交易模型对金融市场概念漂移问题的适应能力。

在做市领域，深度强化学习（DRL）的应用显著增加，这得益于其发现市场数据中复杂模式的能力，并且与传统分析方法相比能够提供更高的风险调整回报。多项研究探索了不同的奖励函数来优化做市代理的性能[2]。此外，在状态表示和预测建模方面也取得了显著进展，从而增强了DRL代理的决策能力[3]、[4]。此外，还通过强化学习方法对现有模型进行了改进，以创建更加适应性和高效的市场做市策略[5]。

然而，在当前基于DRL的高频序列决策应用中，尚未充分解决机器学习系统在高度动态和复杂金融环境中的传统概念漂移问题。概念漂移可以分为两种主要类型：渐进式概念漂移和突发式概念漂移。渐进式概念漂移指的是市场行为随时间的缓慢、连续变化，而突发式概念漂移则是由重大事件或新闻引发的急剧、突然的变化。为了适应日常的渐进式概念漂移，提升交易模型的适应能力变得至关重要。另一方面，为了减轻突发式概念漂移造成的损失，及时识别变化并重新训练交易模型也非常重要。

为了解决上述问题，最初的开发重点是创建一个用于高频做市的机器学习模型。该系统必须同时应对复杂金融市场中实时系统效率和效果的实际与关键挑战，包括突发式概念漂移和渐进式变化。对于日常的渐进式变化，采用了知识蒸馏技术来智能指导历史环境的选择，以便微调交易模型。通过提升交易模型的适应能力，使其能够更好地应对新的市场情况。对于突发式概念漂移，进一步利用突发漂移检测器和课程学习框架来提高在不同时间段和广泛学习环境中的学习效率。这种方法利用市场情感分析在市场发生重大变化时及时调整交易模型。最后，为了实施前述方法的细节，使用了时间序列SSL来辅助完成市场情感分析，从而有效实现知识蒸馏和课程学习。

通过有效应对概念漂移，做市商能够及时调整其交易策略，从而提高交易效率。这在提升金融市场整体流动性方面发挥着重要作用。此外，适应概念漂移有助于市场参与者更有效地应对潜在的高风险情况。我们工作的主要贡献可以总结如下：

•
提出了一种结合环境情感感知、知识蒸馏和课程学习的新型强化学习框架，以解决金融交易策略中的概念漂移问题。
•
用于高频做市的机器学习必须同时应对复杂金融市场中实时系统效率和效果的实际与关键挑战，包括突发式概念漂移和渐进式变化。
•
采用知识蒸馏技术来智能指导历史环境的选择，以便微调交易模型，从而应对日常的渐进式概念漂移。
•
进一步利用突发漂移检测器和课程学习框架来提高在不同时间段和广泛学习环境中的学习效率。
•
实验结果表明，我们的方法在台股期权（TAIEX）数据上实现了38.17%的盈亏比提升，同时保持了相同的库存风险。

方法论

第3.1节概述了做市系统的架构和设计细节。第3.2节解释了时间序列自监督市场情感网络（TSSMSN）的实现细节。第3.3节介绍了做市任务的强化学习（RL）训练过程。第3.4节提供了知识蒸馏过程的详细信息。最后，第3.5节提供了关于课程学习的详细信息。

实验

在本节中，我们首先介绍了数据集、实验设置、评估指标和比较方法。为了验证我们方法的有效性并分析实验结果，第4.5节提出了四个研究问题并分别进行了探讨。我们的研究问题如下：

•
RQ1： 突发漂移检测器的阈值和模型更新频率的变化如何影响模型的整体性能？
•
RQ2： 我们的方法是否优于...

结论

在本研究中，我们提出了一种结合环境情感感知的强化学习框架，用于做市任务，该框架结合了知识蒸馏和课程学习技术，以解决金融市场中传统概念漂移问题的识别和解决挑战。我们的方法使交易模型能够动态适应日常的渐进式概念漂移和突发式概念漂移，并在市场发生重大变化时重新调整自身结构。

CRediT作者贡献声明

王长安：撰写——原始草稿、软件开发、方法论设计、形式分析、数据整理。黄祖豪：监督指导、资源获取、资金筹措。陈巧婷：撰写——审稿与编辑、项目管理。方一棠：撰写——审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了台湾国家科学技术委员会（NSTC）的支持，资助项目编号为：NSTC 113-2221-E-A49-157-MY3、NSTC 114-2221-E-A49-096-MY3和NSTC 114-2634-F-004-002-MBK，研究在国立阳明交通大学进行。此外，本研究还得到了NSTC的NSTC 114-2222-E-007-007-MY3项目的支持，研究在台湾国立清华大学进行。

王长安于2022年在台湾国立台湾科技大学获得信息管理学士学位，2024年在台湾国立阳明交通大学获得信息管理与金融硕士学位。他的研究兴趣包括深度学习、人工智能和金融科技。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题