《Expert Systems with Applications》:Beyond random walks: exploring the learnability threshold of AI agents in algorithmic markets
编辑推荐:
可学习阈值与规则基础 heuristics 的对比研究表明,DRL 代理在模拟市场环境中难以有效利用长记忆动态,反而易陷入亏损或停滞,而传统 heuristic 能稳定获取风险调整收益,揭示统计可检测性与经济可利用性的本质差异,提出 DRL 应作为诊断工具而非独立盈利引擎。
Sami Kü?üko?lu
伊斯坦布尔商业大学,金融研究所,土耳其伊斯坦布尔
摘要
金融市场存在统计学上可检测的模式,但这些模式的经济可利用性仍不确定。本研究提出了“可学习性阈值”,即超过这一阈值的模式无法为人工智能代理带来正的净成本回报。本研究在存在交易成本的模拟市场中,比较了基于规则的启发式方法和近端策略优化(PPO)代理(分别以“白板”状态训练和通过模仿学习)。为了确保研究的稳健性,进行了对齐路径评估,并测试了更丰富的观察空间。结果表明,深度强化学习(DRL)代理始终无法利用长期记忆动态,导致行为停滞或亏损;而启发式方法则能够实现稳定的风险调整回报。这些发现正式区分了统计可检测性和经济可利用性,并将DRL重新定位为一种诊断性决策支持工具,用于识别不可利用的市场机制,而不仅仅是一个独立的盈利引擎。
引言
金融资产价格的稳定性是经典金融理论最早关注的问题之一。这一争论主要围绕两个相互排斥的观点:有效市场假说(EMH),认为价格随机波动(Fama, 1970);以及分形市场假说(FMH),认为市场具有长期模式且可预测(Mandelbrot, 1963, Peters, 1994)。本文的贡献不在于探讨这些模式是否存在,而在于它们在现实世界中是否对智能代理有用。
深度强化学习(DRL)最近成为实现这一目标的主要工具。由于其无模型和自适应的特性,DRL代理在理论上非常适合检测和利用分形市场假说提出的潜在非线性结构(Sutton & Barto, 2018)。然而,现有的大部分金融DRL文献都是在忽略了关键现实世界摩擦因素的模拟环境中评估代理的,这引发了对其策略稳健性的质疑(Fischer, 2018)。
本文通过比较两种不同的战略哲学来填补这一方法论空白。第一种是基准启发式方法,即一套透明的、基于规则的指令,旨在编码经验丰富的交易员的决策原则;第二种是通过模仿学习训练的DRL代理,用于复制该启发式方法的决策。为了探究这两种方法的独特特性,它们在各自的标准环境中进行了评估。基准启发式方法在噪声较大的复杂分数布朗运动(fBm)市场中进行了测试,以检验其稳健性;相比之下,DRL代理在其原始的、基于GBM的环境中进行了评估,这种环境代表了该领域的许多基础研究(例如Jiang等人,2017年),并且经常因其缺乏真实性而受到批评(Fischer, 2018),以便分析其学习策略的能力和脆弱性(图1)。
这种细致的实验设计使研究能够超越简单的性能比较,探讨一系列更基本的研究问题:
问题1:
RQ1: 在具有现实摩擦的噪声较大、复杂的市场环境中,简单的基于规则的启发式方法能否表现出稳健的性能?
RQ2:
RQ2:DRL代理能否通过模仿学习成功学习并复制复杂的启发式方法的逻辑?即使在理想化的环境中,这种学习到的策略也存在哪些依赖于具体环境的局限性?
RQ3: 这两种方法之间的性能差异揭示了金融异常的“可学习性阈值”是什么?以及人类设计的规则与机器学习策略在策略制定中的各自作用是什么?
对这些问题的研究带来了本文的三项主要贡献:方法论上,它展示了使用细致的双环境框架评估代理稳健性与脆弱性的价值;理论上,它引入并验证了“可学习性阈值”作为金融领域DRL的关键概念;实践上,它重新定义了DRL作为分析工具的角色,用于测试人类设计策略的边界,并促进更稳健的混合模型的发展。
本文的其余部分安排如下:第2节回顾相关文献,第3节详细说明方法论框架,第4节展示实证发现,第5节讨论其意义,第6节进行总结。
文献综述
文献综述
本研究的理论基础建立在三个相互关联的文献流派的交汇点上:关于金融市场效率的长期争论、使用分形分析来模拟非高斯市场动态,以及深度强化学习(DRL)在不确定性下的金融决策中的应用。
方法论
本研究采用计算模拟框架来研究基于规则的基准启发式方法与基于学习的DRL代理之间的相互作用。实验设计系统地比较了这两种战略哲学在受控、简化市场条件下的表现。本节详细阐述了使用模拟环境的理由、两种代理的架构以及实验测试平台的特定设计。
研究结果
比较性能结果按照方法论顺序呈现。首先通过“白板”状态的结果验证了“可学习性阈值”,随后通过详细分析对比了基准启发式方法和模仿学习代理的表现。
讨论
本研究的结果对金融异常评估和基于AI的策略开发的理论与实践具有重要的意义。本节将这些结果与基础文献联系起来,阐明了本文的理论贡献及其局限性。
本文始终使用“可学习性阈值”作为核心概念术语,而“异常陷阱”一词则用于描述特定的失败模式。
结论
本研究源于金融经济学中的一个重要问题:是否有可能创建一个由分形市场假说明确定义的高级学习代理(DRL),以应对复杂的世界?随着方法论逐步回答这个问题,逐渐明确了两种不同战略哲学(基于规则的启发式方法和通过模仿学习的DRL代理)的本质及其差异。
伦理批准
本研究是一项基于合成数据生成和模拟的计算工作,未涉及人类参与者、动物实验对象或个人数据,因此不需要机构伦理批准。
未引用参考文献
Byrd等人,2020年;Lo和MacKinlay,1988年。
CRediT作者贡献声明
Sami Kü?üko?lu:概念化、方法论设计、形式分析、数据收集与整理、可视化、初稿撰写、审稿与编辑、指导。
资金支持
作者未为此项工作获得任何特定资金支持。
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文所述的工作。