一种高效的大数据框架,通过神经网络和大型语言模型来验证高频市场中的随机游走假设

《Expert Systems with Applications》:An Efficient Big Data Framework for Validating the Random Walk Hypothesis in High-Frequency Markets via Neural Networks and Large Language Models

【字体: 时间:2026年02月02日 来源:Expert Systems with Applications 7.5

编辑推荐:

  金融市场效率研究提出MART框架,通过机器学习模型预测性能评估随机游走假设,发现高频数据下神经网络显著优于大语言模型,揭示市场效率存在频率依赖性偏差。

  
孙月月|苏秋硕|苏丹|萧邦勇|王俊民
北京工业大学数学与统计学院,中国北京

摘要

金融市场效率问题通常通过随机游走假说来形式化,这仍然是量化金融领域的核心议题。尽管传统的统计测试方法严谨,但它们往往无法提供关于市场价格实际可预测性的深入见解。为了补充这些测试,我们提出了“机器学习市场随机性测试”(MART)框架,这是一种基于预测的有效框架,通过机器学习模型的方向预测能力来评估市场效率。在该框架中,简单的神经网络(NN)和大型语言模型(LLM)被用作预测代理,以验证所提出方法的有效性。LLM模块进一步采用了紧凑的批量处理和迭代总结技术,能够高效处理大规模的高频数据集,同时降低计算成本并防止信息泄露。将MART框架应用于十个主要全球股票指数的高频数据(以tick、1分钟、5分钟和15分钟为间隔)的实证结果表明,市场效率存在频率依赖性的偏差。在更细的时间分辨率下——尤其是在tick、1分钟和5分钟级别——MART识别出了与经典统计测试一致的统计显著的可预测性,并通过基于NN的预测转化为具有经济意义的累积回报,而基于LLM的实现则在少样本条件下未能展现出可比的预测性能。总体而言,MART建立了一种通用且基于统计学的市场效率测试方法,将预测建模与正式推断相结合,并提供了关于随机游走假说频率依赖性偏差的新实证证据。

引言

有效市场假说(EMH)(Fama, 1970)认为所有可用信息都已充分反映在资产价格中,因此投资者无法基于已知信息持续获得超额回报。作为现代金融理论的基石,EMH影响了全球的投资策略、交易行为和监管框架(Basse, Klein, Vigne, Wegener, 2021, Li, Miu, 2022)。EMH的一个直接推论是随机游走假说,该假说认为资产价格按照类似随机游走的随机过程演变,这意味着未来的价格变化是独立且不可预测的(Godfrey, Granger, & Morgenstern, 1964)。因此,测试随机游走假说提供了一种严格且基础的市场效率评估方法。
大量的实证研究在不同市场检验了随机游走假说。早期研究主要集中在美国和西欧等成熟市场(Corovei, 2019, Erdem, Ulucak, 2016),而后续研究扩展到了信息不对称性和制度摩擦更为普遍的新兴市场(Shet, Padyala, Bommadevara, 2023, Wan, Shen, Zhang, 2023)。例如,Dias等人(2020)发现全球指数之间存在混合结果:道琼斯指数和上证综合指数拒绝了随机游走假说,而西班牙的IBEX35指数和爱尔兰的ISEQ指数则支持这一假说。在中国,Wan等人(2023)表明T+1交易机制改变了日内回报动态,导致了与随机游走行为不一致的系统性动量效应。类似的研究也在外汇(Lyu, 2022, Pincheira-Brown, Neumann, 2020)、商品(Joshi, Mehta, 2023, Mohanty, Mishra, 2020)和加密货币市场(Kang, Lee, Park, 2022, Palamalai, Kumar, Maity, 2021)中进行过。
传统的测试方法——如单位根检验、方差比检验和运行检验——主要评估金融时间序列的结构特征,关注平稳性、方差行为或序列相关性等属性(Aggarwal, 2019, Al Hamdooni, 2023, Altahtamouni, 2023, Karima, Mimoun, Moufdi, 2022, Kucukkaplan, Kiltc, Pazarci, Kar, 2023, Mallesha, Archana, 2023)。虽然这些方法在理论上严谨,但它们只能提供市场效率的间接证据,可能在反映实际的可预测性方面不够直观。
为了提供更直接和易于解释的评估方法,我们提出了“机器学习市场随机性测试”(MART)——这是一种基于预测性能的有效框架,通过预测准确性而非结构假设来评估市场效率。MART直接检验学习模型在预测资产回报时是否能够达到统计上显著的可预测性。如果模型的方向准确性显著超过随机基准(50%),则拒绝随机游走假说。在该框架中,传统的统计测试作为辅助验证工具,用于验证基于机器学习的结果的稳健性和可解释性,从而在经典计量经济学推断和数据驱动的预测评估之间建立了一致的桥梁。
在该框架中,我们使用两类代表性的机器学习模型——大型语言模型(LLM)和简单的前馈神经网络(NN)作为预测代理,以验证所提出的MART方法的有效性。我们的实验集中在少样本预测上,其中LLM仅提供有限的历史序列作为上下文。尽管LLM在推理和语言理解方面具有很强的泛化能力,但在高频金融预测中它们未能达到统计上显著的可预测性,表明仅凭语言知识无法有效转化为数值可预测性。
相比之下,嵌入在MART框架中的简单前馈NN在多个指数和频率上展示了统计上显著的预测准确性。为了进一步评估MART的稳健性,我们将基于NN的实现与Encompassing Test(Chong, Hendry, 1986, Darrat, Zhong, 2000)进行了比较,后者是一种现有的基于神经网络的随机游走假说测试方法。比较表明,MART提供了更准确和易于解释的随机性偏差证据,突显了其作为评估市场效率的基于预测性能的框架的优势。
本研究的主要贡献总结如下:
一种新颖的市场效率测试框架:我们提出了“机器学习市场随机性测试”(MART)框架,这是一种从机器学习角度评估随机游走假说的通用且基于预测的方法。
  • LLM预测能力的实证验证:
    通过系统的少样本实验,我们证明了大型语言模型(LLM)在高频金融预测中无法达到统计上显著的可预测性,突显了它们在噪声较大、信号较弱环境中的适应能力有限。
  • 神经网络作为统计测试的直观补充:
    在MART框架中,简单神经网络作为传统统计测试的有效补充,从更直观、基于可预测性的角度评估随机游走假说。
  • 面向效率的LLM模块设计:
    为了解决基于LLM的预测在计算和可扩展性方面的挑战,我们引入了一种基于概率的评估策略和紧凑的批量处理机制,大幅减少了令牌消耗,同时保持了统计有效性和模型间的可比性。
  • 全面的统计和经济验证:
    MART结合了正式的假设检验(通过三西格玛规则和准确性分布推断)以及来自主要全球股票指数的tick、1分钟、5分钟和15分钟数据集的累积回报分析,揭示了随机游走假说的频率依赖性偏差和具有经济意义的预测收益。
  • 本文的结构如下:第2节回顾了关于随机游走假说和机器学习模型在市场效率测试中的应用的相关研究。第3节详细介绍了所提出的MART框架,包括其神经网络和大型语言模型组件。第4节报告并讨论了不同频率水平的实证发现。最后,第5节总结了研究结果并提出了未来研究的潜在方向。

    随机游走假说的经典测试

    传统的计量经济学方法——如单位根检验、多重方差比检验和运行检验——长期以来一直是评估金融市场随机游走假说的基础工具(Aggarwal, 2019, Al Hamdooni, 2023, Altahtamouni, 2023, Karima, Mimoun, Moufdi, 2022, Kucukkaplan, Kiltc, Pazarci, Kar, 2023, Mallesha, Archana, 2023)。然而,绝大多数现有研究将这些技术应用于低频数据,未能充分探索它们在高频数据中的适用性。

    数据描述

    我们收集了十个主要全球股票指数的原始价格序列:
  • 亚太地区:
    中国 Securities Index 300 (CSI300)、恒生指数 (HSI)、东京日经225 (N225)、标准普尔/ASX 200 (XJO);
  • 北美:
    道琼斯工业平均指数 (DJIA)、纳斯达克综合指数 (NASDAQ)、标准普尔500 (SPX);
  • 欧洲:
    富时100指数 (FTSE 100)、法国CAC 40指数 (FCHI) 和德国DAX 40指数 (DAX)。
  • 分钟级频率数据(1分钟、5分钟和15分钟间隔)来自Wind1。由于大多数交易所报告的股票指数频率较低

    结果与讨论

    本节对提出的“机器学习市场随机性测试”(MART)框架进行了全面的实证评估。在第3节建立的理论基础上,我们旨在评估不同机器学习模型在MART框架内的预测效果以及该框架作为市场效率测试工具的有效性。
    具体来说,第4.1节比较了NN和四种LLM(DS-V3、GPT-3.5、GPT-4o和Grok 3)在不同场景下的表现

    结论

    本研究提出了一种基于预测的市场效率测试框架,称为“机器学习市场随机性测试”(MART),它从机器学习的角度评估随机游走假说。与依赖时间序列结构特征的传统统计测试不同,MART直接检验预测模型的方向准确性是否显著高于随机基准,从而提供了一种更直观且基于实际的数据驱动方法。

    未引用的参考文献

    缺失的参考文献:图E.14

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号