《Journal of Behavioral and Experimental Finance》:Google Trends—Augmented XGBoost for market volatility prediction: A machine learning early warning system
编辑推荐:
机器学习预警系统通过整合谷歌搜索注意力信号与传统波动性指标提升市场尖峰预测能力,在2004-2024年数据中验证了1个月领先预警(70.6%精度)和避险资产收益(3.32%系统回报),表现优于13种基准模型。
加甘·迪普(Gagan Deep)| 阿卡什·迪普(Akash Deep)| 斯韦特洛扎尔·T·拉切夫(Svetlozar T. Rachev)| 弗兰克·J·法博齐(Frank J. Fabozzi)
美国德克萨斯理工大学数学与统计系,卢博克,德克萨斯州
摘要 我们开发了GT-XGBoost,这是一种机器学习预警系统,它将谷歌搜索的关注信号与传统的波动性指标相结合,用于预测市场波动。利用2004年至2024年间关于经济衰退、金融危机、波动性和股市崩盘的月度搜索量指数,我们通过动量、加速度和综合关注度指标构建了行为特征。我们优化的模型能够提前一个月预测VIX指数飙升(≥ 30 ),其ROC AUC为0.745,在包括GARCH系列模型、随机波动性方法和实现波动性模型在内的十三个学术基准测试中表现出了竞争力。该系统在金融危机搜索中的准确率为70.6%,提供了一个月的领先指标(相关性:0.660)。通过对避险资产黄金价格的分析验证,该系统在波动性事件期间实现了3.32%的系统性回报。我们的研究结果表明,当行为关注信号(尤其是与经济衰退相关的搜索模式)与传统的波动性指标结合使用时,可以为机构风险管理提供重要的预测信息。
引言 金融市场波动性预测是一个关键挑战,对风险管理、资产定价和金融稳定具有深远影响(Christoffersen和Diebold,2000;Kelly和Jiang,2014)。在市场压力期间,波动性可能会急剧增加,使原本稳定的投资组合变成灾难性损失的来源。2008年的全球金融危机表明,传统模型系统性地低估了极端波动性事件(Bekaert和Hoerova,2014)。类似的失败也发生在2010年的闪崩、2015年的中国股市动荡以及2020年的COVID-19疫情中。
自Bollerslev(1986)引入GARCH模型以来,大量文献提出了复杂的模型来捕捉波动性的聚集性、杠杆效应和长期记忆特性(Hansen和Lunde,2005;Nelson,1991;Bollerslev,1990)。然而,这些模型在极端事件期间存在根本性局限性。Hansen和Lunde(2005)指出GARCH模型系统性地低估了危机期间的尾部风险,而Ang等人(2006)则发现这些模型无法捕捉到不对称的下行风险。尽管通过多变量模型(Bollerslev,1990)、随机波动性模型(Harvey等人,1998)和高频度量方法(Andersen等人,2007;Corsi,2009)进行了改进,但效果仍然有限。
行为金融学研究表明,当投资者对市场状况感到担忧时,他们会积极寻求信息,这种行为可能先于实际市场变动(Da等人,2011;Vlastakis和Markellos,2012;Dimpfl和Jank,2016)。信息寻求的数字化转型为实时观察投资者集体关注提供了机会(Choi和Varian,2012;Preis等人,2013)。与回顾性的市场价格不同,搜索行为能够捕捉到传统模型无法预测的前瞻性担忧。Tetlock(2007)证明媒体关注度可以预测波动性,而Baker等人(2016)则表明基于关注度的不确定性指标提供了独特的经济洞察。
尽管行为金融学和机器学习领域取得了进展(Chen和Guestrin,2016;Deep,2024),但目前还没有一个框架能够系统地将行为信号与波动性指标结合起来用于极端事件预警。鉴于实践者认识到没有一种单一的方法能够提供普遍适用的解决方案(Perron等人,2006),且专业框架通常针对不同的市场动态采用互补模型(Timmermann,2006),这一差距显得尤为关键。
我们通过开发一个综合框架来应对这些挑战,该框架利用XGBoost梯度提升算法将行为关注信号与波动性指标相结合(Chen和Guestrin,2016)。我们从谷歌趋势数据中提取特征,捕捉人们对经济衰退、危机、波动性和市场崩盘的集体关注中的动量和加速度。我们的方法将行为关注度视为多模型框架中的补充,提供了基于价格的方法无法捕捉到的洞察。
我们做出了四项贡献:(1)开发了一个特征工程框架,将搜索数据转化为预测信号;(2)针对包括计量经济模型(Hansen和Lunde,2005;Harvey等人,1998)和实现波动性方法(Corsi,2009;Andersen等人,2007)在内的现有基准进行了严格评估;(3)通过避险资产流动验证了经济意义(Baur和Lucey,2010);(4)建立了一个将行为信号整合到机构系统中的框架(Rapach等人,2010;Neely等人,2014)。
部分摘录 文献综述与理论框架 本节总结了四个推动我们综合框架的研究方向:传统波动性建模及其在危机时期的失败、行为金融学关于投资者关注的见解、机器学习在金融预测方面的进展以及预测组合方法。我们发现这些研究领域之间存在一个关键空白——即缺乏系统地将行为信号与波动性指标结合起来用于极端事件预测的框架。
数据与方法 图1概述了我们的分析流程,从数据收集到模型评估。
描述性统计与行为关注模式 我们的数据集包含252个月度观测值,其中68次VIX指数飙升事件(占样本的27.0%),涵盖了不同的市场环境。时间分布显示,在主要压力期间波动性呈现出聚集现象,最严重的事件发生在2008年金融危机(VIX峰值:89.53)和2020年疫情期间(VIX峰值:85.47)。图2展示了样本期间极端波动性事件的分布情况。
对行为关注模式的分析揭示了重要的预警信息。表2显示了……
行为金融学见解 研究结果支持了在不确定性条件下投资者关注度有限和寻求信息的理论。金融危机搜索结果的前一个月领先性符合Kahneman和Tversky(1974)的框架,即投资者在市场崩盘前会关注显著信息。经济术语优于技术术语的排序表明,投资者更倾向于用基本面而非统计术语来理解风险。
风险管理应用 GT-XGBoost通过多种渠道为机构带来价值。其一个月的领先时间使得……
结论 本研究证明,通过机器学习将行为关注信号与波动性指标相结合可以提升极端波动性的预测能力。GT-XGBoost的ROC AUC为0.745,在十三个学术基准测试中表现优异,准确率为70.6%,并且通过系统的避险资产流动验证了其预警效果。
我们的贡献包括:开发了系统化的特征工程方法,将搜索数据转化为预测信号;
CRediT作者贡献声明 加甘·迪普(Gagan Deep): 撰写 – 审稿与编辑、初稿撰写、可视化、验证、方法论、调查、形式分析、数据整理、概念化。阿卡什·迪普(Akash Deep): 撰写 – 审稿与编辑、验证、软件开发、方法论、调查、形式分析、概念化。斯韦特洛扎尔·T·拉切夫(Svetlozar T. Rachev): 撰写 – 审稿与编辑、监督、方法论、概念化。弗兰克·J·法博齐(Frank J. Fabozzi): 撰写 – 审稿与编辑、监督、概念化。
资金来源 本研究未获得公共部门、商业部门或非营利组织的任何特定资助。
利益冲突声明 作者声明没有已知的利益冲突或个人关系可能影响本文的研究结果。