基于战略风险的布伦特原油价格预测：计量经济学模型与机器学习模型的比较分析图杰·埃基兹·耶尔马兹（Tu??e Ekiz Y?lmaz）和杰马尔·泽希尔（Cemal Zehir）

《Entropy》：Strategic Risk Based Forecasting of Brent Crude Oil Prices: A Comparative Analysis of Econometric and Machine Learning Models Tu??e Ekiz Y?lmaz and Cemal Zehir

【字体：大中小】 时间：2026年05月10日 来源：Entropy 2

编辑推荐：

　　**摘要** 布伦特原油价格具有重要的战略意义，因为它们对地缘政治发展、金融市场压力和全球货币状况极为敏感。本研究探讨了战略风险指标是否能够在综合计量经济学和机器学习框架内提高布伦特原油收益预测的准确性。研究使用了2001年1月至2025年12月的月度数据，以全球地缘政治风险

　　**摘要**
布伦特原油价格具有重要的战略意义，因为它们对地缘政治发展、金融市场压力和全球货币状况极为敏感。本研究探讨了战略风险指标是否能够在综合计量经济学和机器学习框架内提高布伦特原油收益预测的准确性。研究使用了2001年1月至2025年12月的月度数据，以全球地缘政治风险指数（GPR）、CBOE波动率指数（VIX）和美国10年期国债收益率（DGS10）作为关键解释变量。在方法论上，分析首先估计了基准计量经济学模型，包括ARIMAX（带解释变量的自回归积分滑动平均模型）和ARIMAX-gjrGARCH（Glosten-Jagannathan-Runkle广义自回归条件异方差模型），然后实施了机器学习模型，即XGBoost（极端梯度提升）、LightGBM（轻量级梯度提升算法）和随机森林，以捕捉潜在的非线性关系。通过sMAPE（对称平均绝对百分比误差）在滚动起始框架下评估了多个预测时期的预测性能。在多个预测时期和训练-测试分割配置中，实证结果一致表明，尤其是LightGBM在内的机器学习技术在样本外预测方面具有更高的准确性。这些发现表明，布伦特原油收益的动态受到宏观经济条件、金融不确定性和地缘政治风险之间复杂非线性关系的影响。研究结论是，在战略风险条件下，灵活的数据驱动预测框架比基准计量经济学模型具有更强的预测能力，并为能源市场风险管理和政策决策提供了有用的启示。

**1. 引言**
原油价格是全球经济活动、金融市场和能源政策的关键战略指标。油价波动直接影响通货膨胀、经济增长、贸易平衡和金融稳定；因此，对可靠预测模型的需求持续增加。初步研究表明，油价序列表现出与金融时间序列相似的特性，如高波动性、重尾分布和波动聚集[1]。此外，结构断裂和制度转变使得通过线性和恒参数模型难以完全捕捉石油市场动态[2]。这种复杂的结构促使文献中发展了分解、混合建模和集成学习方法。利用变分模态分解、独立成分分析和灰波技术的模型旨在捕捉油价序列的多组分特征[3,4,5]。同样，二次-残差融合方法[6]、日内混合方法[7]和集成学习技术[8,9]代表了旨在提高预测性能的重要方法论进展。
近年来，机器学习（ML）和深度学习（DL）方法在油价预测文献中获得了显著关注。研究显示，ML算法能更有效地捕捉非线性关系[10]。XGBoost（极端梯度提升）方法和基于树的集成模型在油价预测中表现出优越的预测性能[11,12,13]。另一方面，深度学习架构因其建模复杂时间依赖性的能力而得到广泛应用[14,15,16]。
ML方法的应用范围已超越了单纯的油价预测，扩展到包括黄金价格预测[17]、股票市场预测[18,19]和金融不确定性下的资产定价[20]等领域，显示出这些方法在金融体系中的广泛使用。在能源领域，ML应用已扩展到排放预测[21]、石油消费预测[22]、工业过程建模[23]和基础设施风险分析[24,25]等方面。

**2. 文献综述**
历史上，原油价格预测一直是能源经济学和金融学的重要研究领域；然而，近年来该学科在方法论和理论上经历了显著变革。初步的实证研究表明，油价序列具有金融时间序列的典型特征，如高波动性、重尾分布和波动聚集[1]。布伦特原油市场的证据表明，价格分布呈重尾特性，波动聚集现象明显，对冲击的响应是非对称的[1]。重尾分布意味着价格波动产生极端值的频率高于正态分布预期；换句话说，价格大幅上涨和下跌的发生概率更高。这些特征表明市场对突发冲击极为敏感，极端波动具有系统性的特征。此外，油价随时间显示出结构断裂和制度转变，表明线性和恒参数模型可能无法充分描述这些复杂动态[2,42]。这种复杂结构促进了分解和混合建模方法在文献中的发展。将时间序列分解为多个频段并使用适当模型预测每个频段的方法已被证明可以提高预测准确性。值得注意的例子包括利用变分模态分解和独立成分分析的研究[3]、基于灰波的多步预测模型[5]以及二次-残差融合方法[6]。类似的，基于独立成分分析的混合模型[7]和集成方法[9]支持油价动态的多组分特性。最近基于独立成分分析的方法通过将油价形成机制分解为其基本组分来提高建模精度[43]。此外，将分形和多重分形特征整合到机器学习模型中已成为一种新方法，有助于更准确地呈现时间序列的复杂多尺度动态并提升预测性能[44]。
近年来，ML和DL算法在油价预测中的应用显著增加。对经典ML模型的比较分析表明，ML方法能更有效地捕捉非线性关系[10]。XGBoost方法在油价预测文献中尤为突出[11,12,13]。深度学习架构因其捕捉复杂时间依赖性的能力而得到广泛应用[14,15,16]。集成学习方法通过整合模型多样性来提高预测准确性[8,9]。混合ARIMAX-LSTM框架通过同时建模线性和非线性组分进一步提高了预测准确性[46]。早期基于人工神经网络的方法是ML在油价预测中应用的先驱。基于ANFIS的预测研究展示了人工智能驱动方法在油价建模中的历史发展[47]。
ML方法的流行不仅限于油价预测，还扩展到了金融和能源领域的更广泛应用。在金融市场中，ML方法产生了大量文献，涵盖黄金价格预测[17]、股票市场价格波动建模[18,19]以及在金融不确定性下的资产价格分析[20]。这些进展表明，数据驱动的学习算法能够更准确地表示金融资产定价的复杂和非线性结构。在能源领域，ML应用已扩展到排放预测[21]、石油消费预测[22]、工业过程建模[23]和基础设施风险分析[24,25]等领域。

**不确定性及风险指标在油价文献中的作用**
不确定性及风险指标在油价文献中起着关键作用。衍生品市场信息和波动率指标是影响油价波动性的关键因素[26,27]。地缘政治风险、经济政策不确定性和金融市场压力指标对油价和波动性的影响已在文献中得到广泛研究[28,29,30,31,32]。地缘政治冲击（如战争）已被证明会影响模型性能[33]。石油市场与金融系统的整合以及波动性和风险传递机制的动态在之前研究中受到了广泛关注[34,35,36,37,38,39,40]。然而，文献回顾显示，大多数研究要么仅关注机器学习方法，要么完全依赖计量经济学模型，或者仅使用一维不确定性指标。同时研究多维战略风险指标（如金融市场不确定性（VIX）、地缘政治风险（GPR）和宏观经济利率渠道（DGS10）并评估它们在计量经济学和机器学习框架中对布伦特原油价格预测贡献的研究很少。这种观点与结构化石油市场文献一致，该文献强调并非所有油价冲击都具有相同的经济解释，并可能源自不同来源[41]。在本研究中，“战略风险”指的是共同影响石油市场动态的一组外部风险因素。具体来说，它涵盖了三个不同但相关的维度：地缘政治风险、金融市场不确定性和宏观经济条件，这些维度分别通过全球地缘政治风险指数（GPR）、CBOE波动率指数（VIX）和美国10年期国债收益率（DGS10）来体现。这种澄清旨在提高概念透明度并避免潜在的歧义。因此，战略风险不是被视为单一的均质因素，而是多种不确定性来源的结构性表示。

**3. 方法论**
除了传统的基于波动性的风险指标外，熵的概念为衡量金融市场和能源市场中的不确定性、无序性和信息含量提供了理论框架。从信息论的角度来看，油价对地缘政治和金融冲击的反应可以视为一个由波动信息复杂性和不确定性传递定义的系统。因此，高不确定性时期可能与市场信号中的熵增加相关，表明回报生成机制更加混乱和难以预测。
本研究利用2001年后的月度数据，基于金融、地缘政治和宏观经济风险指标，在计量经济学和机器学习框架下预测布伦特原油价格。具体而言，采用了ARIMAX模型和一系列基于树的机器学习模型（包括XGBoost、Light Gradient Boosting Machine（LightGBM）和随机森林），以对比评估预测性能。通过这种方式，本研究旨在为基于战略风险的油价预测领域提供分析和实证贡献。此外，研究石油产品价格与原油价格之间关联性的研究表明，价格传导机制通过精炼利润、需求结构和市场预期来发挥作用，而且这种关系具有短期预测能力[53]。最后，关于能源商品波动性预测的研究越来越多地比较了机器学习（ML）和计量经济模型。来自广义自回归条件异方差性（GARCH）模型与支持向量回归（SVR）比较的证据表明，ML技术在波动性建模方面具有竞争力[54]。此外，关于市场崩盘预测[55]和风险特征分类[56]的研究展示了ML在识别金融风险事件方面的有效性。总体而言，这一全面的文献强调了ML和混合方法在油价预测中的重要性，突出了不确定性指标的关键作用，并强调了考虑与金融系统联系的必要性。然而，同时利用金融不确定性指标（VIX）、地缘政治风险指数（GPR）和宏观金融利率指标（DGS10）通过计量经济和ML模型来预测布伦特原油价格的研究仍然有限。本研究旨在填补这一空白，并为现有文献做出贡献。

3. 数据和方法论
本研究旨在使用战略风险指标预测布伦特原油价格，并在比较框架内考察统计时间序列建模和基于机器学习的方法。分析使用了对2001年1月至2025年12月期间按月构建的数据集进行，共获得300个观测值。该方法论框架旨在捕捉能源市场的非线性、多组分和高不确定性动态。在汇总过程中，通过排除缺失值（na.rm = TRUE）来处理每月内的缺失观测值。没有应用插值或数据插补程序以保持金融时间序列的随机特性。

布伦特原油价格的月对数收益率被作为因变量。每日布伦特现货价格来自美国圣路易斯联邦储备银行（FRED）数据库，并转换为月平均值[57]。这种汇总确保了与战略风险指标的时间对齐，并减少了过度的高频噪声。因此，月对数收益率的计算公式如下：
(1)
其中：表示时间t的布伦特原油价格月收益率（百分比），代表时间t的布伦特原油月平均价格，表示前一个月的布伦特价格，是自然对数运算符。这种转换是为了实现平稳性，消除规模差异，并在减轻过度方差影响的同时对称地衡量百分比变化。

模型框架建立在文献中确定的三个主要战略风险渠道上，这些渠道被认为是石油市场的关键驱动因素。地缘政治风险使用[58]开发的全球地缘政治风险指数（GPR）进行衡量。GPR变量使用来源数据集提供的原始指数形式。由于该指数在某些子时期可能表现出非平稳行为，因此进行了标准单位根检验（ADF和PP）。为了确保与预测设计的一致性并减轻潜在的非平稳性问题，该变量以滞后形式纳入实证模型中。金融市场不确定性通过CBOE波动率指数（VIX）来代理，这是广泛使用的市场波动性指标[59]。货币政策和宏观金融条件通过美国10年期国债收益率（DGS10）[60]来纳入。数据构建中的一个关键考虑因素是跨变量的数据频率对齐。GPR指数本质上是每月频率的，而VIX和DGS10原本是每日频率的。为了确保时间一致性和避免预测框架中的混合频率偏差，所有变量都被聚合到共同的月频率。具体来说，VIX和DGS10的日观测值被转换为月平均值。这种汇总允许在统一的预测结构中整合宏观金融和地缘政治指标。虽然月聚合有助于减少高频噪声并确保变量间的一致性，但也可能平滑短暂的市场波动和金融或地缘政治条件的突然变化。这种权衡被认为是数据构建过程的一个局限性。

数据集按时间顺序分为训练子集和测试子集，其中80%的观测值用于模型估计，其余20%用于样本外预测评估。这种设计保留了数据的时间顺序，防止了前瞻性偏差。此外，还考虑了75-25%和70-30%的训练-测试分割作为替代方案，以评估比较预测结果在不同样本划分下的稳定性。

本研究采用了两种不同的建模方法来评估战略风险指标在布伦特原油回报中的预测作用。首先，使用ARIMAX模型联合考察油回报的自回归结构和战略风险变量的同期效应。这一规范作为基准线性框架，捕捉自相关动态以及外源性风险因素的线性影响。除了基准ARIMAX规范外，还通过残差诊断进一步评估了模型的充分性。残差中的波动聚集现象促使模型扩展以纳入条件异方差性。因此，ARIMAX模型增加了GARCH结构，因为残差诊断提供了自回归条件异方差性（ARCH）效应的强烈证据，表明常数方差的假设被违反，波动性随时间演变。在本研究中，GARCH组件被纳入以明确建模布伦特原油回报的条件方差动态，这些回报表现出众所周知的 stylized 事实，如波动聚集和时变不确定性。金融时间序列，特别是商品回报，其特点是高波动性和低波动性周期，在常数方差假设下无法充分捕捉。因此，ARIMAX-GARCH规范通过允许误差项的方差随时间演变来扩展基准ARIMAX模型。这使得模型能够捕捉冲击的持久性和油市场波动性中的聚集行为。因此，纳入GARCH结构的动机是建模风险动态和不确定性传播，而不是直接改进条件均值的点预测。虽然均值方程与ARIMAX公式相同，但GARCH模型是在ARIMAX均值方程的残差上估计的，以便分别建模条件方差，而不改变均值预测结构。方差方程的指定如下：
(2)
其中：表示时间t的条件方差（百分比），表示滞后平方残差，是滞后条件方差，是代表长期方差水平的常数项，是捕捉过去冲击短期影响的ARCH参数，是反映波动性通过滞后条件方差持续性的GARCH参数。参数衡量新冲击对当前波动性的影响强度，而捕捉过去波动性随时间的传递程度。的高值表明波动性具有很强的持续性，这是金融时间序列的常见特征。为了模型的稳定性和方差过程的平稳性，必须满足条件。

其次，实施机器学习算法来建模油市场中的潜在非线性和交互效应。这些方法近似于以下形式的灵活非线性映射：
(3)
其中：表示时间t的布伦特原油回报预测值，是集成中的决策树总数，表示第m个决策树学习器，是用于预测时间t的布伦特原油回报的特征向量，仅使用时间t-1之前的信息构建，包括滞后回报和滞后外源性风险指标。

3.1. 随机森林（Bagging框架）
随机森林[61]代表bagging范式，通过自助重采样和随机特征选择构建多个不相关的决策树。最终预测是通过跨树的聚合得到的，这主要降低了方差并增强了泛化性能，特别是在噪声较大的金融环境中。

3.2. 梯度提升家族：XGBoost和LightGBM
相比之下，XGBoost[62]和LightGBM[63]属于梯度提升家族，其中树是顺序构建的，以最小化预定义的损失函数。提升方法迭代地改进前一个学习器的错误，从而专注于偏差减少并能够捕捉复杂的非线性交互。XGBoost结合了显式的正则化来控制模型复杂性，而LightGBM采用叶节点生长策略，在高维设置中提高计算效率。

为了便于应用无法直接处理原始时间序列观测值的基于树的算法，将预测问题重新构建为监督学习框架。在这个框架内，向模型提供了两个主要的信息来源：
- 自相关动态（滞后特征）：使用八个滞后观测值将布伦特原油回报的过去值作为输入特征。这些滞后特征捕捉了序列的内部动态、短期记忆、动量效应和潜在的持续性模式。这种结构使模型能够学习近期波动和中期时间依赖性。滞后回报变量的选择受到自相关的指导。PACF函数在滞后1处表现出一个主导峰值，随后在高滞后处逐渐减少的部分自相关性，表明这是一个短记忆过程。然而，为了允许机器学习模型捕捉潜在的中期依赖性和非线性时间交互，采用了八期的滞后长度。这种选择平衡了模型的灵活性和维度，避免了过度特征扩展，同时保留了足够的时间信息。此外，这种滞后结构通过在滚动起点评估框架下的模型预测性能得到了验证。
- 外生战略风险指标：GPR、VIX和DGS10以滞后形式纳入模型。具体来说，这些变量的一期滞后值（, 和）被用作预测因子，以确保真实的预测框架并避免同时信息泄露。这些指标反映了地缘政治冲击、金融市场不确定性和影响油市场的宏观金融条件。
- 基于熵的信息度量：除了传统的战略风险指标外，还引入了一个基于熵的变量来捕捉油市场的信息复杂性和不确定性动态。具体来说，使用移动窗口方法从布伦特原油回报计算滚动香农熵度量。这个变量反映了回报生成过程中的无序和不可预测性程度，为基于波动性和宏观金融风险指标提供了补充视角。熵度量作为一期滞后预测因子（Entropyt?1）纳入模型中，以确保与预测框架的一致性并避免同时信息泄露。

通过这种结构，机器学习模型估计以下一般非线性关系：
(4)
模型中使用的符号定义如下：
- 时间t的布伦特原油月对数收益率，
- 分别滞后1至8个月的布伦特回报值，
- 时间t-1的全球地缘政治风险指数，
- 时间t-1的金融市场波动率指标，
- 时间t-1的美国10年期国债收益率，
- 时间t-1的布伦特原油回报的滚动香农熵，
- 月时间指数。

为了确保真实的预测框架并避免任何同时信息泄露，所有解释变量都以滞后形式纳入。具体来说，在预测时间t的布伦特原油回报时，使用了GPR、VIX和DGS10的一期滞后预测因子。因此，只使用了时间t-1可用的信息进行预测，确保实证设计对应于真正的样本外预测练习，而不是现在预测框架。在这个背景下，不限于线性函数形式；相反，它代表了通过决策树表达的变量之间的非线性关系和交互。这种方法超越了ARIMAX模型的线性假设，提供了捕捉油回报复杂和制度依赖动态的潜力。

为了提高预测性能并确保机器学习框架的稳健性，所有基于树的模型都在基于网格搜索的超参数优化程序下进行估计。在这种情况下，关键模型参数——包括树深度、学习率、子采样比例、节点复杂性和特征采样比例——通过预定义的搜索网格Jointly optimized。而不是依赖于单一的任意规范，每个参数都在低、中等和相对较高的候选值范围内进行评估，以捕捉不同的模型复杂性水平和正则化强度。例如，在XGBoost框架中，系统地调整了最大树深度、学习率、子采样比率、列采样比率、最小子节点权重和gamma参数。同样，随机森林模型针对每个分割点的候选预测因子数量和最小节点大小进行了优化，而LightGBM则调整了叶节点大小、学习率、特征比例、装袋比例和正则化参数。这种结构化的搜索策略允许识别出能够最小化样本外预测误差的参数组合，同时降低过拟合的风险。鉴于预测问题的时间结构，采用了滚动窗口预测框架，而不是传统的随机验证程序。具体来说，随着估计窗口随时间的扩展，模型会递归地重新估计，并在每个预测点生成样本外预测。这种方法保持了数据的时间顺序，消除了预测偏差，并更准确反映了在不断变化的市场动态和结构性不确定性下的实际预测实践。

为了评估预测性能，数据集首先按时间顺序划分为80%的训练集和20%的测试集，从而建立了基线的样本外预测框架。作为稳健性分析，所有模型还在75-25%和70-30%的训练-测试划分下重新估计。在这种滚动窗口设计中，评估了多个预测范围的预测准确性，即1步、3步、6步和9步的预测，以检查短期预测精度和长期预测稳定性。预测性能使用对称平均绝对百分比误差（sMAPE）进行评估，因为它不依赖于尺度，并且适合比较不同预测范围的预测准确性。通过将预测误差相对于观察值和预测值的幅度进行标准化，sMAPE提供了一个一致且可比较的预测性能度量，不受底层序列尺度的影响。因此，这种方法论框架能够在线性和非线性建模方法下评估战略风险因素。虽然ARIMAX和ARIMAX-GARCH模型作为基准计量经济结构，能够捕捉线性依赖性和波动性动态，但机器学习模型提供了一个灵活的非线性预测框架，能够模拟复杂的交互作用、制度转变和中期市场行为。因此，该研究为能源价格预测文献提供了综合的比较方法论贡献。所有的实证分析，包括计量经济估计、机器学习模型开发、诊断测试、超参数优化和滚动窗口预测，都是使用R编程语言在R Studio（版本2024.12.1+563）环境中实现的。

4. 实证发现与讨论
本节展示了布伦特原油回报在战略风险指标下的预测性能，并分析了实证结果。首先，检查了变量的描述性统计量和它们之间的线性关系。其次，报告了平稳性和自相关诊断结果，以证实计量经济模型的合理性。第三，评估了残差诊断测试，以评估模型的适当性和波动性行为。第四，比较了不同的GARCH模型规范。最后，对比讨论了计量经济模型和机器学习模型的样本外预测性能。

图1展示了2001年之后布伦特原油对数回报的时间路径，以及DGS10、GPR和VIX系列。布伦特对数回报显示出显著的波动性和突然的峰值，清楚地揭示了石油市场的高不确定性和对冲击的敏感性。值得注意的是，在2008年的全球金融危机期间，石油回报出现了大幅下降，同时VIX指数也显著上升。同样，在2020年的COVID-19大流行期间，布伦特回报经历了前所未有的负冲击，与VIX的历史高点相吻合。这种模式表明石油市场对金融不确定性冲击非常敏感。图1. 布伦特对数回报和战略风险指标的时间演变。VIX系列在正常时期表现出较为温和和稳定的模式，但在全球冲击期间出现急剧上升，反映了金融市场中风险感知的突然变化。相反，GPR系列虽然不频繁，但出现更突然的峰值，这些峰值归因于地缘政治事件而非持续的金融不确定性。尽管在2008年和2020年期间GPR有所上升，但这些波动没有VIX的峰值那样剧烈。这种差异是因为这些事件主要是由金融和经济冲击引起的，而不是直接的地缘政治冲突。这种差异表明石油市场对不同风险渠道的反应强度不同。

DGS10系列表现出长期下降趋势，特别是在2008年危机后全球向低利率制度过渡的过程中。这种下降趋势持续到整个2010年代，并在2020年的大流行期间达到了历史低点。这一趋势与扩张性货币政策和全球流动性环境一致。然而，在2021年后，利率出现了显著上升，表明政策转向了紧缩。总体而言，图1表明，在不确定性增加的时期，石油回报表现出突然的、不对称的和非线性的反应，清楚地揭示了金融市场不确定性、地缘政治风险和宏观经济条件在油价动态中的作用。这些观察结果为线性模型的局限性以及非线性建模方法的必要性提供了强有力的实证支持。

图2展示了从布伦特原油回报计算出的滚动香农熵的时间变化行为。熵度量在样本期间显示出显著的波动，表明石油市场的信息复杂性和不确定性结构随时间演变，而非保持不变。与重大经济和金融动荡（如全球金融危机和COVID-19冲击）相关的时期，熵水平升高，反映了回报动态中的不可预测性增加。这种模式支持将熵作为不确定性的补充度量，因为它能够捕捉到传统波动性指标之外的市场复杂性方面。此外，熵度量与布伦特回报绝对值之间的相关性相对较弱（-0.1505），表明熵捕捉的是信息复杂性，而不仅仅是回报波动性。表1展示了分析中使用的变量的描述性统计量。布伦特原油回报的接近零的均值表明该序列在其长期均衡值附近波动。然而，相对较高的标准差揭示了石油市场的显著波动性。特别是，大幅负的最小值表明在某些时期发生了价格急剧下跌。由于对数回报转换将价格上涨表现为正值，价格下跌表现为负值，这种模式代表了危机期间的严重价格修正。这一发现确认了石油市场对冲击的高度敏感性和显著的不可预测性。GPR指数的相对较大均值反映了其原始尺度，正如原始数据集所示。由于该指数以原始形式使用，因此在建模框架内通过滞后规范和诊断测试解决了潜在的非平稳性问题。表1. 研究中使用的变量的描述性统计量。GPR和VIX变量的广泛值范围表明，在全球地缘政治紧张和金融不确定性时期，风险指标出现了显著的峰值。相比之下，DGS10变量在一个受限制的范围内波动，表明利率遵循更稳定的轨迹，同时仍然是一个重要的宏观经济指标，应在石油市场动态中考虑。

表2展示了增强型Dickey–Fuller（ADF）和Phillips–Perron（PP）单位根测试的结果。结果表明，布伦特回报、GPR和VIX在水平上是平稳的。相比之下，DGS10系列被发现有单位根，因为ADF和PP测试都未能拒绝单位根的零假设。由于ADF和PP测试的零假设是该系列包含单位根，因此在实证分析中使用了DGS10的一阶差分（DGS10(?)）。差分后的系列（DGS10(?)）被确认为平稳的，确保了ARIMAX规范的有效性。表2. 单位根测试结果。图3展示了布伦特原油回报和战略风险指标的时间序列行为。布伦特回报围绕一个恒定的均值波动，没有明显的趋势，表明其是平稳的。同样，GPR和VIX系列表现出均值回归行为，尽管偶尔会出现波动性峰值。相比之下，DGS10系列显示出明显的非平稳模式，随时间持续下降和上升。这一视觉证据与单位根测试结果一致，表明DGS10在水平上是不平稳的，需要在模型中对其进行一阶差分。图3. 布伦特回报和战略风险指标（GPR、VIX和DGS10）的时间序列图。红色虚线代表每个系列的均值，展示了它们随时间的波动情况。如表3所示，变量之间的相关系数主要是低的。尽管布伦特原油回报与代表金融市场不确定性的VIX之间存在负相关但相对较弱的关系，但与GPR的相关性更为有限。然而，重要的是要注意，低线性相关性并不一定意味着存在非线性关系。相反，这些结果表明，石油回报与战略风险指标之间的依赖结构可能无法通过简单的线性关联来充分捕捉。特别是，风险变量的影响可能通过非线性交互作用、阈值效应或随时间变化的动态来体现，这些在成对相关性度量中并未反映出来。这种模式在金融时间序列中很常见，其中依赖性通常表现为条件矩而不是无条件相关性。因此，将这些发现看作是需要采用更灵活的建模方法来捕捉潜在数据生成过程的实证依据。这为使用机器学习模型提供了实证动机，因为机器学习模型能够近似复杂的非线性关系和变量之间的交互作用。

表3显示了布伦特原油回报的滚动香农熵的时间变化行为。熵度量在样本期间显示出显著的波动，表明石油市场的信息复杂性和不确定性结构随时间演变，而不是保持不变。与重大经济和金融动荡（如全球金融危机和COVID-19冲击）相关的时期，熵水平较高，反映了回报动态中的不可预测性增加。这种模式支持将熵作为不确定性的补充度量，因为它捕捉了市场复杂性的方面，超出了传统波动性指标的范围。此外，熵度量与布伦特回报绝对值之间的相关性相对较弱（-0.1505），表明熵捕捉的是信息复杂性，而不仅仅是回报波动性。表1展示了分析中使用的变量的描述性统计量。布伦特原油回报的接近零的均值表明该序列在其长期均衡值附近波动。然而，相对较高的标准差揭示了石油市场的显著波动性。特别是，大幅负的最小值表明在某些时期发生了价格急剧下跌。由于对数回报转换将价格上涨表示为正值，价格下跌表示为负值，这种模式代表了危机时期的严重价格修正。这一发现证实了石油市场对冲击的高度敏感性及其显著的不可预测性。GPR指数的相对较大均值反映了其原始尺度，如原始数据集所示。由于该指数以原始形式使用，因此在建模框架内通过滞后规范和诊断测试解决了潜在的非平稳性问题。表1. 研究中使用的变量的描述性统计量。GPR和VIX变量的广泛值范围表明，在全球地缘政治紧张和金融不确定性时期，风险指标出现了显著的峰值。相比之下，DGS10变量在有限的范围内波动，表明利率遵循更稳定的轨迹，但仍是一个重要的宏观经济指标，应在石油市场动态中考虑。

表2展示了增强的Dickey–Fuller（ADF）和Phillips–Perron（PP）单位根测试的结果。结果表明，布伦特回报、GPR和VIX在水平上是平稳的。相比之下，DGS10系列被发现是不平稳的，因为ADF和PP测试都未能拒绝单位根的零假设。由于ADF和PP测试的零假设是该系列包含单位根，因此在实证分析中使用了DGS10的一阶差分（DGS10(?)）。差分后的系列（DGS10(?)）被确认为平稳的，确保了ARIMAX规范的有效性。表2. 单位根测试结果。图3展示了布伦特原油回报和战略风险指标的时间序列行为。布伦特回报围绕一个恒定的均值波动，没有明显的趋势，表明其是平稳的。同样，GPR和VIX系列也表现出均值回归行为，尽管偶尔会出现波动性峰值。相比之下，DGS10系列显示出明显的非平稳模式，随时间持续下降和上升。这一视觉证据与单位根测试结果一致，表明DGS10在水平上是不平稳的，需要在模型中对其进行一阶差分。图3. 布伦特回报和战略风险指标（GPR、VIX和DGS10）的时间序列图。红色虚线代表每个系列的均值，展示了它们随时间的波动情况。如表3所示，变量之间的相关系数主要是低的。虽然布伦特原油回报与代表金融市场不确定性的VIX之间存在负相关但相对较弱的关系，但与GPR的相关性更为有限。布伦特回报与作为利率代理的DGS10之间的相关性几乎可以忽略不计。然而，重要的是要注意，低线性相关性并不一定意味着存在非线性关系。相反，这些结果表明，石油回报与战略风险指标之间的依赖结构可能无法通过简单的线性关联来充分捕捉。特别是，风险变量的影响可能通过非线性交互作用、阈值效应或随时间变化的动态来体现，这些在成对相关性度量中并未体现。这种模式在金融时间序列中很常见，其中依赖性通常表现为条件矩而非无条件相关性。因此，将这些发现视为需要采用更灵活的建模方法来捕捉潜在的数据生成过程的依据。这为使用机器学习模型提供了实证动机，因为机器学习模型能够近似复杂的非线性关系和变量之间的交互作用。

表3显示了布伦特原油回报的自相关结构，使用自相关函数（ACF）和偏自相关函数（PACF）进行了检查，如图4所示。ACF图在第一滞后处显示出显著峰值，随后在置信区间内迅速衰减，表明这是一个短记忆过程。同样，PACF在滞后1处显示出显著峰值，但在更高滞后处没有持续的结构。这些发现表明，回报序列没有表现出强的高阶自相关性，低阶移动平均结构足以捕捉时间依赖性。图4. 布伦特原油回报的自相关（ACF）和偏自相关（PACF）函数。蓝色虚线代表95%的置信区间，表明不同滞后下的自相关性的统计显著性。此外，使用“auto.arima”算法确定了最佳ARIMA规范，该算法基于信息标准选择了ARIMA(0,0,1)模型。这种数据驱动的模型选择与ACF和PACF诊断中观察到的实证模式完全一致。因此，采用了ARIMAX(0,0,1)规范来模拟布伦特原油回报的条件均值动态。这种统计诊断与自动模型选择之间的一致性增强了模型规范的稳健性。

为了评估ARIMAX模型的适当性，进行了全面的残差诊断分析。图5展示了残差的时间序列、直方图、Q-Q图和残差的自相关函数。图5. ARIMAX模型的残差诊断。残差序列围绕零波动，没有明显的趋势，表明条件均值动态得到了适当的捕捉。直方图和Q-Q图显示分布大致对称，尽管在尾部观察到轻微的异常值，反映了金融时间序列中典型的极端值。残差的自相关函数表明大多数自相关位于置信区间内，表明序列相关性在很大程度上被消除。这一发现进一步得到了Ljung–Box测试结果的支持，该测试在常规显著性水平上未能拒绝无自相关的零假设。然而，ARCH LM测试强烈拒绝了无ARCH效应的零假设，表明残差中存在条件异方差性。这表明，虽然ARIMAX模型能够恰当地捕捉均值结构，但它未能模拟随时间变化的波动性动态。这些发现为将GARCH类型的波动性模型添加到ARIMAX框架中提供了有力的实证依据。为了正式评估残差中是否存在序列相关性，应用了Ljung–Box检验。检验结果表明，在5%的显著性水平上拒绝了无自相关的零假设，表明ARIMAX模型中仍存在一定的残差序列依赖性。为了检验残差是否表现出条件异方差性，进行了ARCH LM检验。结果强烈拒绝了无ARCH效应的零假设，表明残差序列中存在显著的时间变化波动性。这些发现意味着，虽然ARIMAX模型捕捉到了一部分条件均值动态，但它不足以完全解释石油回报中的依赖结构和波动性聚集现象。因此，从理论和实证角度来看，扩展模型以包含GARCH类型的规范是合理的。

为了评估估计模型的结构稳定性，分别使用了累积和（CUSUM）和递归残差的移动和（MOSUM）检验，如图6和图7所示。图6显示了使用CUSUM检验的结构稳定性分析，红线代表5%的显著性界限；当累积和保持在这些临界范围内时，模型被认为是稳定的。图7显示了使用MOSUM检验的结构稳定性分析，红线表示5%的显著性界限；当检验统计量保持在这些界限内时，模型被认为是结构稳定的。CUSUM检验结果表明，在整个样本期间，实证波动过程都保持在临界范围内，因此不能拒绝参数稳定性的零假设。这一发现表明模型参数随时间是稳定的，并且没有显示出系统的结构变化。同样，MOSUM检验也没有显示出任何边界穿越，表明不存在统计学上显著的局部结构不稳定性。尽管观察到了一些短期波动，但这些偏差都保持在置信范围之内，因此没有提供结构断裂的证据。

综合来看，CUSUM和MOSUM的结果证实了模型在全局和局部上都是结构稳定的。这些发现表明，估计模型能够充分捕捉石油市场的潜在动态，同时对地缘政治和金融条件的短期变化具有鲁棒性。

在扩展ARIMAX框架之后，基于信息准则估计并比较了不同的GARCH类型规范。在候选模型中，具有偏态学生t分布的对称GARCH规范提供了最佳拟合，表明布伦特油回报波动性存在厚尾和不对称行为。这种建模方法与更广泛的商品波动性文献一致，其中提出了更高级的GARCH类型规范，例如均值回归仿射GARCH模型，以更好地捕捉商品价格的动态[64]。然而，在本研究中，采用了相对简约的GARCH规范，以保持与基准ARIMAX框架的可比性，并专注于预测性能的主要目标。估计的方差方程参数证实了序列中波动性聚集的存在。ARCH系数捕捉了新冲击对条件方差的即时影响，而GARCH系数反映了过去波动性的持续性。这些参数的结合表明波动性具有中等程度的持久性，意味着对布伦特油回报的冲击会对未来波动性产生减弱但持久的影响。这些发现与金融和能源市场时间序列的典型特征一致，即波动性在市场压力、地缘政治冲击和宏观经济不确定性之后倾向于聚集和持续。

为了正式展示模型选择结果，表4报告了基于赤池信息准则（AIC）、贝叶斯信息准则（BIC）和对数似然值的替代GARCH规范的比较性能。分析考虑了三种广泛使用的GARCH类型模型家族：对称GARCH（sGARCH）、指数GARCH（eGARCH）和Glosten-Jagannathan-Runkle GARCH（gjrGARCH）。对于每个模型家族，选择了一个产生最低AIC值的规范，并在表4中报告。表4显示，具有偏态学生t分布的gjrGARCH模型产生了最低的AIC和BIC值，以及对数似然值最高，表明其在竞争模型中具有最佳的拟合度。因此，选择了gjrGARCH规范作为后续估计和预测分析的优选波动性模型。

为了比较基准ARIMAX模型和选定的ARIMAX-gjrGARCH规范的预测性能，在1步、3步、6步和9步预测设置下采用了滚动起点预测框架。预测准确性使用对称平均绝对百分比误差（sMAPE）进行评估。表5、表6和表7中的预测结果提供了关于在不同训练-测试分割情况下统计和机器学习方法比较性能的几个重要见解。首先，结果表明LightGBM在大多数预测范围和数据分割中都表现出最佳性能。在表5中呈现的主要80-20%分割下，LightGBM在几乎所有滚动预测设置中都获得了最低的sMAPE值，包括短期（1步、3步）和较长范围（6步、9步）。这种优越性能并不限于单个数据分割。如表6和表7所示，在替代的75-25%和70-30%分割下，结果仍然高度一致。在这些稳健性 scenario 下，LightGBM继续优于竞争模型，表明其预测优势是稳定的，而不是由样本特定特征驱动的。这些发现表明，布伦特油回报与选定预测变量之间的关系受到非线性相互作用和复杂时间依赖性的支配，这些可以通过LightGBM等梯度提升框架更有效地捕捉。

ARIMAX模型的表现也值得注意。如表5、表6和表7所示，ARIMAX在某些预测范围内偶尔也能取得有竞争力的结果，特别是在中期和长期预测中。这一结果在理论上是合理的，因为石油回报序列通常表现出可以通过基于线性滞后的模型有效捕捉的短期自回归结构。然而，总体证据表明，机器学习模型，特别是LightGBM，在不同预测范围内提供了更稳健且一致较低的预测误差，突显了纯线性规范在捕捉复杂市场动态方面的局限性。相比之下，尽管ARIMAX-gjrGARCH规范在建模条件波动性聚集方面具有理论优势，但其预测准确性并不优于其他模型。如表5、表6和表7一致观察到的，ARIMAX-gjrGARCH模型在几乎所有预测范围内的sMAPE值都高于ARIMAX和LightGBM。这一结果应结合GARCH类型模型的主要功能来解释。尽管ARIMAX-gjrGARCH规范成功捕捉了布伦特油回报的波动性聚集和时间变化不确定性，但它对条件均值点预测的改进作用本质上是有限的。这是因为GARCH模型旨在建模第二矩动态（条件方差），而不是第一矩动态（条件均值）。因此，ARIMAX-gjrGARCH在sMAPE方面的相对较弱表现并不表明模型不足，而是反映了波动性建模与均值预测之间的区别。相比之下，机器学习模型直接优化以最小化目标变量的预测误差，使它们能够更好地捕捉影响回报条件均值的非线性模式。

随机森林模型在大多数情况下的预测性能相对较弱。如表5、表6和表7所示，其sMAPE值通常高于LightGBM，在许多情况下也高于XGBoost。这种相对较弱的性能可能表明，石油回报动态需要一个能够捕捉更精细的非线性结构、交互效应和基于梯度的调整的建模框架，而这些方面更适合通过提升算法来处理。LightGBM的强大表现可以归因于其有效建模非线性关系、处理特征交互作用以及通过基于梯度的优化适应不同数据结构的能力。与其它机器学习模型相比，LightGBM在模型灵活性、正则化和泛化能力之间提供了更有效的平衡。因此，表5、表6和表7中的实证证据强烈支持这样的观点：在战略风险条件下，机器学习模型，特别是LightGBM，在建模布伦特油回报动态方面提供了显著的预测优势。同时，ARIMAX在选定预测范围内的竞争性能证实了线性基准模型继续提供有价值的可解释性和基线预测洞察力。从信息论的角度来看，LightGBM的优越性能表明基于树的提升算法更有效地利用了嵌入在滞后回报和战略风险指标中的非线性信息。这一发现进一步支持了布伦特油回报动态受到由金融和地缘政治不确定性塑造的复杂非线性信息结构支配的观点。

表8报告了基于sMAPE损失的Diebold-Mariano（DM）检验结果。零假设假设各模型之间的预测准确性相等。负的DM统计量表明第一个模型表现得比第二个模型更好。统计上显著的p值（p < 0.05）表明预测性能的差异是有意义的。结果证实，LightGBM在预测准确性方面显著优于XGBoost、ARIMAX、随机森林和ARIMAX-gjrGARCH，进一步支持了其在建模非线性石油回报动态方面的优越性。此外，ARIMAX和ARIMAX-gjrGARCH之间的比较显示预测准确性没有统计学上的显著差异（p > 0.05），表明纳入条件波动性并不会显著提高点预测性能。表8显示了在80-20%分割下，ARIMAX（黄金）、ARIMAX-gjrGARCH（绿色）、XGBoost（洋红色）和LightGBM（青色）模型在测试期间生成的预测值与实际布伦特对数回报（红线）的对比。该图直观地比较了每个模型对布伦特回报观察到的变动的追踪能力，特别是在方向变化、局部波动和短期波动模式方面。虽然所有模型都捕捉到回报动态的某些方面，但不同模型之间的对齐程度有所不同。图8表明，LightGBM模型在追踪短期波动和局部转折点方面比竞争模型更紧密，其预测对回报序列快速变化的响应能力更强，表明其捕捉非线性和时间变化动态的能力更强。相比之下，ARIMAX和ARIMAX-gjrGARCH模型产生的轨迹相对平滑，这反映了它们对线性结构和条件波动性建模的依赖。随机森林和XGBoost模型表现出中等表现，捕捉到了一些非线性模式，但对局部变化的对齐程度较差。

然而，这种视觉表现应谨慎解读，并结合表5、表6和表7中报告的定量预测准确性指标。尽管LightGBM的预测在视觉上与观察到的序列更为相似，但其优越性主要体现在不同预测范围和训练-测试分割中始终较低的sMAPE值上。因此，图8通过说明LightGBM不仅在视觉上更有效地捕捉短期波动，而且在预测误差指标上也表现出更好的预测准确性，从而支持了这一结论。此外，表9中的特征重要性分析显示，自回归动态和外生风险指标都对LightGBM模型的预测性能有所贡献。在这种背景下，gain衡量了每个特征通过分割对该变量带来的预测准确性改进；cover反映了受该特征影响的观察值的相对数量；frequency表示该特征在构建树过程中的使用频率。在所有变量中，布伦特原油回报的一阶滞后（lag1）的贡献最大，紧随其后的是滞后地缘政治风险指数（GPR），这表明地缘政治风险是预测原油回报稳定性的关键因素。表9显示了LightGBM模型的特征重要性排名（80-20%的训练-测试分割）。尽管金融市场不确定性（VIX）和利率变化（ΔDGS10）也对模型有贡献，但它们的相对重要性较低。基于熵的变量虽然贡献较小，但不容忽视，表明它提供了补充信息，而不是作为主要的预测驱动因素。因此，这些发现证实了该模型能够同时捕捉内部市场动态和外部风险信号，支持了战略风险指标在油价预测中的相关性。正如表10所报告的，消融分析清楚地展示了不同特征组对LightGBM模型预测性能的增量贡献。当仅使用布伦特原油回报的滞后值作为预测因子时，模型的sMAPE为1.4902。引入战略风险变量（GPR、VIX和DGS10）后，sMAPE显著改善为1.4789。这一发现表明，宏观金融和地缘政治风险指标包含了超出系列内部动态的额外预测信息。此外，添加基于熵的变量进一步提升了模型的性能，尽管幅度不大，sMAPE降至1.4718。总体而言，这些结果表明战略风险指标和熵都对预测准确性有积极贡献，大部分性能提升来自于风险相关变量的引入。这些改进也与Diebold–Mariano测试结果一致，后者表明这些性能差异在统计上是显著的。

5. 结论

本研究考察了在战略风险条件下，基准计量经济模型和机器学习技术在预测布伦特原油回报方面的表现。实证结果一致表明，特别是LightGBM这样的机器学习方法，在多个滚动预测期限和不同的训练-测试分割配置中提供了卓越的样本外预测准确性。结果表明，将地缘政治风险（GPR）、金融市场不确定性（VIX）和宏观金融指标（DGS10）作为外生变量纳入模型，显著提高了预测性能。研究还发现，布伦特原油回报的动态受到市场不确定性、地缘政治发展以及宏观经济条件之间复杂非线性互动的影响。LightGBM的优异表现在于其能够比传统的线性计量经济模型更有效地捕捉这些互动。虽然ARIMAX在某些预测期限内仍是一个有竞争力的基准模型，但其性能通常被机器学习模型超越，这表明线性模型未能完全捕捉到非线性依赖性。

同时，研究强调了波动率建模与回报预测之间的重要方法学区别。ARIMAX–gjrGARCH框架虽然通过条件异方差性提供了对时变波动率和不确定性的更真实表示，但其对提高点预测准确性的贡献有限。这反映了GARCH类型模型的基本设计理念，这类模型侧重于第二矩动态（条件方差），而不是直接改进条件均值预测。相比之下，机器学习模型——尤其是LightGBM——被明确优化以最小化预测误差，使其能够更好地捕捉回报动态中的非线性关系和交互效应。

从经济角度来看，这些发现对能源市场和风险管理实践具有重要意义。金融市场不确定性变量的强烈预测作用表明，原油回报动态对全球风险认知和宏观经济条件的变化高度敏感。包括商品交易者、机构投资者和能源公司在内的市场参与者可以通过将这些指标整合到他们的预测、对冲和风险评估框架中来受益。更准确的回报预测有助于改进风险价值（VaR）估计、衍生品定价和动态对冲策略。

从政策角度来看，研究结果表明，政策制定者和能源当局在评估潜在的能源价格冲击时应密切关注战略风险指标。鉴于油价波动会迅速影响通货膨胀、生产成本和宏观经济预期，改进的预测框架可以支持更加主动和知情的政策应对。特别是中央银行、能源部门和监管机构可以将这些模型纳入早期预警系统，以检测不利的市场发展并减轻宏观经济风险。此外，这些发现对于理解能源价格冲击在实体经济中的传导也有广泛意义。由于原油在运输、制造、物流和电力生产中的不可替代作用，原油回报的波动会迅速影响生产成本、消费者价格和通胀预期。因此，更准确的原油回报预测不仅是金融市场的努力，也是预测更广泛宏观经济压力的重要工具。机器学习模型的卓越预测性能表明，政策制定者和市场分析师可以通过依赖更能捕捉高不确定性时期非线性市场反应的预测框架来提高应对冲击的能力。

从更广泛的学术和政策角度来看，这项研究还强调了在战略风险条件下研究商品市场时需要超越传统预测结构的必要性。LightGBM持续优于基准模型的事实表明，地缘政治和金融市场不确定性的预测内容嵌入在可能是非线性的、状态依赖性和交互驱动的关系中。这对未来能源经济学研究具有重要意义：模型构建应逐步纳入不对称性、不稳定性和非线性传导渠道，而不是假设所有市场条件下的均匀反应。因此，该研究通过展示更灵活的数据驱动方法在不确定性、波动性和战略风险特征的环境中提供更强的实证指导，为预测文献和政策讨论做出了贡献。

此外，证据表明金融市场不确定性在原油回报预测中起主导作用，这提示能源政策决策必须结合金融市场条件进行评估。能源安全政策、战略储备规划和价格稳定措施可能从将金融风险指标纳入决策过程中受益。总体而言，这项研究通过对能源预测的贡献，展示了机器学习技术在模拟战略风险条件下的原油回报动态方面的显著优势。未来的研究可以通过纳入更高频率的数据、制度转换结构或深度学习架构来进一步改进预测性能和政策相关性。此外，分析中还使用了基于熵的度量来捕捉布伦特原油回报的信息复杂性和不确定性结构。虽然熵的引入为不确定性的演变动态提供了额外见解，但其对提高点预测准确性的贡献仍然有限。这表明熵捕捉到了市场复杂性的某些方面，这些方面虽然不能直接用于短期回报预测，但对于理解能源市场中的不确定性传导和信息结构仍然具有价值。

总体而言，研究结果表明，将传统计量经济方法与机器学习技术和信息论度量相结合，可以为分析不确定性条件下的能源市场动态提供更全面的框架。虽然机器学习模型在预测准确性方面表现优异，但计量经济和基于熵的方法有助于提高可解释性和对市场机制的深入理解。

热点排行