基于松冈分布的双边有界时间序列GARMA建模及其在环境与能源系统中的应用

《Environmetrics》：A Matsuoka-Based GARMA Model for Environmental and Energy Systems: Theory, Estimation, and Applications

【字体：大中小】 时间：2026年04月22日 来源：Environmetrics 1.7

编辑推荐：

　　针对环境与能源系统中常见的时间序列数据呈现双边有界、非高斯、序列依赖等特点，研究人员提出了一种新的基于松冈分布(Matsuoka distribution)的广义自回归滑动平均模型(MARMA)。该模型将松冈分布（指数族单参数成员）作为条件分布，并结合灵活的ARMA型结构建模条件均值。参数通过偏最大似然估计，允许随机、时变协变量，支持标准渐近推断。为构建样本外预测区间，研究探索了基于Bootstrap的方法以捕捉动态结构的不确定性。该模型被应用于美国非传统水电月度发电量比例的分析，展示了其在捕获序列相关性、确保预测值位于单位区间内、提供可靠预测区间等方面的优势，为稳健的能源系统规划和环境政策分析提供了关键工具。

在自然界和工程应用中，许多重要的数据，例如相对湿度、水库蓄水比例、能源份额等，都落在一个有界的区间内，即单位区间(0,1)。这类数据不仅天然具有边界限制，而且在时间上呈现出序列依赖的特性。传统的、为实值数据设计的时间序列模型（如经典的自回归滑动平均模型ARMA）在面对这类数据时，常常显得“水土不服”：它们无法确保模型的预测值落在合理的边界之内，从而导致模型解释上的困难和实际应用中的误导。此外，许多双边有界的观测值在边界附近表现出独特的行为，例如长期接近0或1，并且其变异性并非恒定，通常会随着过程接近物理或操作极限而减小。为了准确理解和预测诸如能源结构转型、环境资源管理等关键领域的动态，我们迫切需要一个能够同时处理有界性、序列依赖性、非正态性以及变异性不对称等复杂特征的建模框架。本研究正是为了满足这一迫切需求而展开，其成果发表于统计学和环境科学交叉领域的期刊《Environmetrics》。

为了解决上述问题，研究团队提出了一种新颖的基于松冈分布(Matsuoka distribution)的广义自回归滑动平均模型。该模型巧妙地结合了两种经典模型的思想：一方面，它采用了广义线性模型(GLM)的框架，允许通过灵活的链接函数来描述条件均值的非线性关系；另一方面，它引入了ARMA类型的结构，用以刻画观测值之间的动态序列依赖。模型的创新之处在于，其随机成分选择了松冈分布——这是一个支持在(0,1)区间上的、属于正则指数族的单参数分布。与更常见的两参数模型（如基于Beta分布或Kumaraswamy分布的GARMA模型）相比，MARMA模型虽然参数更少，但得益于松冈分布的特性，它在处理数据集中在1附近（例如，高效企业的效率、高份额的能源来源）的场合时，反而能提供更为精准和可靠的拟合，避免了在边界处出现概率密度奇点所导致的不合理推断。这使其成为一个在保持模型简洁性的同时，不失竞争力的新选择。

本研究采用的主要技术方法包括：偏最大似然估计(PMLE)用于模型参数估计，该方法允许模型中包含随机、时变的协变量，并基于成熟的理论框架提供了标准渐近推断；为了克服样本外预测区间难以解析求解的困难，研究设计并评估了一种基于Bootstrap的模拟方法，该方法通过递归生成未来观测值，能够有效地捕捉模型动态结构中的不确定性，为预测提供了可靠的置信区间。研究还通过蒙特卡洛模拟，系统评估了PMLE在有限样本下的表现，并利用R包BTSR实现了模型的拟合、预测和诊断分析。

2 Matsuoka Distribution and the MARMA Model

该节首先引入了松冈分布，其概率密度函数是单参数的，在形状上具有灵活性，特别是当参数大于约1.72时，分布呈左偏，能很好地拟合接近1的高比例数据，且避免了在边界1处的奇点。接着，研究正式定义了MARMA(p, q)模型：对于一个取值于(0,1)的随机过程{Y_t}，假设给定历史信息F_t-1时，Y_t服从参数为η_t的松冈分布，并通过一个链接函数g(·)将其条件均值μ_t= E(Y_t|F_t-1)与一个包含ARMA结构和外生协变量的线性预测器η_t联系起来。模型的系统性成分允许包含随机或确定性的时变协变量，极大地增强了模型的实用性。研究还比较了MARMA与基于Beta分布(βARMA)和Kumaraswamy分布(KARMA)的GARMA模型，通过图形直观展示了在某些参数设置下（如μ_t在0.38附近波动时），MARMA的拟合能力更强，而其他模型则可能给出接近J型的错误近似。最后，论文探讨了MARMA模型的非对称条件方差特性及其在应用中的优势。

3 Parameter Estimation

本节详细阐述了MARMA模型的参数估计方法。给定一个样本，在设定好初始条件后，可以通过最大化偏对数似然函数来获得参数的偏最大似然估计(PMLE)。文中给出了偏对数似然函数的具体形式，并说明了在实际计算中（如在R包BTSR中）对初始值和误差项的标准初始化方法。

4 Large Sample Inference

本节致力于为大样本推断建立理论基础。由于松冈分布属于正则指数族，MARMA模型的PMLE可以纳入Fokianos和Kedem (2004)建立的GARMA模型一般渐近理论框架。在满足一定正则性条件下，PMLE是相合的，并且经过适当标准化后渐近服从多元正态分布。基于此，可以构造参数的渐近置信区间，并进行Wald检验等假设检验。此外，本节还讨论了用于模型诊断的分位数残差，以及用于模型选择的AIC、BIC等信息准则。在预测方面，研究给出了样本内和样本外点预测的递归公式。尤为重要的是，为了获得可靠的样本外预测区间，研究提出了一种新颖的Bootstrap方法，该方法通过递归模拟未来的观测值和线性预测器，能够有效纳入动态结构的不确定性，其思想可推广至其他观测驱动的GARMA模型。

5 Monte Carlo Simulation

通过广泛的蒙特卡洛模拟研究，评估了MARMA模型PMLE在有限样本下的性能。模拟涵盖了不同的参数组合、样本大小（n=100, 200, 500）以及包含正弦波外生协变量的情形。结果表明，在大多数参数设置下，PMLE能较好地恢复真实参数值，偏差和标准差随样本量增大而减小。不过，在自回归参数φ较大（如0.8）导致序列依赖性很强时，估计会变得相对困难，参数的联合估计可能出现双峰分布模式。模拟还展示了典型的时间序列路径，直观呈现了模型生成的数据特征。

6 Application to Electricity Generation Shares

本章将MARMA模型应用于一个实际环境与能源问题：预测美国月度总发电量中非传统水电（即除常规水电外所有来源）发电量所占的比例。这个比例数据严格位于(0,1)区间内，且序列表现出明显的自相关性，是检验MARMA模型效能的理想案例。研究将该数据集分为训练集和测试集，利用训练集拟合了不同阶数的MARMA模型，并与KARMA、βARMA等基准模型进行对比。模型比较基于AIC、BIC准则以及样本外预测的均方根误差(RMSE)和平均绝对误差(MAE)。结果表明，MARMA(1,1)模型在竞争模型中表现优异，以最少的参数（更简洁）取得了最佳的样本外预测精度。此外，研究应用了第4节提出的Bootstrap方法，为测试集提供了可靠的95%预测区间，这些区间能够很好地覆盖真实的观测值，证明了所提预测区间构造方法的有效性。应用分析还展示了拟合残差基本满足白噪声假设，进一步验证了模型的适用性。

7 Conclusion

本研究引入并深入探讨了一种新的基于松冈分布的广义自回归滑动平均模型——MARMA。该模型为在单位区间(0,1)上取值的连续时间序列数据的建模提供了一个严谨、灵活且计算可行的框架。MARMA模型的核心优势在于其随机成分属于正则指数族，这简化了理论推导（如得分函数和信息矩阵）并确保了基于偏最大似然的渐近推断的稳健性。尽管是单参数模型，松冈分布的密度函数形状灵活，特别适合描述数据集中在1附近的场景，为建模某些能源份额或效率指标提供了更贴合现实的概率分布假设。通过蒙特卡洛模拟，研究证实了所提估计方法在有限样本下的良好性能。在实际应用中，MARMA模型对美国非水电发电份额数据的成功建模和预测，不仅验证了其解决现实问题的能力，也凸显了其相较于其他GARMA模型在特定情境下的优势——在保持模型简洁性的同时，实现了优异的预测精度。研究中提出的用于构建预测区间的Bootstrap方法，为量化此类复杂动态模型的前向不确定性提供了实用工具。总之，MARMA模型为环境科学、能源经济学和水文学等领域中广泛存在的双边有界比例数据的统计分析，增添了一个有价值的新工具。模型的完整实现已集成于R包BTSR中，便于研究者和实践者使用。

热点排行