用于检测函数时间序列(Functional Time Series, FTS)中周期数的信息准则(Information Criterion, IC)——基于函数谐波回归(Functional Harmonic Regression, FHR)的方法
《Computational Statistics & Data Analysis》:An information criterion for detecting periodicities in functional time series
编辑推荐:
研究人员提出了一种用于确定函数时间序列(Functional Time Series, FTS)中未知周期分量个数的信息准则(Information Criterion, IC)。在函数时间序列分析中,大规模时间序列频率个数的识别一直是核心关注点。为实现这一目
研究人员提出了一种用于确定函数时间序列(Functional Time Series, FTS)中未知周期分量个数的信息准则(Information Criterion, IC)。在函数时间序列分析中,大规模时间序列频率个数的识别一直是核心关注点。为实现这一目标,研究人员建议利用最小二乘拟合得到的残差过程构造一种迭代算法。该迭代方法具有广泛适用性。研究人员证明了通过最小化该信息准则,所估计的周期分量个数具有一致性。数值模拟说明了该方法的有效性。在实际数据分析中,研究人员将该信息准则应用于温度数据与太阳黑子数据。
该研究发表于《Computational Statistics》。研究背景方面,函数时间序列(Functional Time Series, FTS)分析中,如何准确检测其中隐含的周期分量(如季节性、年际振荡等)是一个重要但尚未完全解决的问题;传统的时间序列周期检测方法多针对标量时间序列,直接推广到FTS面临维数高、结构复杂等困难;函数谐波回归(Functional Harmonic Regression, FHR)虽可用于建模FTS中的周期成分,但周期个数r?通常未知,现有文献缺乏针对FTS的模型选择准则,因此研究人员开展了此项研究,旨在提出一种基于信息准则(Information Criterion, IC)的一致性强、计算可行的周期数检测方法。
主要关键技术方法包括:将FTS沿经验泛函主成分(Functional Principal Component Analysis, FPCA)的第一主成分投影,转化为标量型时间序列;在已知周期数r下,通过最小二乘拟合FHR模型得到残差,对残差拟合h阶自回归(Autoregressive, AR)模型以获得预测误差方差σ^r2(h);构造信息准则?(r,h)=log{σ^r2(h)}+(κr+h)NlogN,其中κ为惩罚系数,h为AR阶数,N为样本量;设计迭代算法:先固定最大候选周期数H与AR阶数上限H,对每个r遍历h使?(r,h)最小得h^r,再选使?(r,h^r)最小的r^作为周期数估计;周期频率θk采用基于残差周期图的递归极大化方法估计;参数估计的一致性在假设平稳过程、高阶累积量可和等条件下由引理证明;数值模拟使用B样条基、Fourier基、小波(Haar)基将函数数据向量化,真实模型含FAR(2)误差与多个三角函数项,样本量N=120,480,960,重复100次评估κ稳定区间与正确检测率;实数据采用140年每日太阳黑子数据(分段长度m=15,30,91,182天)与30年三国(日本京都、澳大利亚悉尼、加拿大温哥华)每日平均气温数据(m=30,273天),来源为公开气象与天文数据集。
研究结果如下:
引言部分,研究人员指出FTS周期检测的意义与传统标量方法的局限,明确FHR模型Yt(u)=μ(u)+∑k=1r0[αk(u)cos(tθk)+βk(u)sin(tθk)]+Xt(u)的设定,提出需要解决周期数r?未知的问题。
参数估计部分,研究人员将FTS沿给定基
{vi}i=1p展开为多元时间序列,FHR系数通过最小二乘法估计;频率
θk采用递归周期图极大化估计:先定义
pY,N(θ)=∑j=1p∣N?1∑t=1N(Yt(j)?Yˉ(j))eitθ∣2,在第l步剔除前l-1个已估周期的贡献后最大化剩余
pY,N(l?1)(θ)得
θ^rl,得出
N(θ^rk?θrk)P0;系数估计
ψ^(r)在
r≤r0时依概率收敛于真值
ψ(r),在
r>r0时超出
(2r0+1)p的元素依概率收敛于0,故
ψ^Pψ,这些结论由Lemma 2.7等证明。
样本周期数选择部分,研究人员基于第一经验泛函主成分
Y~t=v1?Yt(v?为
Ξ0第一主成分)的残差
X^t(r)拟合AR(h)得预测误差
σ^r2(h);构造准则
?(r,h)=log{σ^r2(h)}+(κr+h)NlogN;算法先设r从0到H,对每个r选
h^r=argminh?(r,h),再取
r^=argminr?(r,h^r);Theorem 3.4证明在假设下
r^Pr0;AR阶数h满足
h→∞,
h=O(logN/loglogN),实践中取
h=loglogN即可。
模拟研究部分,研究人员设定真实r?=3,周期频率2π/5,2π/6,2π/15,FAR(2)误差,基函数取B样条(p=30)、Fourier、Haar小波,p=1,5,10,15,20,25,30;评估不同κ(1≤κ≤69)的正确检测率,发现当N增大时常正确检测率≥90%的κ稳定区间扩大,N=960时κ=4~27均达94%正确率;基类型与p影响不大,p增大略提升正确率;AR上限H=8对结果不敏感。
数据分析部分,太阳黑子数据(140年每日,m=15,30对应“年”为360天,m=91,182对应“年”为364天)得第一周期r^=1,对应频率换算为约11年太阳活动周期,与已知物理结论一致;气温数据m=30(每月一段,每年12段,共360个FTS观测)得三国第一周期r^=1(频率0.524→年周期),第二周期r^=2(频率1.05→半年周期),日本另有第三周期r^=3(频率1.57→4个月周期);m=273(约9个月一段,共40个FTS观测)得第一周期均为r^=3(频率1.57→3年周期),对应El Ni?o/La Ni?a现象周期,与气候学结论吻合。
讨论部分,研究人员总结提出的信息准则能有效、一致地检测FTS周期数;
κ在较大范围(如4~27当N=960)内结果稳定,推荐
κ=5;基选择与p足够大(p≥10)即可,对结果不敏感;AR阶数上限H取较小定值(如8)已足够;方法对太阳黑子11年周期、气温年/半年/3年(ENSO)周期均能准确识别;局限在于当周期项的系数较小时(如
O(1/N)),可能低估r?;未来可结合频域理论进一步优化准则形式与惩罚项。结论为:该信息准则为FTS周期检测提供了理论严谨、计算可行的新工具,模拟与实数据均验证其有效性,对功能时间序列建模、气候、太阳物理等应用有重要意义。
结论部分翻译:研究人员提出了一种新的信息准则用于检测函数时间序列中的周期数。基于该准则的算法利用多元时间序列的第一主成分实现周期识别。研究人员从理论上证明了函数谐波回归模型中系数与频率参数估计的一致性,以及基于算法估计的周期数的一致性。模拟研究表明该模型选择准则对惩罚参数κ不敏感。在数据分析中,研究人员识别出太阳黑子数据的11年周期,以及日平均气温数据的3年周期(对应El Ni?o与La Ni?a现象)。