《Results in Engineering》:The Fractional Exponential Distribution: A Gamma Subfamily from Conformable Calculus
编辑推荐:
本文通过将保形分数阶导数(conformable fractional derivative,CFD)应用于指数分布的累积分布函数,构建了一个受限的 Gamma 子族的分数阶微积分推导。所得双参数模型称为分数阶指数(fractional exponential
本文通过将保形分数阶导数(conformable fractional derivative,CFD)应用于指数分布的累积分布函数,构建了一个受限的 Gamma 子族的分数阶微积分推导。所得双参数模型称为分数阶指数(fractional exponential,FE)分布,其密度与形状参数为 2?α、率参数为 β 的 Gamma 密度完全一致,其中 0<α≤1,β>0。因此,本研究的主要贡献并非引入一个全新的分布族,而是提出了一个具有良好处理性的 Gamma 子族的分数阶推导、解释及受限参数化。在这一框架下,研究人员推导了累积分布函数、生存函数、风险函数、常规矩、不完全矩、剩余寿命矩、分位数、众数以及 Rényi 熵。频率学派估计方面,研究采用了极大似然法、矩估计法、最小二乘法、Cramér–von Mises 准则和 Anderson–Darling 准则;贝叶斯估计方面,则对 β 采用 Gamma 先验,对 α∈(0,1] 采用 Beta 先验。Monte Carlo 模拟研究比较了所提估计量在不同参数设定与样本量下的表现,并为频率学派方法报告了 Bootstrap 置信区间。最后,研究分析了 3 组真实数据,以评估 FE 模型相对于指数分布、Weibull 分布、Lindley 分布和加权指数分布的灵活性。结果表明,FE 模型为特定 Gamma 子族提供了一个数学上可处理的分数阶解释,并为寿命数据分析提供了有用的替代性视角。
该论文发表于《Results in Engineering》,研究聚焦于分数阶微积分与经典寿命分布建模之间的衔接问题。指数分布因其解析形式简洁、风险率恒定而被广泛用于可靠性、排队论、生存分析和随机建模,但恒定风险率假设在许多实际场景下过于严格,尤其当失效风险随时间增加,或样本数据表现出超出指数模型可容纳范围的变异性时,传统指数分布便难以充分刻画数据结构。与此同时,分数阶微积分近年来已成为扩展概率分布的重要数学工具,其中保形分数阶导数(conformable fractional derivative,CFD)因保留了普通微积分中的乘法法则、商法则与链式法则,而具有更强的可操作性。现有文献已将 CFD 应用于 Pareto、Lomax 等分布的推广,但对于经典 Gamma 子族的分数阶解释仍缺乏系统研究。基于此,研究人员从指数分布出发,通过 CFD 所诱导的权重因子 x
1?α 对原始密度进行加权并重新归一化,构建了分数阶指数(FE)模型,旨在为一个受限 Gamma 子族提供严格的分数阶来源、统计解释与应用框架。
在方法上,研究人员首先基于指数分布的累积分布函数构造 FE 密度,并证明其严格等价于形状参数 k=2?α、率参数为 β 的 Gamma 分布,其中 1≤k<2。随后推导其分布函数、生存函数、风险函数、原点不完全矩、剩余寿命矩、众数、分位数与 Rényi 熵。参数估计方面,同时考察极大似然估计(MLE)、矩估计(MM)、最小二乘估计(LS)、Cramér–von Mises 估计(CM)和 Anderson–Darling 估计(AD),并建立 β 的 Gamma 先验与 α 的 Beta 先验下的贝叶斯推断,采用 Metropolis–Hastings-within-Gibbs 马尔可夫链 Monte Carlo(MCMC)算法实现后验抽样。研究进一步开展 Monte Carlo 模拟,并使用 3 组真实数据:100 名银行顾客等待时间数据、IIT Kanpur 48 名学生数学期末成绩数据,以及 1 组可修复系统故障间隔时间数据。
研究的核心结论是:FE 分布本质上并不是一个全新的分布族,而是一个由保形分数阶微积分诱导出的、具有明确分数阶解释的受限 Gamma 子族。该构造在理论上统一了无记忆的指数情形与风险率递增的老化情形,并在应用上表现出良好的拟合能力与推断稳定性。论文的重要意义在于,一方面为经典 Gamma 分布的部分参数区间提供了分数阶来源和机制解释,另一方面也为寿命数据分析提供了一种兼具可解释性与可计算性的替代建模视角。
2. The Fractional Exponential Model and Its Relation to the Gamma Family
本节建立 FE 模型并阐明其与 Gamma 分布的严格对应关系。研究人员定义
f
α(x)=D
αF(x)/∫
0∞D
αF(u)du,
将指数分布密度 f(x)=βe
?βx 代入后,得到
f
α(x)=β
2?α/Γ(2?α)·x
1?αe
?βx。
研究证明该密度恰为形状参数 2?α、率参数 β 的 Gamma 密度,因此 FE 分布等价于形状参数落在 [1,2) 区间内的 Gamma 子族。进一步推导得出其累积分布函数可由下不完全 Gamma 函数表示,生存函数可由上不完全 Gamma 函数表示,风险函数则写为
h
α(x)=β
2?αx
1?αe
?βx/Γ(2?α,βx)。
研究指出,当 α=1 时,FE 退化为普通指数分布;当 α<1 时,风险率从 0 开始单调增加,并在 x→∞ 时趋于 β,这表明模型能够覆盖恒定风险与递增风险两类机制。
3. Distributional Properties
本节系统给出 FE 分布的统计性质。研究人员首先推导出 r 阶原点矩
E(X
r)=β
?rΓ(r+2?α)/Γ(2?α),
并由此得到均值 E(X)=(2?α)/β、方差 Var(X)=(2?α)/β
2,以及变异系数平方 CV
2=1/(2?α)。该结果说明变异强度仅由 α 决定,而与 β 无关。进一步,偏度 γ
1=2/√(2?α),峰度超额 γ
2=6/(2?α),显示当 α 逼近 1 时,分布逐渐接近指数型,偏斜程度与相对尾部厚度上升。随后,论文给出 s 阶不完全矩、n 阶剩余寿命矩及平均剩余寿命表达式。研究还通过对对数密度求导,得到众数为 x
mode=(1?α)/β;分位数则需借助正则化不完全 Gamma 函数的逆函数表示。最后,研究利用 Gamma 积分恒等式严格证明了 FE 分布的 Rényi 熵闭式公式,表明该模型在信息测度上同样具有较好的解析可处理性。
4. Frequentist Inference
本节讨论频率学派推断。研究人员构造了样本 X
1,…,X
n 的对数似然函数,并推导出关于 α 与 β 的得分方程。由 ??/?β=0 可得到 β 的条件解析表达式 β?=(2?α?)/x?,再将其代回 α 的得分方程后,需要数值求解 α?。研究指出,矩估计法虽然可由样本均值和样本方差直接求得
β?
MM=x?/s
2,α?
MM=2?x?
2/s
2,
但 α?
MM 在有限样本下可能超出允许参数空间 (0,1],因此稳定性不足。相比之下,极大似然估计与贝叶斯估计能够更自然地施加参数约束。研究同时给出观测信息矩阵,用于标准误估计,并将 LS、CM 与 AD 作为基于经验分布函数与理论分布函数偏差的最小距离方法,用作鲁棒性补充比较。
5. Bayesian Inference
本节建立贝叶斯推断框架。研究人员对 β 指定 Gamma 先验,对 α 指定定义于 (0,1] 的 Beta 先验,从而得到联合后验分布。由于 β 的全条件后验仍为 Gamma 分布,因此在给定 α 时具有条件共轭性;而 α 的全条件后验由于包含 Γ(2?α) 与样本乘积项,不属于标准分布形式,因此采用 Metropolis–Hastings 更新。具体而言,研究使用 Metropolis–Hastings-within-Gibbs 算法:β 由其 Gamma 全条件直接抽样,α 则通过限制在 (0,1] 区间内的随机游走 Metropolis–Hastings 步更新。MCMC 总迭代次数为 20,000 次,前 5,000 次作为 burn-in,并每隔 5 次保留 1 次样本以减弱自相关。最终以后验均值作为点估计,并由 2.5% 与 97.5% 后验分位数构造 95% 可信区间。
6. Simulation Study
本节利用 Monte Carlo 模拟评估 FE 模型下不同估计方法的小样本性质。随机数生成基于逆变换法实施,由于 FE 等价于受限 Gamma 分布,因此可通过 Gamma 分位函数生成样本。模拟设置包括样本量 n∈{50,100,500},α∈{0.5,0.7,0.9},β∈{0.5,1.0,1.5},每种情形重复 1000 次。研究比较 Bayesian、MLE、MM、LS、CM 与 AD 六类估计方法,并对 MLE、LS、CM、AD 构造 Bootstrap 百分位数置信区间。结果表明,随着样本量增加,各估计量的偏差与均方误差(MSE)总体下降,区间覆盖率逐步接近名义水平。Bayesian 方法在各设定下表现最稳定,尤其在小样本下具有更低偏差、更小 MSE 以及更接近 95% 的区间覆盖率;MLE、LS、CM、AD 随样本量增大也表现良好;MM 则常出现较大偏差与不稳定性,尤其对 β 的估计较差,且 α 易出现不可行值。
7. Discussion and Numerical Findings
本节对数值结果进行归纳。首先,研究确认所有主要估计方法都呈现样本量增大带来的性能改进,其中 Bayesian 估计的稳定性最为突出。其次,在方法比较上,Bayesian、MLE 与最小距离方法均优于 MM,这与 MM 依赖样本一、二阶矩、且可能产生越界参数估计有关。再次,MCMC 诊断结果显示,保留样本的轨迹图围绕后验区域稳定波动,自相关随滞后增加而下降,说明后验抽样混合与收敛较为满意。研究还指出,当 α 接近边界值 1 时,FE 分布趋近普通指数分布,此时分数阶成分更难与抽样波动区分,因此 α 的估计更具挑战。区间估计方面,Bayesian 可信区间在各样本量下均接近名义覆盖率,而 Bootstrap 置信区间在中大样本下更可靠。基于这些结果,研究建议:小样本情形优先采用 Bayesian 方法;中大样本可采用 MLE 并辅以 Bootstrap 区间;LS、CM、AD 可作为稳健性检验;MM 应谨慎使用。
8. Applications to Real Data
本节以 3 组真实数据检验 FE 模型的实际适用性,并与指数分布、Weibull 分布、Lindley 分布及加权指数分布比较。3 组数据分别来自银行等待时间、IIT Kanpur 数学期末成绩,以及可修复系统故障间隔时间。所有竞争模型均通过极大似然法估计参数,拟合优度则通过 AIC、BIC、AICc 与 Kolmogorov–Smirnov(KS)统计量评价。结果显示,在全部 3 组数据上,FE 模型均取得最小的 AIC、BIC、AICc 与 KS 统计量,并具有较大的 KS 检验 p 值,整体优于指数分布、Lindley 分布和加权指数分布,同时相较 Weibull 分布也表现出竞争优势。对于前两组数据,FE 模型中的 α 估计值数值上接近允许区间下边界,说明拟合结果接近该受限 Gamma 表示的边界区域,应将其解释为边界解而非明显的内部点估计。总体而言,真实数据分析支持了 FE 模型在刻画右偏、递增风险或非指数型寿命数据方面的灵活性。
讨论部分总结表明,FE 模型最主要的价值不在于“新分布”的提出,而在于为受限 Gamma 子族提供了一个清晰的分数阶解释、良好的解析可处理性和明确的统计定位。模拟与实证结果均显示,Bayesian 推断在小样本中更稳定,MLE 在中大样本中自然且有效,LS、CM、AD 可作为补充性最小距离工具,而 MM 因易产生不可行估计而稳定性不足。该研究通过将分数阶微积分机制与经典生存分析模型连接起来,为寿命数据建模提供了可解释、可推断且可比较的统一框架。
研究结论部分可译为:本文研究了由保形分数阶导数(CFD)作用于指数分布所诱导的分数阶构造,并证明所得 FE 模型精确对应于一个形状参数为 2?α、率参数为 β 的受限 Gamma 分布族。这一表示为模型提供了清晰的数学解释,并使其统计定位更加透明。研究推导了 FE 模型的多种分布性质,包括累积分布函数、生存函数、风险率、矩、不完全矩、剩余寿命矩、分位数、众数和 Rényi 熵,同时讨论了频率学派与贝叶斯推断程序。模拟研究表明,随着样本量增加,估计性能得到改善,而贝叶斯方法在所考察情形下表现稳定。真实数据分析进一步表明,FE 模型较指数分布、Lindley 分布和加权指数分布具有更高灵活性,并在实际应用中与 Weibull 分布相比具有竞争力。总体而言,FE 模型的主要价值在于其分数阶解释、解析可处理性以及受限 Gamma 结构。研究也指出其局限性,包括 α 被限制在 (0,1]、从而形状参数仅限于 [1,2),以及贝叶斯推断依赖 MCMC,在超大样本下可能带来较高计算开销。