《Journal of Radiation Research and Applied Sciences》:The power Juchez distribution: Properties, estimation, simulation, and applications to failure time and irradiation data
编辑推荐:
准确捕捉现实世界数据中复杂模式需要灵活的概率模型。然而,现有Juchez分布(Juchez Distribution, JD)的扩展形式常缺乏接受多种分布形态的灵活性,因此需要更具通用性的模型。本研究提出一种多功能的Juchez分布扩展——幂次Juchez分布
准确捕捉现实世界数据中复杂模式需要灵活的概率模型。然而,现有Juchez分布(Juchez Distribution, JD)的扩展形式常缺乏接受多种分布形态的灵活性,因此需要更具通用性的模型。本研究提出一种多功能的Juchez分布扩展——幂次Juchez分布(Power Juchez Distribution, PJD)。研究人员采用十五种不同的估计方法来估计所提模型的参数,并推导若干重要统计性质。通过全面的模拟研究评估这些方法的性能,证明其在不同条件下的有效性和一致性。进一步利用三个真实数据集(包括辐照数据集)验证所提模型的适用性,展示其在多个行业中的实用性。基于拟合优度指标和标准模型选择的比较分析表明,幂次Juchez分布比竞争模型提供更优的拟合。这些结果证明所提分布具有适应性,可用于拟合真实数据。
该论文发表于《Journal of Radiation Research and Applied Sciences》,旨在解决经典Juchez分布(JD)在刻画实际数据多样性行为方面的不足。在统计分布理论中,向现有分布族添加新参数以增强模型灵活性是一种重要技术,但现有Juchez分布的扩展形式仍难以充分捕捉非单调或浴盆形(bathtub-shaped)风险率等复杂结构。辐射相关研究中的寿命观测常受环境变异性和处理效应影响,包括辐照与未辐照材料(如暴露于药材甲虫侵染的胡椒薄荷包装)的测试,这些复杂性需要灵活的统计模型。传统寿命分布如指数分布(Exponential Distribution)和Lindley分布灵活性不足,难以捕捉复杂风险率特征。尽管已有多种广义分布被提出,但许多模型要么增加数学复杂性,要么未能充分解决风险率灵活性问题。Juchez分布虽为寿命数据建模提供了相对简单的框架,但其基线模型在捕捉多种风险率形态方面仍显局限。
基于此,研究人员提出了幂次Juchez分布(PJD),通过幂变换引入额外形状参数δ,显著增强基线分布的灵活性。该分布可建模多种风险率形态,包括非单调、递增和递减形式,且当δ=1时退化为基线Juchez分布,保证了模型扩展的逻辑连贯性。
研究首先定义了PJD的概率密度函数(PDF)、累积分布函数(CDF)、生存函数(Survival Function)和风险率函数(Hazard Rate Function)。密度图表明,不同参数组合下PJD呈现多种形态。风险率函数的灵活性尤为突出,可呈现浴盆形(非单调)、单调递增、单峰形和单调递减等形态,验证了其建模多种真实数据的潜力。
在统计性质方面,研究人员推PJD的r阶原点矩和矩生成函数(MGF)。r阶原点矩表达式为μ
r=ρ
?r/δ[Γ(r/δ+4)+ρ
2Γ(r/δ+2)+ρ
3Γ(r/δ+1)]/(ρ
3+ρ
2+6),由此可得均值、方差、偏度和峰度。矩生成函数通过级数展开表示,可获取各阶矩。r阶不完全矩ψ
r(z)的推导对风险分析和可靠性应用至关重要,其表达式涉及不完全伽马函数γ(·,·)。基于不完全矩,研究人员进一步得到平均剩余寿命(Mean Residual Life, MRL)和平均等待时间(Mean Waiting Time, MWT)函数,这些指标在评估系统老化特征方面具有重要作用。Lorenz曲线和Bonferroni曲线用于量化分布不平等程度和条件均值,Rényi熵则衡量随机试验结果的不确定性,其表达式包含双重无穷级数和伽马函数。次序统计量的PDF和CDF也被详细推导,为极值分析和风险评估提供理论基础。
参数估计方面,研究人员采用十五种方法构建完整推断框架:最大似然估计(Maximum Likelihood Estimation, MLE)、Anderson-Darling估计(Anderson-Darling Estimation, ADE)、Cramér-von Mises估计(Cramér-von Mises Estimation, CVME)、最大间距乘积估计(Maximum Product of Spacings Estimation, MPSE)、最小二乘估计(Least Squares Estimation, LSE)、右尾Anderson-Darling估计(Right-tail Anderson-Darling Estimation, RTADE)、加权最小二乘估计(Weighted Least Squares Estimation, WLSE)、左尾Anderson-Darling估计(Left-tail Anderson-Darling Estimation, LTADE)、最小间距绝对距离估计(Minimum Spacing Absolute Distance Estimation, MSADE)、最小间距绝对对数距离估计(Minimum Spacing Absolute-Log Distance Estimation, MSALDE)、Anderson-Darling左尾二阶估计(Anderson-Darling Left Tail Second Order Estimation, ADSOE)、Kolmogorov估计(Kolmogorov Estimation, KE)、最小间距平方距离估计(Minimum Spacing Square Distance Estimation, MSSDE)、最小间距平方对数距离估计(Minimum Spacing Square-Log Distance Estimation, MSSLDE)以及最小间距Linex距离估计(Minimum Spacing Linex Distance Estimation, MSLNDE)。模拟研究表明,MLE在偏置(Bias)和均方误差(Mean Squared Error, MSE)方面表现最优,MPSE位列第二。
研究结果部分包含以下方面:
**密度与风险率函数的灵活性**:通过不同参数组合绘制密度图和风险率图,得出PJD可呈现递增、递减、单峰和浴盆形等多种风险率形态,验证了所提分布的理论灵活性。
**矩与生成函数性质**:推导PJD的r阶原点矩、矩生成函数、不完全矩、平均剩余寿命、平均等待时间、Lorenz与Bonferroni曲线、Rényi熵以及次序统计量的闭合表达式,得出各统计量均可通过参数δ和ρ显式表示,且基线Juchez分布作为特例嵌套于模型中的结论。
**估计方法比较**:基于样本量n=20, 70, 130, 200, 240, 300,重复1000次模拟,评估各估计方法的|偏置|、均方误差、平均相对误差(Mean Relative Error, MRE)、平均绝对差(Average Absolute Difference, D
abs)和最大绝对差(Maximum Absolute Difference, D
max)。结果表明MLE得分最优(70.0),MPSE次之(100.0),各度量随样本量增加趋于精确。
**失效时间数据应用(数据集I)**:分析50个项目的失效时间(周),PJD在AIC(303.7522)、-2logL(299.7522)、HQIC(305.2084)、KS统计量(0.0770,p=0.9286)、CVM统计量(0.0383,p=0.9432)和AD统计量(0.2077,p=0.9882)方面均优于Juchez分布、Lindley分布、X-Lindley分布、指数分布、扩展指数分布、Weibull分布和Chen分布等竞争模型。
**可靠性数据应用(数据集II)**:分析另50个项目的失效时间(周),PJD在AIC(309.7913)、-2logL(305.7913)、HQIC(311.2475)、KS统计量(0.0762,p=0.9124)、CVM统计量(0.0329,p=0.9669)和AD统计量(0.2544,p=0.9679)方面再次表现最优,尤其在Anderson-Darling统计量上的优势表明其更好地刻画了尾部行为。
**辐照数据应用(数据集III)**:分析未辐照与经伽马射线(6、8、10 kGy)或微波辐射(1、2、3分钟)处理的胡椒薄荷包装对药材甲虫侵染的易感性指数(Susceptibility Index, SI),样本量n=21。PJD在AIC(21.3363)、-2logL(17.3363)、HQIC(21.7897)方面最优,Weibull分布和Chen分布表现接近,但PJD在所有度量上仍保持领先。
讨论与结论部分指出,幂次Juchez分布作为Juchez分布的灵活扩展,允许概率密度和风险率函数的广泛形态,适用于复杂寿命和可靠性数据建模。十五种估计技术的比较揭示了准确性、稳定性和计算效率的明显差异,MPSE在多种情境下表现优异,而传统MLE并非总是最优。真实数据应用证明所提分布优于竞争模型,尤其在尾部行为和非单调风险结构方面。研究局限性包括:额外形状参数增加模型复杂度,对小样本或重度删失数据可能造成计算困难;当前限于单变量框架,未纳入协变量效应或回归模型;未探讨贝叶斯估计等先进计算技术。未来研究方向可扩展至回归情境、应用贝叶斯方法、以及处理高维数据和删失数据。
研究结论部分表明:为克服经典Juchez模型在反映实践数据行为多样性方面的不足,本工作提出了幂次Juchez分布作为灵活扩展。该分布适用于复杂寿命和可靠性数据建模,因其允许概率密度和风险率函数的广泛形态。通过十五种估计技术构建了完整推断框架,模拟结果显示各估计量在准确性、稳定性和计算效率方面存在明显差异。具体而言,最大间距乘积估计在多种情境下提供更优性能,而最大似然估计等传统方法并非总是最优。对真实数据集(包括失效时间和辐照相关数据)的应用展示了模型的实用价值,所提分布始终优于竞争模型,证明其识别数据底层模式的能力。这些发现强调了灵活分布建模在获得更可靠统计推断中的关键作用。总体而言,研究不仅提出了新分布,还提供了估计方法的全面评估及其实用建议。未来可基于所提PJD模型创建回归框架以纳入协变量效应,探索贝叶斯估计技术以解决最大似然估计的数值问题,并将应用扩展至删失数据和更复杂的可靠性结构。
该研究所用主要关键技术方法包括:基于幂变换的分布构造方法;十五种经典频率学参数估计方法(MLE、ADE、CVME、MPSE、LSE、RTADE、WLSE、LTADE、MSADE、MSALDE、ADSOE、KE、MSSDE、MSSLDE、MSLNDE);蒙特卡洛模拟评估方法;以及基于AIC、-2logL、HQIC等信息准则和KS、CVM、AD等拟合优度检验的模型比较方法。真实数据来源包括:Arshad等(2021)的50个项目失效时间数据集、Murthy等(2004)的50个项目失效时间数据集,以及Abdelfattah和Sayed(2022)的胡椒薄荷包装辐照处理易感性指数数据集。