编辑推荐:
为解决寿命数据建模难题,研究人员引入 TGWL 分布,发现 BNN 估计效果佳,该分布拟合优度高。
在工程、生命科学、保险和医学等众多领域,寿命数据无处不在。想象一下,在医学领域,医生们需要了解癌症患者的缓解时间,以评估治疗效果;在保险行业,精算师们依靠寿命数据来制定合理的保险政策。然而,寿命数据的生成过程极为复杂,就像一团乱麻,传统的建模方法在处理这团 “乱麻” 时显得力不从心。常用的指数、伽马、威布尔和林德利等分布,缺乏足够的灵活性,难以准确描绘现实数据中的复杂情况。而且,随着新分布的不断涌现,虽然在一定程度上解决了部分问题,但新的挑战也随之而来,这些新分布往往更加复杂,使用经典的参数估计方法,如最大似然估计(MLE)、普通最小二乘法(OLS)等,很难得到准确、精确和稳健的估计结果。
为了攻克这些难题,来自坦桑尼亚多多马大学数学系的研究人员 Pius Marthin 和 Gadde Srinivasa Rao 展开了深入研究。他们的研究成果发表在《Heliyon》杂志上。
研究人员提出了一种全新的分布 —— 变换广义威布尔林德利(Transmuted Generalized Weibull Lindley,TGWL)分布。这一分布就像是一个 “多面手”,它巧妙地融合了广义威布尔林德利(GWL)分布和变换分布族的优势,具有更强的适应性,能够更精准地捕捉现实世界中寿命数据的复杂性。
在研究过程中,研究人员采用了多种技术方法。首先是最大似然估计(MLE),通过求解对数似然函数的偏导数得到参数估计值,但由于模型复杂,这些方程需要数值求解。其次是贝叶斯推断,为各参数选择合适的先验分布,利用马尔可夫链蒙特卡罗(MCMC)方法获取参数后验分布的样本,特别是使用了无回转采样器(NUTS)来提高采样效率。最后是贝叶斯神经网络(BNN)方法,构建 3 层前馈神经网络,设置合适的激活函数和正则化参数,结合贝叶斯定理计算后验分布,并利用 Bootstrap 重采样技术提升估计的准确性和可靠性。
研究结果如下:
- TGWL 分布的统计特性:研究人员推导了 TGWL 分布的一系列基本统计特性。其累积分布函数(CDF)、概率密度函数(PDF)、生存函数、风险函数、分位数函数、平均剩余寿命(MRL)等函数都有相应的表达式。通过分析这些函数,发现不同的参数组合会使 TGWL 分布呈现出多样化的形状,这意味着它能够适应不同类型的寿命数据,比如不同程度的偏度和峰度。例如,当参数取某些值时,CDF 曲线会呈现出不同的增长和下降趋势,PDF 曲线也会有对称、指数型、长尾等多种形态。
- 参数估计结果:通过大量模拟实验对比了 MLE、贝叶斯推断和 BNN 三种方法对 TGWL 分布参数的估计效果。MLE 在估计参数时存在较大偏差,且估计值的最高密度区间(HDI)较宽,说明其不确定性较大。贝叶斯推断虽然在准确性和精确性上有所提升,但部分参数的 HDI 仍然较宽。而 BNN 表现最为出色,在不同样本量下,其估计值都能非常接近真实参数值,且 HDI 最窄,这表明 BNN 能提供更可靠、精确的估计,为复杂寿命模型的建模和推断提供了有力支持。
- 实际数据集应用:研究人员将 TGWL 分布应用于两个实际数据集,即癌症患者的缓解时间数据集和患者接受镇痛药后的缓解时间数据集。通过与 GWL 和威布尔林德利(WL)分布等相关分布进行比较,发现 TGWL 分布在拟合这两个数据集时表现最佳。在癌症患者缓解时间数据集中,TGWL 分布的 -2LogL 值最小,AIC、BIC、CAIC 和 HQIC 等指标也最低,说明它对该数据的拟合效果最好,能更好地反映数据的内在特征。在镇痛药缓解时间数据集中,同样得出了类似的结论,TGWL 分布的各项指标均优于其他对比分布,预测值与实际值也更为接近。
研究结论和讨论部分表明,TGWL 分布在寿命数据建模方面具有显著优势。它能够有效捕捉复杂寿命数据的特征,为实际应用提供更准确的模型。BNN 在参数估计上的出色表现,为研究人员在处理复杂模型时提供了更可靠的方法。不过,该研究也存在一定的局限性,比如尚未在不同删失场景下测试 TGWL 分布对生存数据的处理能力。未来的研究可以朝着这个方向展开,进一步拓展 TGWL 分布的应用范围,使其在寿命数据分析领域发挥更大的作用。