Marshall–Olkin阿尔法幂变换Extended-X分布及其应用

《Journal of Probability and Statistics》:Marshall–Olkin Alpha Power Transformed Extended-X Distribution and Its Applications

【字体: 时间:2026年05月22日 来源:Journal of Probability and Statistics 1.3

编辑推荐:

  该论文引入了Marshall–Olkin阿尔法幂变换Extended-X(MOAPTE-X)分布族,这是一个高度灵活的分布类,旨在解决现有模型的局限性。研究人员开发了一种新颖的四参数分布,称为Marshall–Olkin阿尔法幂变换Extended-反转Kum

  
该论文引入了Marshall–Olkin阿尔法幂变换Extended-X(MOAPTE-X)分布族,这是一个高度灵活的分布类,旨在解决现有模型的局限性。研究人员开发了一种新颖的四参数分布,称为Marshall–Olkin阿尔法幂变换Extended-反转Kumaraswamy(MOAPTE-IK)分布,包含一个尺度参数和三个形状参数,通过将Marshall–Olkin方法与阿尔法幂变换相结合来扩展反转Kumaraswamy分布,从而增强其对复杂危险率函数的建模能力。MOAPTE-IK的一些基本数学性质,包括分位数函数、矩、生成函数、众数、顺序统计量和Rényi熵(Rényi entropy),均已推导得出,确立了其理论稳健性。参数估计采用最大似然方法进行,所得估计量的行为通过Monte Carlo模拟进行评估,展示了一致性、准确性和效率。使用两个真实数据集进行的比较分析表明,MOAPTE-IK分布始终优于竞争模型,如Marshall–Olkin扩展反转Kumaraswamy(MOEIK)分布、阿尔法幂反转Kumaraswamy(APIK)分布和反转Kumaraswamy(IK)分布。在模型选择准则(AIC、CAIC、BIC、HQIC)和拟合优度检验(K-S、A*、w*)方面,所提出的模型始终表现优于其竞争者。该分布为工程、医疗保健和社会科学等多个学科建模复杂数据提供了强大而灵活的工具。
准确建模复杂数据是统计学中的基本挑战。预测结果、评估风险和分析生存数据等任务都依赖于通过灵活精确的数学模型来表示信息的能力。传统统计模型往往缺乏必要的适应性来准确表征现实世界数据的复杂性,这可能导致模型误设、估计偏差和错误推断。近年来,对更具适应性和灵活性的统计模型的需求日益受到关注。尽管现有分布有所帮助,但在处理各种数据模式时仍存在局限性,特别是那些具有非单调行为以及无法同时处理偏度和峰度的数据。因此,大量研究集中于通过添加辅助形状参数来扩展这些分布。这些改进提高了所提出模型的灵活性,使其能够涵盖广泛的实证模式,包括多样的危险率形状和高水平的偏度。为改善偏态和重尾数据的建模灵活性,研究人员还开发了多种生成新分布的方法,如阿尔法幂变换(Alpha Power Transformation, APT)方法、T-X分布族、指数化广义Gull阿尔法幂族(Exponentiated-Generalized Gull Alpha Power Family, EGGAPF)以及广义阿尔法幂族(Generalized Alpha Power Family, GAPF)。由Marshall和Olkin提出的Marshall–Olkin分布族因其能够引入额外参数、通过修改基线分布的尾部行为和危险率结构来增强模型灵活性而备受关注。Marshall–Olkin变换为构建能够建模多种数据模式的新分布族提供了有力机制。后续发展包括MO长度偏置指数分布、Marshall–Olkin扩展反转Kumaraswamy分布以及用于建模风速数据并展示优于竞争模型性能的Marshall–Olkin幂Lomax分布。ul Haq等人进一步研究了包含完整和删失样本的扩展,证明了MO类分布在实际环境中的稳健性。由ul Haq等人开发的扩展Marshall–Olkin Burr III分布在建模偏态寿命数据方面展示了改进的灵活性和强大的推断性能。同样,Raffiq等人提出了Marshall–Olkin反转Nadarajah–Haghighi分布,强调参数估计和真实数据应用。

更近期,Bo等人提出了一种新的分布生成族,称为阿尔法幂变换Extended-X(APTE-X),以进一步适应非单调危险模式。其累积分布函数(CDF)和概率密度函数(PDF)已被用于扩展分布,旨在增加建模复杂数据的灵活性和适用性,以及适应危险率函数的多种形状,特别是那些呈现非单调模式的形状。

例如,Abd AL-Fattah等人引入了反转Kumaraswamy分布,其CDF定义为特征性的右尾较长,并呈现单调递减的危险率,具有交替上下形状。

将这些分布生成族应用于扩展基线模型是一种成熟的方法,用于创建更稳健灵活的统计框架。然而,尽管IK分布对某些寿命数据有效,但它缺乏建模表现出浴盆或反浴盆危险率的复杂现象的灵活性。

虽然存在多种分布生成器并已被用于扩展基线分布,但许多模型仍无法捕捉复杂的危险率结构,如浴盆型、反浴盆型和单峰非线性危险率动态,这些在系统可靠性分析、医学分析、工程系统中十分常见,也无法建模具有重尾和不同程度偏度的数据集。因此,开展这项研究的必要性在于:现有模型在同时处理非单调危险率、重尾数据和变化偏度方面存在明显不足,需要更灵活的统计工具来准确描述复杂的实证模式。

研究人员提出了Marshall–Olkin阿尔法幂变换Extended-X(MOAPTE-X)分布族,并将此生成器应用于IK分布。通过结合Marshall–Olkin分布方法和阿尔法幂变换Extended方法到IK分布,创建了MOAPTE-IK分布。该四参数模型为偏态数据和非单调危险率提供了优越的适应性。

主要技术方法包括:MOAPTE-IK分布的构建基于基线分布的CDFF(x)和PDFf(x),通过Marshall–Olkin变换和阿尔法幂变换的综合作用生成新分布;参数估计采用最大似然估计(Maximum Likelihood Estimation, MLE)方法,使用Broyden–Fletcher–Goldfarb–Shanno(BFGS)算法进行数值优化;通过Monte Carlo模拟验证估计量的渐近性质;使用两个真实生存数据集进行实证分析——豚鼠注射不同剂量结核杆菌后的生存时间数据(样本量n=72),以及来源于Stata出版社网站的347名肾癌患者的生存时间数据。

在统计性质方面,研究人员推导了MOAPTE-IK分布的多个关键性质。分位数函数方面,通过代入u值得出中位数、第一四分位数和第三四分位数的封闭表达式,分位数随θ、α、β增大而上升,随λ减小而更集中于低端。Rényi熵分析显示,θ、α、β增加时Rényi熵值增大,表明信息含量或不确定性增加;而λ增加则导致Rényi熵值减小。顺序统计量方面,推导了第j个顺序统计量的PDF和CDF,特别给出了最小和最大顺序统计量的表达式。众数通过数值优化方法在区间[0,1000]上求取,参数变化影响分布的偏度、峰度和众数位置。矩和生成函数方面,利用广义二项式展开和beta积分性质,给出了r阶矩的级数表达式和矩生成函数的闭式解。

在参数估计与模拟研究方面,研究人员建立了对数似然函数,推导了关于θ、α、β、λ的偏导数方程。由于MLE无闭式解,采用BFGS算法进行数值优化。Monte Carlo模拟基于2000次迭代,样本量从n=25到n=525,真实参数设置为β=0.5、λ=0.3、θ=1.2、α=0.1,0.3,0.5。模拟结果显示,随着样本量增加,偏差和均方误差(MSE)均趋近于零,证实了MLE的一致性和效率性。

在应用研究方面,数据集一为72只豚鼠注射不同剂量结核杆菌后的生存时间。该数据集右偏(偏度1.835)、尖峰厚尾(峰度2.894),TTT图呈凹形表明递增危险率。MOAPTE-IK分布拟合最优:K-S统计量最低(0.08737)、p值最高(0.6417)、A*和w*最小,AIC、CAIC、BIC、HQIC均为最低。数据集二为347名肾癌患者的生存时间,来源于Stata出版社网站。该数据集同样右偏(偏度1.884)、尖峰厚尾(峰度3.734),TTT图凸形表明递减危险率。MOAPTE-IK分布再次展现最优拟合:K-S统计量0.04214(p值0.5688)、A*=1.8802、w*=0.2878,均为竞争模型中最佳,信息准则值显著低于其他模型。

研究结论部分指出,该论文提出了新颖的四参数MOAPTE-IK模型,通过MOAPTE-X分布族扩展了反转Kumaraswamy分布。尽管现有模型是有用的工具,MOAPTE-IK分布在捕捉包括单峰、浴盆和反浴盆模式在内的多种危险率形状方面展示了更高的灵活性,使其成为基线反转Kumaraswamy分布的更稳健替代。MOAPTE-IK分布的数学性质,包括矩、生成函数、Rényi熵、危险函数、顺序统计量和分位数函数,均已推导得出。采用最大似然方法估计新分布的参数,并通过Monte Carlo模拟评估所得估计量的行为。通过RMSE和偏差评估估计量的性能;结果表明估计参数具有一致性和效率性。MOAPTE-IK分布应用于两个数据集,展示了其灵活性,优于其他竞争模型。由于该分布使用最大似然估计进行参数估计,未来学者可采用最小二乘法、加权最小二乘法、基于Markov链Monte Carlo方法的Bayes估计以及最大乘积间距法(Maximum Product Spacing, MPS)等方法,与MLE结果进行比较,并评估该分布参数估计的稳健性。未来的研究还应考虑将此工作扩展到回归模型,特别是使用Cox比例危险(Cox-PH)模型和加速失效时间(Accelerated Failure Time, AFT)模型,以分析协变量并开发更全面的模型,从而改善该分布在实际场景中的应用。此外,进一步研究可集中于开发MOAPTE-X分布族的二元变体以适应依赖数据集,并将该模型应用于中智数据环境中,以解决工程测量中的不确定性问题。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号