《Journal of Radiation Research and Applied Sciences》:A New Statistical Method with Monte Carlo Simulation: It’s Applications in the Vocal Education and Radiation Sector
编辑推荐:
本文针对职业教育和辐射科学领域中存在的数据缺失和非线性问题,提出了一种结合辅助信息和蒙特卡洛模拟的有限总体累积分布函数(CDF)估计新方法。研究通过秩变换和均值变换引入辅助信息,在简单随机抽样(SRS)框架下构建新型估计量,并利用蒙特卡洛模拟验证其偏差(Bias)、均方误差(MSE)和百分比相对效率(PRE)的优越性。结果表明,该方法能显著提高非响应情况下的估计精度和稳健性,为教育评估和辐射剂量分布建模提供了可靠的分析工具。
在现代数据科学中,如何从存在缺失或不完整信息的数据中准确推断总体特征,一直是统计学家和实际应用领域面临的共同挑战。特别是在职业教育和辐射科学这类数据收集容易受到多种因素干扰的领域,传统统计方法往往难以应对非响应(non-response)和非线性关系带来的估计偏差。例如,职业教育系统中学生参与度不均导致成绩数据缺失,辐射监测中传感器故障或环境干扰造成测量值丢失,这些问题都使得基于完整数据假设的传统估计量(如均值或中位数)失去可靠性。更关键的是,有限总体累积分布函数(CDF)能够提供比单一参数更全面的概率分布信息,但在非响应条件下的CDF估计研究相对匮乏。
为填补这一空白,由Mingzhe Sun、Diaa S. Metwally、Mohamed Kayid和M.A. El-Qurashi组成的研究团队在《Journal of Radiation Research and Applied Sciences》上发表了一项创新研究。他们开发了一种结合辅助变量和蒙特卡洛模拟的统计新方法,专门用于估计简单随机抽样(SRS)设计下存在非响应时的有限总体CDF。该方法的核心在于通过秩变换(rank-based transformation)和均值变换(mean transformation)引入辅助信息,有效处理数据缺失和非线性问题,并通过大量重复模拟实验验证估计量的稳健性和效率。
研究采用的关键技术方法主要包括:基于简单随机抽样的有限总体CDF估计理论框架构建;利用辅助变量(如辐射实验中的对数种群数或职业教育中的项目类型)进行比率型、乘积型和回归型估计量的适配;通过蒙特卡洛模拟生成服从双变量正态分布的有限总体,并人为引入不同比例(如10%、20%、30%)的非响应机制;使用偏差(Bias)、均方误差(MSE)和百分比相对效率(PRE)作为性能评估指标,对比新提出估计量与传统估计量(如Cochran比率估计量、Murthy乘积估计量等)的优劣。
1. 提出的估计量设计
研究团队在Singh等人(2009)工作的基础上,提出了一族新型CDF估计量。该估计量通过线性组合将比率、乘积和指数型估计量整合,其一般形式为:Fprop= αFn+ β[Fn(X?/x?)γ] + θ[Fn(x?/X?)δ],其中α、β、θ、γ、δ为待优化参数。通过一阶近似推导,得到该估计量的偏差和MSE表达式,并通过最小化MSE获得最优参数组合。模拟结果显示,在参数特定取值下(如方案10,即表1中第10种形状),估计量达到最小MSE和最大PRE。
2. 实证研究结果
研究使用三个真实数据集验证提出估计量的性能。Population I来自Aloraini等人(2025)的辐射实验数据,研究变量(y)为成年药材甲(Stegobium paniceum)在微波和伽马辐射后的存活数,辅助变量(x)为对数种群数。Population II取自El-Saeed等人(2025)的辐射响应时间数据。Population III源自欧盟统计局(Eurostat)2023年职业教育入学率数据,其中y代表纯学校制职业项目学生比例,x为校企结合制项目比例。在所有数据集中,新估计量Fprop在两种非响应情境(仅研究变量缺失、双变量均缺失)下均表现出最低MSE和最高PRE。例如在Population I中,Situ-I下MSE为0.0189908(PRE=185.99),Situ-II下MSE为0.0141457(PRE=249.70),显著优于传统估计量。
3. 蒙特卡洛模拟验证
模拟设定总体大小N=1000,样本量n=100,重复次数R=5000,生成双变量正态总体(μx=μy=50,σx=σy=10,ρ=0.7)。在25%非响应率下,新估计量在Situ-I和Situ-II中的MSE分别为0.01686202和0.01035720,PRE分别达到199.94和325.51,再次证实其对于不同总体结构和缺失机制的适应性。
结论与意义
本研究通过理论推导、实证分析和模拟验证三位一体的论证,证实了所提出的有限总体CDF估计量在非响应条件下的优越性。其重要意义体现在三个方面:方法论上,将辅助信息与蒙特卡洛模拟结合,为复杂抽样问题提供了可计算的解决方案;应用层面,为职业教育中的学生表现评估和辐射科学中的剂量分布建模提供了更可靠的统计工具;实践价值上,通过降低对数据完整性的依赖,增强了在真实场景中决策的科学性。该研究成果不仅推动了抽样理论的发展,也为跨领域的数据分析问题建立了桥梁。