《Scientific Reports》:Improving the value of population health data for health policy and decision-making using machine learning algorithms in EQ-5D-5L index estimation
编辑推荐:
本研究针对健康政策制定中缺乏高质量健康效用值的难题,创新性地利用机器学习方法基于常规收集的社会人口学数据和最小欧洲健康模块(MEHM)估计EQ-5D-5L指数。通过对7项大规模人口调查(N=9,324)数据的分析发现,AdaBoost模型在包含MEHM数据时表现最优(G=0.955),显著提升了健康经济评估的数据支撑能力。该研究为无法直接收集EQ-5D-5L数据的情况提供了实用解决方案,同时警示了数据插补可能带来的负面影响,对推动循证卫生决策具有重要意义。
在健康经济评估和卫生政策制定领域,准确测量健康相关生命质量(HRQoL)一直是核心挑战。EQ-5D-5L作为国际通用的健康效用值测量工具,其数据收集成本高昂且耗时,导致许多健康经济研究面临数据缺失的困境。传统统计方法在预测EQ-5D-5L指数时精度有限,而机器学习(ML)技术的兴起为这一难题提供了新的解决思路。研究人员敏锐地发现,常规人口健康调查中广泛收集的社会人口学特征和最小欧洲健康模块(MEHM)数据,可能成为预测EQ-5D-5L指数的有效替代指标。
为验证这一设想,研究团队开展了一项创新性研究,系统评估了14种机器学习算法在EQ-5D-5L指数预测中的表现。该研究汇集了7项大规模人口调查数据,总样本量达9,324人,构建了五个不同的研究场景以全面检验模型的稳健性。值得注意的是,研究采用了新开发的G评分作为模型性能的综合评价指标,确保了评估结果的科学性和可比性。
在技术方法层面,本研究主要运用了以下关键方法:基于七项大规模人口调查(N=9,324)的横断面数据整合;14种机器学习算法的系统比较(包括AdaBoost、多层感知器MLP、XGBoost等);新开发的G评分体系用于模型性能综合评价;五种研究场景设计(包含数据完整性与变量组合的不同条件);基于最小欧洲健康模块(MEHM)和社会人口学变量的预测模型构建。
模型性能比较结果
通过系统比较14种机器学习算法在不同场景下的表现,研究发现AdaBoost模型在大多数情况下表现最佳,平均排名为2.87。当使用完整的社会人口学数据和MEHM数据且不进行插补处理时,AdaBoost达到了最高性能(G=0.955)。多层感知器(MLP)和XGBoost分别以平均排名2.94和3.60位列第二和第三。
MEHM数据的关键作用
研究结果明确显示,最小欧洲健康模块(MEHM)的加入显著提升了预测精度。当仅使用社会人口学数据时,即使性能最佳的AdaBoost模型也只能达到G=0.871,而加入MEHM数据后性能提升至0.955,证实了MEHM在健康效用值预测中的重要作用。
数据插补的负面影响
一个值得注意的发现是,数据插补在处理缺失值时可能产生不利影响。在所有研究场景中,使用完整数据(不进行插补)的模型表现均优于经过插补处理的数据,这一发现对健康数据研究方法学具有重要启示。
实际应用价值
研究证实,基于现有统计数据使用机器学习方法能够较好地预测EQ-5D-5L指数,这为在无法进行原始数据收集的情况下开展健康经济评估提供了实用解决方案。特别是当决策者需要快速获取健康效用值数据时,该方法显示出显著优势。
研究结论强调,虽然机器学习算法在EQ-5D-5L指数预测中表现出色,但直接收集EQ-5D-5L数据仍应作为首选方法。本研究的方法学创新主要体现在提出了一个基于常规收集数据的实用预测框架,该框架能够显著增强现有健康数据的利用价值,为分析师和决策者提供了在无法进行原始数据收集时填充健康经济评估的实用途径。同时,研究结果对数据插补方法的警示也为未来相关研究提供了重要方法论参考。该研究的发现不仅对健康经济评估领域具有直接应用价值,也对人口健康数据的高效利用和卫生政策制定的科学化推进产生了深远影响。