
-
生物通官微
陪你抓住生命科技
跳动的脉搏
心肌梗死和冠心病的职业及社会经济预测因素:一项机器学习分析
《BMC Public Health》:Occupational and socioeconomic predictors of myocardial infarction and coronary heart disease: a machine learning analysis
【字体: 大 中 小 】 时间:2026年05月10日 来源:BMC Public Health 3.6
编辑推荐:
摘要 背景 心血管疾病(CVD)仍然是全球发病率和死亡率的主要原因之一。尽管传统的心血管风险模型主要依赖于生物医学因素,但社会经济和职业特征也越来越被认为是影响心血管健康的重要相关因素。然而,将机器学习应用于基于人群的调查数据时,会引发方法学上的问题,
心血管疾病(CVD)仍然是全球发病率和死亡率的主要原因之一。尽管传统的心血管风险模型主要依赖于生物医学因素,但社会经济和职业特征也越来越被认为是影响心血管健康的重要相关因素。然而,将机器学习应用于基于人群的调查数据时,会引发方法学上的问题,尤其是逆向因果关系和诊断后的信息泄露问题。
我们使用了2023年行为风险因素监测系统(BRFSS)的数据进行了横断面分析。分析的目标是对心肌梗死(MI)或冠心病(CHD)进行分类,而不是进行前瞻性风险预测。评估了四种监督式机器学习算法(逻辑回归、决策树、随机森林和梯度提升)。为了解决潜在的标签泄露问题,我们实现了两种模型变体:一种是包含所有可用预测因子的模型(模型A),另一种排除了诊断后的代理变量(如药物使用、功能限制和残疾指标)的模型(模型B)。模型性能通过接收者操作特征曲线下面积(ROC-AUC)、精确度-召回率曲线下面积(PR-AUC)、精确度、召回率和F1分数来评估。
在评估的模型中,梯度提升表现出最强的区分能力。在包含所有变量的模型中,该模型的ROC-AUC为0.867,PR-AUC为0.389,最佳F1分数为0.433。去除诊断后变量后,模型性能仍然稳健(ROC-AUC = 0.858;PR-AUC = 0.372;F1 = 0.418),这表明预测能力并非仅由下游疾病指标决定。特征重要性分析显示,在模型B中,社会经济和就业相关变量与已确定的临床风险因素一起仍然是重要的预测因子。
即使明确减轻了诊断后的信息泄露问题,机器学习模型仍能有效地使用大规模调查数据对心肌梗死和冠心病进行分类。社会经济和职业特征主要作为心血管疾病的背景相关性因素,而非致病决定因素。这些发现强调了可解释的机器学习方法在人群层面对常见心血管疾病进行分类的价值,同时也指出了横断面数据本身的局限性。