将地理空间环境暴露指标纳入个体高血压风险预测:一种多阶段机器学习流程

《Journal of Exposure Science & Environmental Epidemiology》:Incorporating geospatial environmental exposure indicators in individual hypertension risk prediction: a multi-stage machine learning pipeline

【字体: 时间:2026年05月29日 来源:Journal of Exposure Science & Environmental Epidemiology 4.1

编辑推荐:

  背景(Background):环境暴露是慢性疾病的已知贡献因素,但极少被纳入风险预测模型。目的(Objective):研究人员展示了一种分阶段机器学习(Machine Learning, ML)方法,将地理空间测量的邻域社会和 ambient 环境暴露指标纳入

  
背景(Background):环境暴露是慢性疾病的已知贡献因素,但极少被纳入风险预测模型。目的(Objective):研究人员展示了一种分阶段机器学习(Machine Learning, ML)方法,将地理空间测量的邻域社会和 ambient 环境暴露指标纳入高血压风险预测。方法(Methods):研究人员分析了来自墨西哥湾长期随访研究(Gulf Long-Term Follow-Up Study, GuLF Study)的10,491名成人数据。高血压依据实测血压和降压药使用情况定义。研究人员评估了三个阶段模型的增量预测性能——阶段1(年龄、性别、种族、体质指数 BMI);阶段2(阶段1+邻域社会因素);阶段3(阶段2+环境空气暴露)。变量筛选结合 Boruta 算法和自举精确召回曲线下面积(Area Under the Precision-Recall Curve, AUPRC)。训练并评估了逻辑回归(Logistic Regression, LR)、随机森林(Random Forest, RF)和极端梯度提升(eXtreme Gradient Boosting, XGB)模型的区分度、校准度和分类性能。采用 SHAP(Shapley Additive Explanations)解释变量贡献。结果(Results):受试者平均年龄43.6±13.02岁;78.4%为男性,52.3%为非西班牙裔白人,35.5%患高血压。模型筛选出的环境预测因子包括邻域劣势(Neighborhood Disadvantage)、社区韧性(Community Resilience)、社会脆弱性(Social Vulnerability,阶段2),植被(Vegetation)、PM2.5、NO2和甲醛(Formaldehyde,阶段3)。AUC和AUPRC跨阶段变化微小;XGB模型中灵敏度(Sensitivity)由阶段1的0.775升至阶段2的0.797,阶段3为0.784,对应精确度(Precision)有所权衡(0.525→0.517→0.524)。SHAP识别植被、社会脆弱性指数(Social Vulnerability Index, SOVI)、区域剥夺指数(Area Deprivation Index, ADI)、PM2.5、甲醛和社区韧性评分为主要环境贡献因子。影响(Impact):环境暴露与高血压风险增加相关但罕见于风险预测模型。利用大样本前瞻性队列数据,研究人员开发了可解释的ML流程筛选并纳入相关地理空间社会经济及环境暴露至个体水平风险预测模型。虽仅小幅提升模型灵敏度,但改进了的灵敏度可识别出更多被遗漏的高血压病例。即便灵敏度的微小提升也能转化为更早期识别可从干预中获益的高危个体,进而带来公共卫生改善。
论文解读:《Incorporating geospatial environmental exposure indicators in individual hypertension risk prediction: a multi-stage machine learning pipeline》
该研究发表于Journal of Exposure Science & Environmental Epidemiology。既往高血压风险预测模型多依赖人口学、体格测量及临床生化指标,常将血压本身作为预测因子导致循环论证,且极少系统纳入地理空间测度的邻域社会环境(如剥夺程度、社会脆弱性)与大气环境暴露(如PM2.5、植被指数),二者在流行病学上已被证实与血压相关但预测价值未被充分评估。现有模型对环境暴露的忽略可能导致高危人群漏诊,尤其在环境健康差异显著的地区。为此,研究人员基于大型职业与环境健康队列,构建多阶段机器学习流程,分阶段检验邻域社会环境和环境大气暴露对高血压风险预测增量价值的贡献,并通过可解释性分析明确关键环境预测因子。研究结论表明,纳入筛选后的地理空间环境暴露指标可适度提升模型灵敏度从而检出更多潜在高血压病例,虽整体区分度指标(AUC、AUPRC)变化有限,但证明环境维度是慢性病风险分层中值得整合的信息源。
主要关键技术方法
研究人员采用墨西哥湾长期随访研究(GuLF Study)中完成家访且有完整地理编码及环境暴露数据的10,491名成人。高血压定义为平均收缩压≥140 mmHg或舒张压≥90 mmHg或正在服用降压药物。环境暴露含邻域社会指标(区域剥夺指数 ADI、社会脆弱性指数 SOVI、社区韧性评分 CRS,关联至人口普查区/街区组)及环境暴露(归一化植被指数 NDVI、PM2.5、NO2、甲醛等大气有毒物质、湿球黑球温度 WBGT、夜间灯光、土地覆盖、海拔、自然灾害风险指数,关联至1 km×1 km网格或普查区)。数据集按高血压患病率加权随机抽样分为训练集(70%)与测试集(30%)。采用三阶段嵌套建模策略:阶段1仅含年龄、性别、种族/民族、BMI;阶段2追加经筛选的邻域社会变量;阶段3再追加经筛选的环境大气变量。变量筛选先用Boruta算法识别重要特征,再用1000次自举法评估剔除单变量后AUPRC变化以确认稳定性。分别训练逻辑回归(LR)、随机森林(RF)及极端梯度提升(XGB)模型,超参数用Optuna优化,以测试集AUC、AUPRC、Brier分数、灵敏度、特异度、精确度及F1分数评估性能,并用SHAP(Shapley Additive Explanations)解析变量贡献。另做变量引入顺序敏感性分析及按年龄、性别分层分析。
研究结果
参与者特征(Participant characteristics)
最终分析样本10,491人,平均年龄43.6岁(标准差13.02),78.4%为男性,52.3%为非西班牙裔白人,高血压患病率为35.5%。
变量筛选(Variable selection)
Boruta及自举验证均保留全部三个邻域社会变量(ADI、SOVI、CRS)进入阶段2。环境暴露中Boruta初筛出PM2.5、NDVI、乙醛、甲醛、NO2,自举验证排除乙醛后确认PM2.5、NDVI、甲醛、NO2进入阶段3。第四阶段(次要分析)保留总烃暴露。
预测与评估(Prediction and evaluation)
XGB整体表现最优。阶段1(基础模型)XGB测试集AUROC=0.772,AUPRC=0.637,灵敏度=0.775,精确度=0.525,Brier=0.206。加入邻域社会变量(阶段2)AUROC略降至0.771,AUPRC持平(0.637),灵敏度升至0.797,精确度略降至0.517,Brier=0.210——表明邻域社会环境因子主要提升真阳性检出率(灵敏度增加2.2%),代价为轻微精确度下降。再叠加环境大气变量(阶段3)AUROC=0.765,AUPRC=0.633,灵敏度略降至0.784,精确度回升至0.524,Brier基本不变——相对阶段1仍具更高灵敏度(0.784 vs 0.775)且精确度相当,显示环境暴露可在邻域背景上对分类阈值附近个案作微调。LR与RF未见明显阶段间AUPRC改善,但阶段2同样出现灵敏度上升趋势。引入深海地平线漏油相关暴露(阶段4)未超越阶段3表现。分层分析显示≥50岁亚组及男性亚组模型性能较高。变量引入顺序敏感性分析中,先加环境后加邻域会使灵敏度逐阶段下降而特异度上升,印证先纳入邻域社会因素更契合本研究最大化检出的目标。
变量重要性(Variable importance)
基于XGB阶段3模型的平均绝对SHAP值,前十大预测因子依次为:年龄(0.65)、BMI(0.36)、性别(0.06)、NDVI(0.05)、黑人种族(0.042)、SOVI(0.041)、ADI(0.037)、PM2.5(0.034)、甲醛(0.030)、CRS(0.030)。SHAP依赖图显示高龄、高BMI、男性、黑人种族升高预测风险;高SOVI、高ADI及高CRS亦关联更高预测概率;高NDVI与高甲醛及低PM2.5在该队列中关联高预测概率,提示可能存在非线性或空间异质性暴露—反应关系。
讨论与结论总结
讨论指出本研究规避了以血压本身作预测因子的循环推理问题,样本量较大且采用独立测试集验证;首次较全面整合多域地理空间环境暴露并通过两步骤变量筛选控制过拟合。邻域社会指标(ADI、SOVI)对灵敏度提升贡献最大,与既往流行病学证据一致;NDVI与PM2.5是最具预测价值的环境大气因子。阶段间AUC/AUPRC微变但灵敏度改善有公共卫生意义——少量额外真阳性检出可支持早期干预。局限性含生态暴露赋值可能低估效应、时空分辨率不一、横断面暴露无累积评估、未正式建模暴露交互或混合物效应、队列非全美代表性人群需外部验证。
研究结论(Conclusion):研究人员开发了评估环境暴露对高血压风险预测价值的ML流程。在人口学与体格测量变量基础上纳入筛选后的邻域指标(ADI、SOVI、CRS)和环境大气暴露(PM2.5、NDVI、NO2、甲醛)后,XGB模型灵敏度与F1分数有适度改善,AUROC与AUPRC跨阶段稳定。SHAP分析表明环境变量虽未大幅改变整体区分度,但持续参与个体水平预测。该框架证明了系统整合地理空间测得环境变量可增强慢性病病例检出,识别仅靠人口学预测会遗漏的高危个体。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号