应用机器学习风险分层识别晚期启动抗逆转录病毒治疗(ART)及伴严重免疫抑制(CD4<200 cells/μL)的HIV感染者高危人群：一种精准公共卫生(Precision Public Health)方法

《Frontiers in Public Health》：Machine learning risk stratification to identify people living with HIV at high risk of delayed ART and advanced immunosuppression: a precision public health approach

【字体：大中小】 时间：2026年06月06日 来源：Frontiers in Public Health 3.4

编辑推荐：

　　摘要背景(Background)：HIV感染者(people living with HIV, PLWH)的晚就诊(late presentation)及延迟启动抗逆转录病毒治疗(antiretroviral therapy, ART)与更高的发病率、死亡率

摘要背景(Background)：HIV感染者(people living with HIV, PLWH)的晚就诊(late presentation)及延迟启动抗逆转录病毒治疗(antiretroviral therapy, ART)与更高的发病率、死亡率及传播风险相关。识别发生延迟治疗或严重免疫抑制(基线CD4<200 cells/μL)的高危个体有助于实施针对性干预。目的(Objective)：利用常规收集数据开发并验证一种基于人工智能(artificial intelligence, AI)的风险分层工具，用于识别存在延迟ART启动或严重免疫抑制(advanced immunosuppression)高风险的PLWH。方法(Methods)：研究人员开展了一项回顾性队列研究，使用2016年起HIV阳性个体的去标识化数据。复合高危结局定义为延迟ART启动或基线CD4<<200 cells/μL。研究人员训练了多种分类器——包括逻辑回归(logistic regression)、XGBoost、LightGBM、CatBoost、多层感知机(multilayer perceptron, MLP)及HistGradientBoosting——采用五折分层交叉验证(five-fold stratified cross-validation)。评估了由六个基模型(base models)和LightGBM元学习器(meta-learner)组成的堆叠集成(stacking ensemble)。评估指标包括区分度(discrimination, AUC-ROC及AUC-PR)、校准度(calibration)及临床效用(clinical utility, 决策曲线分析decision curve analysis)。结果(Results)：在5436名合格参与者中，61.2%为高危人群。堆叠集成模型的AUC-ROC为0.915，AUC-PR为0.950，准确率为0.815，F1值为0.858；在≥90%灵敏度(sensitivity)下精确率(precision)为0.810。校准度在各十分位组(deciles)表现良好；决策曲线分析显示其净获益(net benefit)优于"全员干预(treat-all)"或"不干预(treat-none)"策略。基线CD4计数、年龄及传播途径(transmission route)是最强预测因子。结论(Conclusion)：基于AI的风险分层工具利用常规收集数据，可较强性能及临床效用地识别延迟ART启动或严重免疫抑制高风险的PLWH。实施前需进行前瞻性验证(prospective validation)与公平性评估(equity assessment)。

研究背景与意义

HIV感染者(people living with HIV, PLWH)尽管全球抗逆转录病毒治疗(antiretroviral therapy, ART)覆盖率提升，但晚就诊(late presentation)及延迟ART启动仍普遍，导致基线CD4^<200 cells/μL的进展期免疫缺陷(advanced HIV disease)比例居高不下，增加艾滋病相关死亡与传播风险。现有机器学习(machine learning, ML)预测模型多用于病毒学失败或失访(loss to follow-up)，存在以下局限：(1)单一结局未兼顾治疗衔接与免疫严重程度；(2)缺乏校准(calibration)与决策曲线分析(decision curve analysis, DCA)评估临床效用；(3)少有系统比较集成方法(ensemble methods)；(4)忽视亚组公平性与模型可解释性。精准公共卫生(precision public health)主张将强化干预资源集中于最需人群，因此研究人员开发了基于常规数据的AI风险分层工具，以识别延迟ART启动或严重免疫抑制(CD4^<<200 cells/μL)双重高危的PLWH，并在《Frontiers in Public Health》发表此项研究。该工具若嵌入常规信息系统，可支持差异化的强化链接随访与依从性支持，提升资源配置效率。

主要关键技术方法

研究人员采用单中心回顾性队列设计，纳入2016—2025年间启动标准ART方案且具完整基线CD4⁺与CD8⁺T细胞计数（ART启动前3个月内测得）及随访记录的成年HIV-1感染者，最终纳入5436例。候选预测变量含人口学特征、生活方式、合并症、机构类别、传播途径、婚姻状况、生命体征（收缩压/舒张压、心率）、人体测量学（身高、体重、BMI）及基线免疫学指标（CD4、CD8、CD4/CD8比值），并对连续变量做中位数填补、分类变量做众数填补，所有填补在交叉验证折内完成以防数据泄漏(data leakage)。研究人员对比六种分类器——逻辑回归、XGBoost、LightGBM、CatBoost、多层感知机(multilayer perceptron, MLP)、HistGradientBoosting(HGB)，并构建以六基模型袋外预测概率为输入、LightGBM为元学习器(meta-learner)的堆叠集成(stacking ensemble)。采用五折分层交叉验证评估区分度(AUC-ROC、AUC-PR)、校准度（十分位校准图）、临床效用（决策曲线分析）及亚组表现。复合高危结局定义为延迟ART启动（超出机构规定及时启动时限）或基线CD4^<200 cells/μL。排除关键预测变量缺失或有逻辑矛盾的记录。

研究结果

Participants and cohort characteristics（参与者与队列特征）

经纳排后共5436人进入分析，高危比例61.2%（其中仅因延迟ART启动占29.9%，仅因低CD4占18.2%，两者兼具占13.0%）。年龄、BMI及基线CD4分级在高危与非高危组间分布存在差异，符合复合结局定义预期。

Model performance and discrimination（模型性能与区分度）

各模型均具良好区分能力，堆叠集成表现最优（AUC-ROC 0.915，95% CI 0.908–0.921；AUC-PR 0.950，95% CI 0.946–0.955；准确率0.815；精确率0.810；召回率recall 0.912；F1 0.858）。配对Bootstrap检验显示堆叠集成AUC显著优于单独LightGBM（ΔAUC=0.136，p=0.0005）。单独预测延迟ART启动AUC-ROC仅0.560，单独预测低基线CD4则近完美（AUC-ROC 1.000），表明复合模型优绩主要源于含免疫学预测因子的低CD4组分。

Fairness and subgroup performance assessment（公平性与亚组表现评估）

按性别、年龄组及主要传播途径分层评估，各亚组AUC-ROC介于0.859–0.970，召回率0.884–1.000，提示模型在不同亚组中行为存在异质性，需关注潜在公平性差异。

Calibration（校准度）

将预测概率按十分位分组，平均预测风险与观测事件发生比例整体吻合良好——最低风险十分位预测均值0.22、观测0.02；最高风险十分位预测均值0.85、观测0.98，支持概率可解释为真实发生可能性。

Decision curve analysis（决策曲线分析）

AI模型在阈值概率0.10–0.65范围内净获益(net benefit)持续高于"全员干预"与"不干预"策略，支持其用于阈值依赖的程序决策。

Feature importance and interpretability（特征重要性与可解释性）

最重要预测因子为CD4风险评分(importance 0.456)，其次为log(CD4+1)、基线CD4计数、机构类型(institution type)、年龄分组、传播途径、饮酒、吸烟、CD4/年龄比、教育程度、舒张压及体重，说明除免疫学信息外人口学、行为与结构性因素也对高危分层有独立贡献。

Sensitivity analysis excluding immunological predictors（剔除免疫学预测因子的敏感性分析）

去除所有CD4相关变量后，堆叠集成AUC-ROC降至0.621，AUC-PR降至0.587，证实模型性能高度依赖与结局定义重叠的免疫学信息，工具应理解为利用常规数据识别符合既定高危定义者，而非发掘全新风险预测因子。

Stratification and implications for intervention（风险分层与干预启示）

模型在F1最优切点达91.2%灵敏度与81.0%精确率。按基线CD4类别及传播途径展示分层平均预测风险，提示可根据本地服务容量动态选取风险评分阈值以平衡灵敏度与假阳性率，支持精准公共卫生的资源靶向分配。

讨论与结论翻译

讨论指出本研究首次系统比较多种ML算法（含堆叠集成）预测兼顾延迟ART启动与低基线CD4的复合结局，并提供校准、DCA及亚组表现评估。堆叠集成捕捉了单一算法未能建模的非线性关係；CD4相关变量主导预测但非CD4特征亦提供可操作干预线索（如特定传播途径或机构类型需强化支持）。校准良好且DCA显示超越默认策略的临床效用。局限性含仅为单中心回顾性内部验证未外部验证、及时ART定义具程序特异性、公平性指标未正式计算、复合结局含CD4致部分"循环论证(circularity)"效应——不影响工具预期用途但限制宣称发现新风险信号。未来需外部与前向验证、公平性评估及纳入社会结构变量改善延迟ART单独预测分量。

结论(Conclusion)：基于AI的风险分层工具利用常规收集数据可以较强区分度、良好校准度及在临床相关决策阈值内的正向净获益识别延迟ART启动或严重免疫抑制高风险的PLWH。将其嵌入常规HIV项目可支持精准预防策略及更高效地分配链接与支援服务。广泛实施前建议在多场景下行外部验证、对各人口学与临床亚组行正式公平性评估，并于现有临床与项目流程中试点整合。

热点排行