人口流动与HIV感染者疾病进展的关系:基于10年动态队列的机器学习分析

《Frontiers in Public Health》:Population mobility and disease progression in people living with HIV: a machine learning analysis of a 10-year dynamic cohort

【字体: 时间:2026年06月06日 来源:Frontiers in Public Health 3.4

编辑推荐:

  背景(Background):区域间人口流动对基于居住地的HIV随访体系构成挑战。本研究旨在界定HIV感染者(people living with HIV, PLHIV)的来源异质性(本地新发现病例vs.流入性迁居病例),并评估其对迁出(空间流动性)的预测价值

  
背景(Background):区域间人口流动对基于居住地的HIV随访体系构成挑战。本研究旨在界定HIV感染者(people living with HIV, PLHIV)的来源异质性(本地新发现病例vs.流入性迁居病例),并评估其对迁出(空间流动性)的预测价值及其与疾病进展(至AIDS期或死亡)的关联。 方法(Methods):基于中国重庆市2016—2025年共116个月的月度随访数据构建动态纵向队列(N=5,213)。研究人员开发极端梯度提升(eXtreme Gradient Boosting, XGBoost)模型预测管理期间的迁出风险,并引入SHAP(SHapley Additive exPlanations)框架进行特征贡献分析。应用随机生存森林(Random Survival Forest, RSF)模型评估疾病进展的长期风险,并使用偏依赖图(Partial Dependence Plots, PDP)解析核心预测因子的非线性关联。 结果(Results):队列含2,820例本地新发病例、1,606例基线现患病例及787例流入性迁移病例。XGBoost模型预测迁出风险的受试者工作特征曲线下面积(Area Under the receiver operating characteristic Curve, AUC)为0.849;SHAP分析显示流入性迁移属性及特定传播途径(如静脉吸毒)是空间不稳定的最强预测因子。RSF模型的长期进展风险一致性指数(Concordance index, C-index)为0.7575;Kaplan–Meier曲线显示流入性迁移病例生存预后显著差于其他组(log-rank p<0.001)。PDP揭示确诊年龄30岁及50岁后疾病进展风险呈阶梯式升高。按职业分层显示无业/居家组(53.3%)及农业/务工/体力劳动者组(25.5%)预测进展风险最高。 结论(Conclusion):流入性迁移PLHIV表现出显著升高的空间不稳定性及临床脆弱性。现行管理体系需从静态属地化管理向跨区域动态协作转变,运用信息互联互通与精准分层干预以弥补流动过程中产生的治疗裂隙。
论文解读:《Population mobility and disease progression in people living with HIV: a machine learning analysis of a 10-year dynamic cohort》
一、研究背景与意义
随着中国城市化进程加速,跨区人口流动日益频繁,而HIV感染者(people living with HIV, PLHIV)的随访管理主要依托基于现居住地的属地化静态管理模式。流动人口在跨区迁移时常面临病历转移困难、医保衔接不畅及治疗中断等问题,导致失访(Loss to Follow-Up, LTFU)和疾病加速进展,阻碍UNAIDS "95-95-95" 目标的实现。传统生存分析方法难以处理高维数据中的复杂交互及非线性关系,且既往研究较少将空间流动性本身作为预测因子纳入临床预后评估。为此,研究人员利用重庆市10年动态随访数据,通过双阶段机器学习框架系统阐明PLHIV来源异质性对短期迁出及长期疾病进展的双重影响,为优化跨区域协同管理策略提供循证依据。该论文发表于《Frontiers in Public Health》。
二、主要技术方法概要
研究人员提取2016年1月至2025年12月重庆市艾滋病专病系统中连续月度随访记录,按系统时间戳逻辑将5,213例PLHIV划分为三组:基线现患病例(观察起点已本地建档)、本地新发病例(确诊至本地入网≤1个月)及流入性迁移病例(确诊至本地入网>1个月,敏感性分析延展至3个月)。协变量含确诊年龄、性别、婚姻、文化程度、传播途径及重分类后的职业分组(无业/居家、农业/务工/体力、商服、在业/学生、其他/未知)。采用7︰3随机拆分样本构建XGBoost二分类模型预测迁出(管理管辖权正式转出本地),使用scale_pos_weight处理类别不平衡,五折交叉验证评估效能,并以SHAP框架解析特征贡献。排除随访≤3个月早删失样本后,构建RSF模型以生存时间和疾病进展(进展至AIDS期即CD4+T细胞<200 cells/μL或出现机会性感染,或全部死因死亡)为复合终点,迁出者于末次本地记录右删失;绘制不同来源组Kaplan–Meier曲线并行log-rank检验,计算测试集C-index,通过置换重要性与PDP分析非线性关联。
三、研究结果
3.1 队列基线特征与来源分布(Cohort baseline characteristics and source distribution)
重建动态随访队列最终纳入5,213例PLHIV(本地新发病例2,820例、基线现患病例1,606例、流入性迁移病例787例)。三组在性别比例相近,但流入性迁移病例更多集中于30–50岁年龄段、未婚比例高(49.8%)、男男性行为(Men who have Sex with Men, MSM)及静脉吸毒(Injection Drug Use, IDU)传播途径占比较高、职业以无业/居家及农业/务工/体力为主,反映其社会人口学异质性。
3.2 迁出结局的预测与特征分析(Prediction and feature analysis of the out-migration outcome)
XGBoost模型测试集AUC达0.849,五折交叉验证平均AUC为0.8104(95%CI:0.6711–0.9497),Brier Score为0.1370,校准良好。SHAP全局解释表明流入性迁移来源属性是预测迁出最强的正向特征,确诊时较年轻年龄、IDU传播途径及无业/居家职业状态亦与较高迁出倾向相关。提示流入性迁移PLHIV的空间不稳定性显著高于本地病例。
3.3 疾病进展结局的动态生存分析(Dynamic survival analysis of the disease progression outcome)
剔除早删失样本后RSF模型测试集C-index为0.7575。Kaplan–Meier曲线显示流入性迁移病例无事件生存率下降最快,与其他两组差异具统计学意义(log-rank p<0.001)。置换重要性分列来源属性(本地新发及流入性迁移)与确诊年龄为长期进展最重要预测变量,高于传播途经及职业因素。
3.4 核心预测因子的非线性关联与预后分层(Nonlinear associations of key predictors and prognostic stratification)
PDP显示确诊年龄对疾病进展风险评分呈非线性阶梯上升,30岁后缓升,50岁后出现明显跃升;调整其余变量后,流入性迁移属性独立伴发整体预后风险评分升高。按职业分层显示无业/居家组中位预期进展风险最高,农业/务工/体力组次之,在业/学生组最低,印证社会经济支持资源差异对预后的影响。
四、讨论总结与结论翻译
讨论指出,现行居住地静态管理难以适应常态化人口流动,跨区间病历与医保信息壁垒致迁移期抗病毒治疗(Antiretroviral Therapy, ART)中断,是流入性迁移PLHIV预后较差的重要机制。年龄>50岁伴随免疫衰老(Immunosenescence)及非艾滋病定义合并症(Non–AIDS-Defining Comorbidities, NADMs)累积使进展风险陡增,需多学科综合管理。建议建立区域或国家级ART处方数据共享平台,简化异地购药与医保报销流程,基层机构对高流动PLHIV尽早开展服药依从性教育,主动协助跨机构转诊,条件许可可探索长效注射抗病毒药物减少地理变动干扰。
结论(Conclusion)翻译如下:
本研究利用10年动态随访队列及双结局机器学习框架,系统评估了来源异质性对PLHIV空间流动性及长期预后的独立效应。结果显示,流入性迁移病例不仅面临最高的迁出风险,且在本地管理期间疾病进展速度快于本地新发病例及基线现患病例。这一发现揭示了当前以现居住地为主的静态管理体系在人口流动常态化背景下所面临的结构性挑战。现行管理需由静态属地模式转向跨区域动态协作,运用信息互联互通与精准分层干预缩小流动所致的治疗裂隙。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号