基于体检数据的机器学习生存分析早期预测糖尿病性黄斑水肿

《Ophthalmology Science》:Early Prediction of Diabetic Macular Edema via Machine Learning Survival Analysis on Checkup Data

【字体: 时间:2026年06月06日 来源:Ophthalmology Science 4.6

编辑推荐:

  本研究旨在预测糖尿病性黄斑水肿(diabetic macular edema, DME)的发病风险,并识别风险亚组的特征。研究人员采用基于人群的观察性病例对照研究设计,数据来源为日本最大的流行病学数据库之一——JMDC理赔数据库(2005年1月至2020年7月

  
本研究旨在预测糖尿病性黄斑水肿(diabetic macular edema, DME)的发病风险,并识别风险亚组的特征。研究人员采用基于人群的观察性病例对照研究设计,数据来源为日本最大的流行病学数据库之一——JMDC理赔数据库(2005年1月至2020年7月)中的健康体检与诊断数据。从272,337名诊断为2型糖尿病(国际疾病分类第十版,ICD-10 E11)的个体中,研究人员分析了2,368对DME与非DME匹配个体,通过性别、年龄、观察月数、体检次数、糖尿病病程及首次体检前月数等变量的回归分析计算平衡评分进行1:1匹配。研究方法采用多变量Cox比例风险模型、正则化Cox模型及随机生存森林(random survival forest, RSF),通过个体ID水平的自助重采样训练,纳入43项缺失率<50%的健康体检变量、404种6个月内高发病率疾病以及年龄、性别和糖尿病病程以评估DME风险,并利用非线性建模技术分析RSF预测风险评分的时间变化。主要评价指标为一致性指数(concordance-index, C-index)、综合Brier评分(Integrated Brier score, IBS)及累积/动态平均受试者工作特征曲线下面积(cumulative/dynamic mean area under the receiver operating characteristic curve, mean AUC)。结果显示,13项体检指标和44项疾病史变量与DME发病显著相关;RSF在DME发病前5年以上识别出43.8%的病例,特异度为85.5%;RSF的中位C-index为0.694(95%置信区间,0.688–0.697),IBS为0.181(0.179–0.184),mean AUC为0.750(0.739–0.756),均优于多变量和单变量Cox模型。RSF预测风险评分的时间变化提示存在三种不同的DME风险亚组,各亚组的DME预测因子差异显著。在显性高风险亚组中,尿蛋白和尿糖重要性较高,肝功能相关血液检测如丙氨酸氨基转移酶(alanine aminotransferase, ALT)和γ-谷氨酰转移酶(γ-glutamyl transferase, γ-GT)也排名较高;贫血相关实验室检测仅与该亚组的DME发展相关。研究结论表明,RSF在利用健康体检数据进行DME相对风险预测方面表现出优越性能,但在临床应用前,外部验证仍是必不可少的先决条件。
**研究背景与意义**

糖尿病(diabetes mellitus, DM)的全球流行使得糖尿病视网膜病变(diabetic retinopathy, DR)成为重大公共卫生挑战。糖尿病性黄斑水肿(diabetic macular edema, DME)作为DR的严重表现形式,影响全球约2100万人的中心视力,是导致视力丧失的主要原因之一。抗血管内皮生长因子(anti-vascular endothelial growth factor, anti-VEGF)玻璃体腔注射可改善长期视功能预后,但费用昂贵且需重复治疗。早期治疗糖尿病视网膜病变研究(Early Treatment Diabetic Retinopathy Study, ETDRS)系列研究已证实,在抗VEGF时代之前作为DME标准治疗的激光光凝术对早期DME患者有效;近期研究亦表明早期抗VEGF治疗有助于保护视力。因此,DME的早期诊断和治疗对于改善视觉预后至关重要。

目前已知的多种DME危险因素可作为早期预测DME发病的指标,包括糖化血红蛋白(hemoglobin A1c, HbA1c)和空腹血糖(fasting blood glucose, FBG)升高等反映的血糖控制不佳、高血压、高脂血症、肥胖等生活方式因素,以及糖尿病肾脏疾病(diabetic kidney disease, DKD)等微血管并发症。光学相干断层扫描(optical coherence tomography, OCT)和眼底成像等影像技术虽能实现DME的早期准确诊断,但这些诊断模式基于已出现症状到医院就诊的患者,且OCT和眼底成像仅限于特定医疗机构,因此需要一种适用于广泛人群的通用风险评估工具进行预筛查。

日本雇主的年度健康体检制度为本研究提供了契机。20岁以上人群超过60%接受该体检,涵盖约30个项目,包括问卷、血液/尿液检查和X线检查等。体检中包含多项与DME发展相关的关键指标,如HbA1c、FBG、尿糖、血压、血脂和体重指数(body mass index, BMI)等。研究人员假设结合理赔数据中的诊断信息,这些数据可用于DME风险的早期评估。鉴于DME通常在5–10年内进展,二分类预测框架不适用于此类长病程疾病;而能够处理右删失样本的生存分析框架更为合适。传统方法如Cox比例风险模型适用于小样本周限变量数据集,而LASSO、随机森林和深度学习等机器学习模型可处理高维异质性数据,包括健康体检和理赔数据。因此,研究人员采用随机生存森林(random survival forest, RSF)通过体检和理赔数据预测DME发病,旨在基于年度体检数据评估每位糖尿病患者的DME相对发病风险,确定发病前风险变化趋势,并通过基于机器学习的生存分析揭示风险因素对DME发展的异质性影响。

**关键技术方法**

研究数据来源于日本最大流行病学数据库之一的JMDC理赔数据库,为回顾性病例对照设计。从2005年1月至2020年7月期间272,337名2型糖尿病(ICD-10: E11)患者中,筛选至少有一次DME发病前体检记录的2,368名DME患者,与通过性别、年龄、观察月数、体检次数、糖尿病病程和首次体检前月数计算平衡评分进行1:1匹配的非DME对照组构成分析队列。研究采用多变量Cox比例风险模型、正则化Cox模型(包括Cox LASSO、Cox Ridge和CoxNet)及RSF进行生存分析;RSF通过scikit-survival Python包实现,设置n_estimators=200、min_samples_split=10、min_samples_leaf=15。模型性能通过C-index、IBS和mean AUC评估,置信区间采用200次自助重采样百分位法估计。缺失值处理采用参数特异性样本保持法(parameter-specific sample-and-hold approach),以最后记录测量值填补;敏感性分析采用链式方程多重插补(multivariate imputation by chained equations, MICE)。时间风险评分变化采用自助启动非线性最小二乘Logistic模型(Self-Starting Nls Logistic Model, SSlogis)分析,并通过Ward层次聚类识别风险亚组,聚类稳定性以调整互信息(adjusted mutual information, AMI)评分评估。统计关联分析使用混合效应Cox模型,以患者ID为随机效应。

**研究结果**

研究人群特征方面,匹配前DME组男性比例更高、观察期更长、糖尿病病程长近2年、糖尿病发病年龄更轻、体检次数更多;匹配后2,368对DME与非DME个体在各变量上均无显著差异。

变量与DME发病的关联分析显示,在44项体检指标和404种疾病中,13项指标和44种疾病与DME发病显著相关:身体测量指标中BMI和腰围呈正相关;血液和尿液检测中HbA1c、尿糖、尿蛋白水平呈正相关;饮食与生活方式问卷中饮酒频率、与同龄人相比的步行速度、接受生活方式指导意愿呈负相关,每日步行至少1小时呈正相关;疾病史和药物问卷中卒中或肾衰竭史、降压药、胰岛素或降糖药使用呈正相关;404种疾病诊断中的44种呈正相关,以眼科疾病(H00–H59, 14种)、内分泌/代谢疾病(E00–E90, 12种)、循环系统(I00–I99, 4种)和呼吸系统(J00–J99, 4种)最为常见,后者包括DKD、增生性糖尿病视网膜病变、糖尿病周围神经病变(diabetic peripheral neuropathy, DPN)、血脂异常和高尿酸血症等。

机器学习生存分析的DME发病预测结果显示,RSF的C-index为0.694(95% CI, 0.688–0.697),IBS为0.181(95% CI, 0.179–0.184),mean AUC为0.750(95% CI, 0.739–0.756),均优于多变量和单变量Cox模型;与最佳比较模型相比,C-index差异为0.015(95% CI, 0.005–0.022)。慢性病如慢性胃炎、DKD和脂肪肝等对预测贡献极小(单变量Cox模型C-index接近0.5),多变量Cox模型整合所有变量后C-index提升至0.665以上,正则化仅带来边际改善。RSF预测风险评分随DME发病临近每年约上升5分,DME组平均风险评分较非DME组高50分;RSF预测风险的AUC随时间维持在约0.72。以DME诊断前5年为参考,150分风险阈值对应的灵敏度为43.8%,特异度为85.5%;170分和190分阈值时灵敏度分别降至31.3%和21.4%,特异度升至90.5%和94.2%。

通过非线性混合效应模型对RSF预测风险评分的时间变化进行分层,识别出三种 distinct 模式:约发病前10年快速上升并持续高风险的显性高风险亚组(explicit high-risk subgroup);从中等风险逐渐上升的中等风险亚组(intermediate-risk subgroup);以及发病前持续低风险的潜在风险亚组(latent-risk subgroup)。AMI评分为0.613(95% CI, 0.477–0.733),提示聚类稳定性中等。

DME发病预测的因素贡献分析中,RSF排列重要性显示HbA1c为最强预测因子,降糖药物使用次之;尿糖、尿蛋白、DKD和DPN史等肾脏损伤关键指标亦是重要预测因子;FBG、年龄和γ-GT等显著相关因素亦具重要性。三亚组的重要预测因子差异显著:显性高风险亚组中尿蛋白、尿糖重要性高,ALT和γ-GT等肝功能相关检测排名亦高;中等风险亚组中DKD特征性重要,近视性散光和远视性散光等眼部疾病成为显著预测因子,尿蛋白作用较小;潜在风险亚组以20岁以来体重变化重要性高,血液血红蛋白浓度和红细胞压积等贫血相关实验室检测仅与该亚组DME发展相关。年龄在所有亚组中均为重要预测因子。

关键DME预测因子的时间变化显示,HbA1c和FBG在显性高风险亚组最高、中等风险亚组中等、潜在风险亚组与非DME组相近;γ-GT在显性高风险亚组始终较低,在中等风险亚组从相对较高基线显著下降。超过10%的中等风险亚组在DME发病前5年以上持续存在DKD,而显性高风险亚组约发病前7年DKD发病率急剧上升;DPN发病率在非DME组稳定于约2.5%,在DME各亚组发病前5–7年上升,显性高风险亚组最早、中等风险亚组最晚。远视性散光发病率在所有DME亚组发病前2–5年上升,显性高风险组上升最急剧。显性高风险亚组在发病前5年以上即出现重度蛋白尿和糖尿;中等风险亚组中度升高,潜在风险亚组则与非DME组相近。尽管持续高血糖,显性高风险组降糖药处方量少于中等风险组。各亚组观察开始时年龄无显著差异,观察结束时糖尿病病程以中等风险组最长、潜在风险组最短。

敏感性分析方面,针对病例对照设计导致DME患病率失真的问题,在假设DME患病率为2%的条件下,从原始测试数据中所有非DME个体与DME个体随机抽样生成测试数据集,固定训练的RSF模型评估显示中位C-index为0.790(95% CI, 0.765–0.815),IBS为0.058(95% CI, 0.055–0.061),mean AUC为0.832(95% CI, 0.809–0.857)。采用仅性别和年龄匹配的第二个敏感性分析中,RSF中位C-index为0.714(95% CI, 0.713–0.716),IBS为0.177(95% CI, 0.174–0.179),mean AUC为0.755(95% CI, 0.753–0.758)。以MICE作为第三种缺失值处理方法的敏感性分析中,RSF模型性能与原始分析相当。

**讨论总结**

本研究首次证明了机器学习生存模型利用健康体检和病史等广泛可用数据预测DME发病的实用性。RSF模型可在发病前5年以上检测出43.8%的DME病例,特异度达85.5%;RSF预测风险评分的变化提示存在三种不同的DME风险亚组,且各亚组DME发展的关键预测因子差异显著。该模型易于应用,具有早期DME检测潜力;鼓励基于这些发现开展前瞻性筛查和早期干预的进一步临床研究,以改善DME预后。使用原始患病率和性别年龄匹配数据集的两种敏感性分析均显示性能改善,限制性较小的匹配策略可能产生更易区分的组群,使性能更接近临床预期。

在统计生存分析中,胃肠、心血管和呼吸系统疾病与DME发病相关,这些此前未被确认为DME的确定性危险因素。慢性胃炎和反流性食管炎等胃肠疾病可能与糖尿病药物(如二甲双胍、胰高血糖素样肽-1受体激动剂)的消化副作用相关;心血管疾病在DME患者中更常见,可能与DME共享微血管损伤作为共同潜在因素;上呼吸道炎症可能通过升高的炎症细胞因子增加血管通透性和免疫激活促进DME发展。然而,这些疾病及RSF中的统计学显著因素并非总能改善预测。

与单变量Cox回归相比,多变量Cox回归显著改善了DME发病预测,提示多种因素的协同效应。DME涉及血管生成和炎症等复杂过程的相互作用。RSF通过利用决策树间的人群异质性和多样预测因子,进一步优于假设因素贡献一致的Cox模型。

尽管亚组分层为探索性且稳定性仅为中等,但三种DME风险亚组可能反映不同的潜在机制。显性高风险亚组持续高HbA1c和FBG、约发病前7年DKD和DPN突然发生、降糖药使用少,提示就医不佳和持续高血糖是直接原因;中等风险亚组长期糖尿病伴DKD、频繁降糖药使用、血糖标志物逐渐改善,提示肾损伤是DME的驱动因素;潜在风险亚组血糖控制良好、并发症率与非DME组相似,但其DME发病原因尚不明确,RSF评分直至发病前仍较低,毛细血管脆性等因素可能参与,但无法确定是否未观察到的急性事件影响了结局或RSF模型未能学习与DME相关的特征。

该发表于《Ophthalmology Science》的研究优势在于RSF模型仅使用年度健康体检和病史数据即可在发病前5年预测DME,对于DME患病率仅2–3%的65岁以下劳动人群具有重要筛查价值,有助于规划检查频率。局限性包括:数据库仅含65岁以下劳动者及其家属,未来需纳入70岁以上人群;理赔数据常含临时疾病名称,对某些诊断敏感性有限,虽剔除"疑似"标志旨在排除最终判定无病的患者,但部分记录代码仍可能对应检查过程中的临时诊断;年度体检的时间分辨率有限,可能导致急性诊断或短暂临床信息遗漏;定期体检者健康意识较高、整体健康状况可能优于一般人群,引入选择偏倚;JMDC数据库缺乏疾病严重程度和结局等临床细节,采用医疗机构详细临床数据进行验证至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号