基于尿液蛋白质组学与机器学习的糖尿病肾病诊断模型构建及六种候选生物标志物鉴定

《Journal of Proteome Research》:Feasibility of Integrating Urinary Proteomics and Machine Learning for Diagnosing Diabetic Nephropathy

【字体: 时间:2026年02月27日 来源:Journal of Proteome Research 3.6

编辑推荐:

  本研究针对糖尿病肾病(DN)早期诊断技术不足的临床难题,聚焦于尿液蛋白质组学与机器学习相结合的策略。研究人员通过鉴定差异表达的尿蛋白,并整合公共数据库分析,筛选出SERPINF1、FABP4等六个潜在生物标志物。基于这些标志物构建的机器学习诊断模型展现出优异的诊断性能(AUC>0.800),并在外部验证队列中得到证实。该研究为DN的无创、精准诊断提供了新的方法学思路和极具转化前景的候选分子靶标,对改善患者预后具有重要意义。

  
在糖尿病(Diabetes Mellitus,DM)肆虐的今天,一种名为糖尿病肾病(Diabetic Nephropathy,DN)的并发症正悄然成为全球终末期肾病(ESRD)的首要病因。然而,临床医生在诊断这场“静默危机”时,却常常面临“武器库”不足的尴尬——传统金标准肾活检因有创而难以常规开展,而尿白蛋白/肌酐比值(UACR)和估算肾小球滤过率(eGFR)等常用指标,在疾病早期敏感性不足或特异性有限。寻找更灵敏、更无创的诊断“利器”,已成为肾病研究和临床实践领域亟待攻克的堡垒。
面对这一挑战,科学家们将目光投向了尿液——这一可以无创、反复获取的“液体活检”样本,试图从中寻找能够预警肾脏损伤的“分子信号”。为了回答“能否通过尿液蛋白更早、更准地诊断DN”这一问题,研究人员在《Journal of Proteome Research》上发表了一项开创性研究。他们巧妙地将前沿的尿液蛋白质组学技术与强大的机器学习算法相结合,不仅在分子层面系统描绘了DN的蛋白表达图谱,更成功筛选出关键的诊断标志物,并构建出高性能的诊断模型,为DN的精准诊疗开启了新的大门。
为了开展这项研究,作者团队首先从杭州市萧山区第一人民医院招募了包含健康对照(CON,n=60)、2型糖尿病(T2DM,n=59)和DN(n=60)患者在内的队列,并采集了他们的尿液样本。研究采用的核心技术包括:液相色谱-串联质谱(LC-MS/MS) 技术对尿液蛋白进行大规模鉴定和定量;生物信息学分析(使用limma、ggplot2等R包)筛选差异表达蛋白,并进行KEGG、GO功能富集分析;整合来自GEO数据库的多个公共数据集(GSE142025等)进行交叉验证,筛选候选标志物;运用多种机器学习算法(包括glmnet、plr、ranger、gbm、svmRadial、naive_bayes)构建DN诊断模型,并通过外部数据集iProX(IPX0003092000) 进行验证。
研究结果
3.1. 患者临床特征分析
研究人员分析了三组人群(CON、DM、DN)的临床基线数据。结果显示,与DM组相比,DN组患者年龄更大、糖尿病病程更长、估算肾小球滤过率(eGFR)显著降低,这为后续蛋白组学分析提供了临床背景。
3.2. 患者尿液蛋白质组学特征
初步分析发现,DN组的尿液蛋白总数显著低于CON和DM组。主成分分析(PCA)显示CON组与DN组能较好区分,而DM与DN组分布有重叠,提示蛋白表达谱的差异。
3.3. 差异表达蛋白的筛选
通过火山图分析,研究发现了大量在DN患者尿液中表达发生显著变化的蛋白。例如,与CON组相比,DN组有504个蛋白表达下调,442个上调;与DM组相比,DN组有341个下调,325个上调。这些变化揭示了从DM进展到DN过程中的分子扰动。
3.4. 差异表达蛋白的功能分析
KEGG通路富集分析表明,DN中上调的蛋白主要富集在系统性红斑狼疮、PPAR信号通路、NOD样受体信号通路等与免疫炎症和代谢重编程相关的通路。而GO分析进一步提示,DN进展涉及免疫系统激活、细胞间相互作用破坏以及细胞对外部刺激反应性的改变。
3.5. DN中上调蛋白的筛选
通过层次聚类,研究者发现了一个蛋白模块(Cluster 3),其表达水平随疾病进展(CON → DM → DN)而逐渐升高,并在DN患者中达到峰值。对该模块蛋白进行蛋白质-蛋白质相互作用(PPI)网络分析,初步锁定了28个显著上调的蛋白作为潜在标志物。
3.6. 潜在DN尿液蛋白生物标志物的筛选
为了增强发现的可靠性,研究将本项目的蛋白组学数据与五个GEO数据库的基因表达数据进行了整合分析。经过交叉验证,最终确定了六个在DN中持续高表达的候选生物标志物:色素上皮衍生因子1(SERPINF1)、脂肪酸结合蛋白4(FABP4)、铜蓝蛋白(CP)、补体因子B(CFB)、补体C4-A(C4A)和α-1B-糖蛋白(A1BG)。
3.7. 潜在尿液蛋白生物标志物的诊断能力分析
研究人员利用这六个生物标志物,构建了区分DN与CON、以及DN与DM的机器学习诊断模型。结果显示,使用glmnet、plr和ranger方法构建的模型性能优异,在测试集中的曲线下面积(AUC)值均超过0.800,其诊断准确性超过了传统的eGFR指标。
3.8. 潜在尿液蛋白生物标志物的诊断能力验证
为了验证模型的泛化能力,研究使用独立的外部验证数据集IPX0003092000进行评估。结果显示,ranger、glmnet和plr模型在验证集中的AUC值分别达到了0.928、0.942和0.850,证明了该六标志物组合具有稳健的诊断效能。
结论与讨论
本研究成功利用尿液蛋白质组学技术,鉴定出SERPINF1、FABP4、CP、CFB、C4A和A1BG六个在DN患者尿液中显著上调的蛋白质。功能分析揭示了这些蛋白与免疫炎症、补体激活等关键生物学过程密切相关,为理解DN发病机制提供了新线索。更重要的是,研究者创新性地将这六个标志物与机器学习算法结合,构建了高性能的DN诊断模型。该模型在内部测试和外部独立验证中均表现出高精度(AUC最高达0.942),其诊断效力优于临床常用的eGFR指标,展现出巨大的临床应用潜力。
这项工作的重要意义在于:第一,它为DN的早期、无创诊断提供了一套全新的、基于多标志物组合的解决方案,有望弥补现有临床指标的不足。第二,研究策略具有示范性,整合了组学大数据、生物信息学筛选和人工智能建模,为其他复杂疾病的生物标志物发现与模型构建提供了可借鉴的范式。第三,研究所鉴定的六个蛋白本身可作为深入探究DN分子机制的新切入点。尽管研究存在样本量有限、缺乏机制验证等局限性,但其成果无疑为推进DN的精准医疗迈出了坚实的一步,未来通过更大规模的多中心临床研究和深入的机制探索,有望早日将这一“液体活检”诊断工具转化为惠及广大患者的临床实践。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号