基于无监督学习与维度约减的DIRAM/COD框架:挖掘UK Biobank大规模蛋白质组数据揭示新型疾病相关蛋白

《Scientific Reports》:Unsupervised learning reveals novel disease-associated proteins in high-dimensional human proteomic data

【字体: 时间:2026年02月23日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对高维人类蛋白质组数据中传统监督学习方法可能遗漏的微妙模式、以及无监督学习面临的维度灾难挑战,提出了名为DIRAM/COD的降维与社区检测结合框架。该工作通过对英国生物银行(UK Biobank)中52,691名参与者的2,923种血浆蛋白质浓度数据进行分析,不仅验证了如高血压(UBE2L6)和白血病(LRCH4)的已知生物标志物,还发现了与乳糜泻相关的新候选蛋白IGF2BP3等,为发现新生物标志物和治疗靶点开辟了道路。

  
在精准医疗飞速发展的今天,科学家们能够以前所未有的规模测量人体内成千上万的蛋白质。这些海量的蛋白质组数据,如同一座蕴含无尽健康密码的金矿。然而,要从这座高维度的“金矿”中淘洗出真正有价值的“金子”——即那些与疾病息息相关的关键蛋白,却并非易事。传统的数据挖掘方法主要依赖于监督学习,这种方法虽然易于实施和评估,但其“目标导向”的特性有时会像一束强光,只照亮我们已知寻找的区域,却可能遗漏掉黑暗中那些未被预见的、微妙的关联模式。另一方面,理论上更擅长探索未知关联的无监督学习方法,在面对包含数千种蛋白质、数万名参与者数据的超高维度“迷宫”时,却往往力不从心。如果采用“蛮力”计算,完成一次分析可能需要数千年,这显然不切实际。于是,一个核心问题浮出水面:我们如何才能高效、无偏见地从大规模人类蛋白质组数据中,挖掘出那些隐藏的、可能与疾病密切相关的蛋白质“信号”呢?
为了破解这一难题,一项发表在《Scientific Reports》上的研究应运而生。研究人员决心开发一种新的分析框架,以克服高维数据的计算瓶颈,并利用无监督学习的“慧眼”去发现那些被传统方法忽略的关联。他们聚焦于一个极具价值的资源——英国生物银行(UK Biobank)的大规模蛋白质组数据集。这个数据集堪称同类中的巨无霸,包含了来自52,691名参与者的2,923种血浆蛋白质的浓度信息,为探索疾病与蛋白质之间的复杂网络提供了绝佳的材料。
为了开展这项研究,研究人员运用了几个关键技术方法。首先,他们开发了名为“Dimensionality Reduction with Avoidance of Missing/Community Detection (DIRAM/COD)”的创新框架。该框架的核心是将降维技术与无监督学习方法(特别是社区检测算法)相结合,旨在高效处理UK Biobank的超大规模、高维蛋白质组数据。研究具体分析了UK Biobank队列的血浆蛋白质浓度数据。
研究结果
  • DIRAM/COD框架的开发与应用:研究者开发了DIRAM/COD框架,通过结合降维与社区检测,成功对UK Biobank中包含2,923种蛋白质、52,691个样本的高维数据集进行了有效分析。这克服了传统无监督学习方法直接处理此类数据时面临的计算挑战。
  • 已知生物标志物的验证:应用该框架进行分析后,研究成功复现了若干已被充分确认的疾病相关蛋白质。例如,蛋白质UBE2L6被证实与高血压(hypertension)相关,而蛋白质LRCH4则与白血病(leukemia)的关联得到了确认。这一结果验证了新方法在识别已知重要信号方面的可靠性。
  • 新型疾病关联蛋白的发现:更重要的是,该研究发现了此前未与特定疾病建立关联的蛋白质候选者。一个突出的例子是蛋白质IGF2BP3(Insulin-like growth factor 2 mRNA-binding protein 3),该分析揭示了其与乳糜泻(celiac disease)的潜在关联。IGF2BP3是一种此前已被研究证实与肠道屏障功能有关的蛋白质,这一新发现为其在自身免疫性肠病中的作用提供了新的线索。此外,研究还识别出了其他一些尚未与所研究疾病建立联系的蛋白质。
结论与讨论
这项研究通过开发并应用DIRAM/COD框架,成功地在大规模、高维度的人类蛋白质组数据中进行了无监督探索。其意义在于双重的:一方面,它证实了新方法在复杂生物数据中识别已知疾病标志物的能力,确保了方法的稳健性;另一方面,也是更具启发性的一面,是它揭示了一系列新的、潜在的疾病相关蛋白质,例如与乳糜泻相关的IGF2BP3。这些发现超越了传统监督学习可能设定的边界,展现了无监督数据挖掘在生物医学发现中的独特价值。该工作不仅为处理其他类似规模和高维度的组学数据(如代谢组学、转录组学)提供了一套可行的技术路线,更重要的是,它打开了利用现有大型生物数据库(如UK Biobank)重新挖掘、发现新型生物标志物和潜在治疗靶点的大门。未来,随着数据集的进一步扩大和分析方法的持续优化,这种无预设偏见的探索策略有望加速我们对复杂疾病生物学基础的理解,并推动精准医疗向更深、更未知的领域迈进。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号