基于部分数据集的高维模型:加法深度学习整合碎片化视角,重构复杂生物系统

【字体: 时间:2025年02月25日 来源:npj Biological Physics and Mechanics

编辑推荐:

  为解决从部分数据重构生物系统模型的难题,研究人员用加法深度学习整合数据,成功重构系统,助力复杂生物功能建模。

  在生物的微观世界里,细胞就像一座神秘的城堡,其中的各种分子组件相互交织,如同城堡中复杂的机关和暗道,共同塑造了生物的各种功能。然而,科学家们在探索这座城堡时,却面临着重重困难。生物系统是由成千上万相互作用的分子组件构成的复杂网络,要想同时量化所有变量对生物功能的贡献,难度极大,尤其是在单细胞层面。这就好比在黑暗中摸索城堡的全貌,每次只能摸到其中的一部分,很难知晓整体的结构和布局。
目前,大多数实验只能测量和量化少量变量,就像从不同角度拍摄城堡的局部照片,无法拼凑出完整的城堡图像。虽然机器学习(ML)和人工智能(AI)技术不断发展,但获取所有相关变量的数据并在单细胞层面同时测量生物功能,仍然是一个难以跨越的障碍。在这样的背景下,来自约翰斯?霍普金斯大学(Johns Hopkins University)等机构的研究人员 Yufei Wu、Pei-Hsun Wu 等人开展了一项极具意义的研究,相关成果发表在《npj Biological Physics and Mechanics》上。

研究人员提出了一种基于机器学习的方法,旨在从部分数据集(faceted data sets)中重构完整的生物网络模型。该方法的核心思路是利用条件分布(conditional distributions)整合碎片化的数据子集,就像将零散的拼图碎片巧妙地拼接在一起,从而构建出系统的全貌。

为了实现这一目标,研究人员运用了多种技术方法。首先,在数据处理方面,对于输入变量 x 的分布,若数据近似正态分布,他们先对数据进行标准化处理;若数据分布较为复杂,则采用高斯混合模型(Gaussian mixture model)进行拟合。其次,在模型构建上,他们分别开发了多项式回归(polynomial regression)和神经网络(neural network)模型。在模型训练过程中,通过最小化预测的条件分布与真实分布之间的差异来获取最佳模型参数,这里使用了模拟退火(simulated annealing)方法来优化模型。同时,对于神经网络模型中难以解析计算的条件均值和方差,采用蒙特卡罗采样(Monte Carlo sampling)方法进行计算。

在研究结果部分,研究人员通过两个具体的例子验证了他们的方法。

  1. 弹簧网络:以二维 8 节点弹簧网络系统为例,该系统虽看似简单,但节点间的非线性相互作用使其响应复杂。研究人员基于部分数据测量,运用多项式回归和神经网络方法,成功重构了该网络的力 - 变形响应函数。从预测结果来看,无论是联合概率分布的预测,还是对测试数据集的预测,模型都表现出了较高的准确性,预测值与真实值拟合良好。
  2. P53 网络:研究人员将算法应用于包含衰老标记物 P53 表达的小型生物网络。他们选取 8 种分子作为输入,以单细胞中 P53 的表达水平作为输出。通过对不同细胞条件下的数据进行分析,发现标准化输入变量与 P53 之间的映射在不同细胞条件下是相同的,不同条件下的差异主要体现在概率分布上。此外,利用多项式模型,研究人员还分析出了哪些变量对 P53 含量贡献最大,以及分子间的协同和拮抗作用。例如,在对照条件下的细胞中,LaminB1 和 HMGB1 对 P53 含量贡献最大,HMGB1 和 B - actin 对 P53 有协同作用,而 HMGB1 和 F - actin 则表现出拮抗作用。

在研究结论与讨论部分,研究人员提出的方法能够从部分数据集重构系统的完整模型。通过增加已知变量和同时测量变量的数量,模型的预测准确性会逐渐提高,这体现了该方法的加法特性。该方法可应用于高维数据,包括单细胞蛋白质组学数据,有助于构建特定生物功能的全基因组无偏模型。它为研究复杂生物功能提供了一种系统且无偏的方式,能够帮助研究人员深入探究细胞群体中罕见细胞产生生物功能的机制,以及在疾病状态下生物网络的扰动情况。

然而,该研究也存在一些有待进一步探索的问题。比如,从部分数据构建的模型可能不唯一,多个网络可能产生相同的数据集。未来,随着单细胞数据质量的提高,结合机器学习和人工智能方法,有望获得更准确、更具预测性的模型。但目前,获取单细胞高维数据以及将生物功能与潜在蛋白质组联系起来的多方面数据仍然十分困难,这需要新的单细胞测量技术创新和系统的数据收集工作,以推动定量生物学迈向新的发展阶段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号