综述:连接机理与数据:癌症与衰老研究的混合建模方法

《Current Opinion in Systems Biology》:Bridging Mechanism and Data: Hybrid Modeling Approaches for Cancer and Aging Research

【字体: 时间:2026年03月11日 来源:Current Opinion in Systems Biology 2.2

编辑推荐:

  这是一篇深入探讨计算生物学和系统生物学前沿的综述。文章系统阐述了如何整合基于常微分方程(ODE)的机理模型与机器学习(ML)方法,以构建混合建模框架。通过结合机理模型的因果可解释性和数据驱动模型的预测能力,该综述重点讨论了混合模型在克服生物数据复杂性、可扩展性等挑战方面的优势,并展示了其在癌症(如肿瘤异质性和治疗响应)与衰老(如血管神经退行性变和生物年龄)研究中的具体应用,最终展望了构建面向精准医学、具备不确定量化能力的个性化数字孪生模型的未来方向。

  

连接数据复杂性与生物学机理

计算系统生物学一直致力于整合多样化的生物过程,构建连贯的解释框架。随着高通量技术的发展,以常微分方程(ODE)为代表的机理模型成为编码因果假设、预测系统行为的重要工具。它们具有可解释性和生物学根基的优势,但也常面临参数不确定性、可扩展性有限、计算成本高等挑战。与此同时,机器学习(ML)方法通过从高维、噪声的生物数据中学习,提供了强大的预测性能,但其数据驱动的优势也伴随着透明度有限、泛化性不足的代价。
生物学数据本身存在一系列挑战:它们具有内在变异性和测量误差,通常具有高维、小样本、稀疏、异构等特点,难以整合和归一化。机理模型和ML方法各有其固有的优势与局限性。机理模型在因果解释和假设检验方面表现出色,但难以应对大规模、多尺度的生物系统。纯粹的ML方法则在处理高维噪声数据时展现威力,但通常无法阐明其预测背后的生物学机制,且容易过拟合。
将两种范式结合起来的混合模型,提供了一个统一的框架,可以部分弥补各自的局限。混合模型利用机理约束作为学习过程中的一种归纳偏置,将学习过程限制在生物学合理的范围内,从而减少需从数据中估计的自由参数数量,改善了从小样本中的泛化能力。此外,机理模型组件可以通过模拟生成合成训练数据,以补充稀疏的实验数据集。
目前,多种整合策略已经涌现。例如,机器学习替代模型(ML surrogates)可以替代计算昂贵的机理模块,在保留生物学意义的同时,极大地降低了模拟成本。神经ODE(Neural ODEs)和通用微分方程(Universal Differential Equations, UDEs)允许建模者在微分方程中保留已知的机理项,仅用神经网络逼近未知或不确定的组成部分。物理信息神经网络(PINNs)和生物信息神经网络(BINNs)则通过结构正则化或基于约束的损失函数,将机理先验知识融入神经网络架构,确保生物学和物理上的一致性。贝叶斯神经网络(BNNs)和概率ODE等混合推断方法,则用于量化噪声和不完整生物环境中的不确定性。此外,自编码器、变分潜变量模型和降阶建模等降维技术,可以将高维数据压缩为机制模型可以随时间演化的潜状态。
总的来说,这些方法学进展为将机理知识与数据驱动组件结合提供了灵活且不断扩展的工具集。它们能够吸收不确定性,整合多模态数据,并产生可预测、可扩展且具有机理意义的复杂生物系统表征。

癌症与衰老研究中的混合建模方法

癌症和衰老是两个极其复杂且重要的生物过程,它们都受到高维数据和非线性机制的影响,任何单一建模方法都无法完全捕捉。它们丰富的数据库和不完整的因果理解,使其成为混合ML-机理模型的理想高影响力领域。
癌症是一种高度复杂和异质性的疾病,其背后涉及许多复杂、非线性且在很大程度上未知的机制。肿瘤内和肿瘤间的高度异质性以及患者间的巨大差异,导致对治疗的反应截然不同,使得精准医学的实施充满挑战。尽管ML与高通量技术相结合已经革新了癌症研究,但许多预测模型缺乏生物学基础,可解释性有限。混合建模方法在肿瘤学领域的需求日益增长,相关工作也在稳步扩展。
例如,可解释的生物模型P-Net被开发用于根据基因组谱对前列腺癌进行分层。与标准深度神经网络不同,P-Net通过其架构实现了可解释性:网络层的结构反映了已知生物途径的层次结构,输入节点对应基因,中间层代表通路和生物过程,输出编码临床预测。这种设计使得每个基因和通路对预测的贡献都可以通过网络追溯,从而识别驱动前列腺癌进展的已知和新基因。最近,一种用于临床时间序列的潜在神经随机微分方程(SDEs)框架被开发出来,用于提供预期的治疗反应和相关的不确定性。该模型能自然地处理不规则采样(临床肿瘤学数据的常见挑战),并捕捉患者对相同治疗反应的变异性。此外,经过成像校准的肿瘤生长机理模型已与基于机器学习的校准方法相结合,以预测胶质母细胞瘤患者对放射治疗的特异性反应。同样,细胞内信号传导的机理模型也已与深度神经网络相结合,用于预测癌细胞系的药物反应,表明混合方法在提供关于哪些信号传导机制介导药物敏感性的见解的同时,其性能优于纯粹的机理模型和纯粹的数据驱动模型。
衰老是一个典型的多尺度、异质性生物过程,其中分子损伤、基因调控改变、线粒体功能障碍、免疫重塑和器官水平的功能衰退相互作用数十年。这些动态过程是非线性、适应性和高度情境依赖的,使得衰老成为混合框架的理想目标。然而,由于对长期过程缺乏机理理解,限制了机理模型的可用性,导致混合模型在衰老领域应用不足,仅存少数结合数据驱动模型和机理约束的例子。
在血管和神经衰老领域,混合中风风险模型已被嵌入数字孪生框架,通过整合编码已知生理学的多级心血管和血流动力学模拟器,与基于患者登记数据训练的ML风险分类器相结合。在预测方面,一个混合统计-机器学习系统被开发用于评估痴呆症风险,通过将特征选择管道与基于老年人纵向数据训练的集成分类器相结合。混合方法也正逐步应用于生物年龄估计和衰老生物标志物研究。例如,在生物年龄估计方面,因果增强型表观遗传时钟(causality-enriched epigenetic clocks)已将CpG甲基化位点分解为反映生物损伤的位点和反映适应性反应的位点,与将所有甲基化变化视为等效衰老标志物的传统表观遗传时钟相比,这种因果划分改善了对死亡率和年龄相关疾病风险的预测。
混合模型通过将多模态患者数据与机理洞察相结合,在肿瘤学和衰老研究中提供了重要机遇。在癌症领域,混合框架可以整合患者特异性的组学、影像和临床标志物与肿瘤生长和治疗反应的机理模型,从而实现肿瘤进化、治疗耐药性和最佳干预策略的计算机模拟预测。在衰老领域,混合模型可以融合纵向组学、生活方式因素和临床轨迹与关键途径(如衰老、炎症或代谢调节)的机理描述,以模拟个体衰老轨迹并评估潜在干预措施,包括热量限制、运动、衰老细胞清除剂或老年保护药物。

未来之路:迈向可泛化、机理扎实且临床实用的混合模型

要实现混合建模的潜力,需要调和保持泛化性的需求与维持机理基础的必要性,并使混合系统能够在现实世界的数据限制下支持精准医学和预防策略。实现第一个目标将需要更紧密地耦合机理结构与数据驱动组件的方法,例如将生化约束、守恒定律或结构先验直接嵌入神经网络架构,并使用不确定性感知推断来防止超出训练领域的过度自信外推。
在潜变量建模和算子学习方面的进展,可能允许ML组件提出用于实验测试的候选机制或相互作用,从而加强数据驱动发现与机理细化之间的反馈循环。变分自编码器和相关的生成模型可以学习复杂生物数据的低维表示,当与机理ODE模型耦合时,可能揭示先前未被识别的调控相互作用。算子学习方法(如DeepONet)可以学习函数空间之间的映射,在混合背景下,可以识别哪些机理结构最能解释观察到的生物数据,从而有效提出用于实验验证的候选机制。可识别性感知的模型设计也将至关重要,确保机理核心被限制在数据实际能够支持的范围内,而ML组件仅在需要时填补结构空白。这也提出了可扩展性问题:如果ML承担了数据驱动的负担,我们可以构建多大的机理模型,或者基本的计算瓶颈是否在更大规模上依然存在。
第二个目标,即将混合系统转化为精准医学和预防保健,需要模型能够在缺失数据、模态异质和纵向采样有限的临床环境中可靠运行。个性化数字孪生代表了一个有前景的方向,它提供持续更新的混合模型,可以同化组学、临床标志物和生理数据,以模拟个体轨迹并评估干预策略。能够跨人群学习但仍能做出个体化预测的混合框架(例如,通过分层或联邦设计)可能有助于克服单个患者层面的数据稀缺性。对于临床采用,混合模型需要产生透明、不确定性感知的输出,并与可操作的临床终点(如治疗优化、风险分层或预防策略选择)保持一致。
混合模型在预测能力和个性化方面显然具有优势,通常通过将学习限制在合理的动态范围内,比黑箱ML模型更能可靠地进行外推。然而,要充分释放其潜力,仍需方法学上的进步,包括端到端的不确定性传播、刚性求解器鲁棒训练、可识别性感知实验设计、生物学一致的多模态融合以及模块化建模标准的开发。伦理问题也日益重要。预测衰老轨迹、个性化治疗建议和人工智能驱动的决策支持引发了关于隐私、心理影响、自主权和责任制的担忧,尤其是在混合模型变得更加个性化和具有临床影响力时。
这些挑战和机遇共同定义了混合建模的前沿。该领域是保持主要为探索性,还是发展成为一种成熟的转化技术,将取决于我们能否构建出不仅在机理上可信、数据高效,而且在临床上可靠、伦理上坚实,并能够支持肿瘤精准医疗、老年科学及其他领域现实世界决策的混合系统。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号