马尔可夫状态模型在构象动力学中的应用简介

《Journal of Chemical Theory and Computation》:Introduction to Markov State Modeling of Conformational Dynamics

【字体: 时间:2026年03月25日 来源:Journal of Chemical Theory and Computation 5.5

编辑推荐:

  马尔可夫状态模型(MSM)在化学和生物系统构象动力学研究中应用广泛,近年通过改进自适应采样、误差分析、状态分解方法,结合机器学习(如VAE、扩散模型)提升建模能力,并扩展至药物发现、离子通道运输等复杂系统及实验验证。

  ```

特刊

作为《化学理论与计算杂志》(Journal of Chemical Theory and Computation)的“构象动力学的马尔可夫状态建模”特刊的一部分而发布。

1. 引言


马尔可夫状态模型(MSMs)被广泛用于研究化学和生物系统中的构象动力学。它们已被应用于蛋白质折叠、配体结合与解离、自组装、聚集以及变构调控等问题。通过将短时间尺度的分子动力学(MD)模拟与长时间尺度的动力学联系起来,MSMs为分析复杂的动态过程提供了实用的框架。
近年来,MSMs的方法论和理论基础都取得了显著进展。自适应采样、状态分解和不确定性量化的改进提高了动力学预测的可靠性。同时,机器学习(ML)引入了新的策略,以更自动化和可扩展的方式识别集体变量(CVs)并构建MSMs。此外,还开发了在马尔可夫假设不成立时考虑记忆效应的方法。除了方法论的发展外,MSMs还越来越多地与实验观测结果相结合,并应用于更大、更复杂的系统。这些努力共同反映了该领域在严谨性和范围上的持续发展。本期特刊汇集了最近在MSMs方法论、现代ML技术应用以及扩展MSMs在构象动力学研究中的应用方面的成果。

2. 推进MSMs方法论并加强其理论基础


我们如何构建更好的MSMs?回答这个问题需要从多个方面入手,包括MD模拟的实施方式、状态的定义方式、动力学量的估计方法,以及马尔可夫假设在多大程度上能够准确反映潜在的动力学过程。本期特刊中的研究结果表明,改进MSMs需要方法论的创新和对理论基础的重新关注。
本节的自然起点是自适应采样。Nadeem等人(1)提出了一种基于集成的自适应采样框架,该框架根据策略在探索与收敛之间的平衡能力对其进行排序。他们的策略排序方案在每一轮中从候选策略池中选择最有效的采样策略。研究结果表明,动态选择策略可以优于任何单一的固定启发式方法,这突显了在分配计算资源时做出原则性决策的重要性。
确保动力学的可靠估计同样重要。Tuchkov等人(2)分析了MSMs预测量(如平均首次通过时间(MFPTs)和转换态)中的误差来源。他们引入了条件数作为实用的敏感性指标。Bose等人(3)指出了在将加权集合(WE)模拟与MSMs结合时,在超过WE重采样间隔的滞后时间出现的“合并偏差”问题,并提出了一种修正合并偏差的MSMs框架,从而恢复了准确的动力学结果,并显著提高了性能。
构建可靠MSMs的另一个关键要素是识别合适的集体变量(CVs)或反应坐标(RCs)。Cao等人(4)提出了AMUSET-TICA,这是一种基于张量的Koopman方法,能够高效捕获慢速动力学模式,其性能可与深度学习方法(如VAMPnet)相媲美。为此,他们使用非线性高斯基函数扩展了tICs,并将其编码在张量列车结构中。在另一项研究中,Leung等人(5)开发了一种无监督的深度学习策略,用于在WE模拟过程中实时识别进展坐标。通过从潜在空间表示中的异常构象中学习,他们的方法提高了采样效率并改善了速率估计。
Sartore等人(6)重新审视了MSMs的一个基础假设:马尔可夫性。他们研究了考虑记忆效应的先进模型构建方法,包括微状态到宏观状态的投影算子方案,以及基于广义主方程(GME)的准MSMs公式。他们的分析阐明了这些方法的优点和局限性,并展示了如何通过纳入记忆效应来恢复正确的宏观状态动力学。
最后,关于状态建模的替代方法不断扩展了该领域。Zupan等人(7)提出了一种基于网格的Fokker–Planck算子离散化方法,用于分子关联,该方法从几何和能量信息而不是广泛的MD模拟轨迹中解析地推导出转换率。更广泛地说,Xia等人(8)开发的SPONGE-FEP等增强采样MD模拟的持续创新,继续拓展了MSMs运用的方法论框架。

3. 通过深度学习和数据驱动方法推进MSMs建模


最近在机器学习(ML)方面的进展显著影响了构象动力学MSMs分析方法的发展。例如,Adhikari和Mondal(9)优化了变分自编码器(VAE)的设计,以获得蛋白质构象景观的有意义的低维表示。他们将这种方法应用于球状和内在无序蛋白质的长分子动力学轨迹分析,结果表明,在这两种情况下,与他们优化的ζ-VAE相关的潜在空间都非常适合构建MSMs,并且在多种指标上优于标准VAE。
Wang等人(10)也使用VAE框架将分子动力学模拟中MSMs的构建重新定义为信息瓶颈学习问题。他们引入了状态预测信息瓶颈(SPIB)作为一种端到端的方法,用于构建MSMs,同时进行降维、状态分解和MSMs构建。作者通过对三个蛋白质系统的应用表明,即使SPID没有明确优化基于VAMP的目标,它在多个方面也表现出色或优于其他方法,包括提取慢速隐含时间尺度。
在高维生物分子系统中,使用MSMs定位转换态(TSs)可能具有挑战性。Yang等人(11)提出通过结合反应坐标流(RCF,一种可逆的非线性降维方法)和Gentlest Ascent Dynamics(GAD,一种在低维流形上表现良好的鞍点搜索算法)来定位TSs。他们将这种方法应用于在显式溶剂中模拟的T4溶菌酶L99A变体的大构象变化,并通过原始全维空间中的转换态分析进行了验证。
Zhang等人(12)的工作也涉及通过降维识别RCs。作者提出了Flow Matching for Reaction Coordinates(FMRC),这是一种无监督的深度学习方法,可以在不显式计算传递算子的主导特征函数的情况下提取RCs。学习到的RCs可用于构建MSMs。他们表明,当应用于分析三种不同快速折叠蛋白质的模拟时,FMRC能够在二维空间中有效保留慢速动力学。
给定预定义的RCs,Nateghi和Nüske(13)提出在RC空间中构建扩散模型,以保留整个系统的热力学(自由能)和动力学(慢速转换时间尺度)。他们在玩具示例和真实的生物分子动力学上展示了在RC空间中学习状态依赖的扩散张量对于动力学一致性至关重要。
虽然MSMs通常在固定的热力学点产生热力学和动力学分析,但Moqvist等人(14)引入了热力学插值(TI),这是一种生成式ML模型,用于学习不同温度下玻尔兹曼分布之间的可逆映射。他们表明,TI能够高效生成平衡样本、进行自由能估计和跨温度的动力学速率预测。
最后,Zeng等人(15)提出了nano-GPT,这是一种轻量级的GPT风格Transformer模型,旨在从短MD轨迹中提取长时间尺度的生物分子动力学。Nano-GPT利用自注意力机制克服了经典MSMs在模拟长距离、非马尔可夫依赖性方面的局限性。

4. 更接近实验并应对更大、更复杂的系统


本期特刊的一个主题是更接近实验。例如,Miller等人(16)认识到,模拟与单分子FRET(smFRET)实验之间明显差异的一个原因可能是模拟分析倾向于假设测量是瞬时的,而实验实际上是对数毫秒级动力学的平均。他们利用MSMs捕捉动力学的能力来解释这种时间平均效应,从而显著提高了与实验smFRET测量结果的一致性。当然,在某些情况下,力场的缺陷或对各种实验观测结果背后物理机制的不完全理解仍然可能成为限制因素。Nguyen等人(17)展示了如何使用一种称为BICePs的贝叶斯方法重新加权模拟数据,以获得与实验更一致的模型。他们展示了如何将MSMs应用于各种线性和环状肽与NMR实验的连接。
在利用MSMs表征内在无序蛋白质(IDPs)方面也取得了进展。这些系统代表了构象异质性的极端情况,由于相关构象数量庞大,建模难度很大。Sisk等人(18)开发了一种基于“蠕动”概念的方法来识别IDPs中的链交叉。这有助于他们识别这些系统经历的关键(慢速)构象变化,为更好地理解这些关键动力学与功能之间的关系提供了基础。Song等人(19)利用MSMs展示了IDPs在与其他蛋白质伴侣结合时的折叠过程。
在利用MSMs改进药物发现方面也取得了进展。继续探讨IDPs的主题,Papdourakis等人(20)展示了如何使用MSMs预测小分子与IDPs的结合自由能。他们发现这种方法比自由能扰动(FEP)方法表现得更好,因为后者在考虑蛋白质动力学方面做得更好。Dudas等人(21)使用MSMs识别将两种蛋白质结合在一起的粘合剂-小分子。他们扩展了他们的方法,以帮助筛选出进一步开发的最佳候选粘合剂。
最后,在将MSMs应用于理解更大、更复杂的系统方面也取得了进展,包括蛋白质生物物理学之外的系统。Weckel-Dahman等人(22)使用MSMs研究离子通过通道的传输。他们发现,即使在某些情况下人们可能认为单一路径占主导地位而可以忽略其他路径,考虑离子的多种传输路径也是至关重要的。McElhenney等人(23)报告了在理解RNA聚合酶中的转位方面的进展。同时,Wang等人(24)将MSMs应用于理解对制造发光材料重要的铂(II)折叠体的自组装。

5. 总结


总之,本期特刊汇集的成果反映了MSMs在化学和生物物理学研究中方法论和实践方面的持续进展。理论、ML和应用方面的进步共同增强了MSMs在研究构象动力学方面的可靠性和应用范围。我们希望这些工作能够激发进一步的发展,并促进MSMs建模与实验之间的更紧密联系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号