编辑推荐:
图神经网络(GNNs)作为分子动力学(MD)模拟的新型工具,通过原子交互图结构学习量子级准确力场,自动发现增强采样的关键变量,并加速长时程模拟。GNNs还能解析高维轨迹,揭示隐藏结构模式,应用于蛋白质-DNA组装、预训练特征化和隐秘口袋发现,显著提升生物分子模拟的效率和机制解析能力。
Mohd Ahsan|Chinmai Pindi|Souvik Sinha|Amun C. Patel|Giulia Palermo
加州大学河滨分校生物工程系,美国加利福尼亚州河滨市大学大道900号,邮编52512
图神经网络(GNNs)正成为推进分子动力学(MD)模拟的强大工具,它们提供了数据驱动的框架,以补充传统的基于物理的方法。通过将原子及其相互作用表示为图,GNNs能够自然地编码化学和结构信息,从而实现基于量子数据的精确神经网络力场训练、自动发现用于增强采样的集体变量,以及高效预测原子力以延长模拟时间尺度。除了推动MD的发展外,GNNs还便于分析高维轨迹,通过注意力机制或可转移的嵌入提供可解释的洞察力。诸如蛋白质-DNA组装、预训练的特征提取器和隐秘口袋发现等应用展示了GNNs的广泛用途,突显了它们在转变生物分子模拟和加速机制与转化发现方面的潜力。
章节摘录
用于MD模拟的GNN基础
GNNs作为一种强大的架构,用于构建机器学习力场(MLFFs),能够在保持经典力场效率的同时达到量子级别的准确性[10]。与传统依赖于预定义功能形式的力场不同,基于GNN的力场直接从高级量子力学数据中学习原子构型与其相关能量和力之间的复杂关系。通过将分子表示为图,GNNs自然地融入了局部性特征,
利用GNN增强采样并加速MD模拟
GNNs在分子模拟的两个关键领域展示了巨大潜力:识别用于增强采样的低维集体变量(CVs)以及预测原子力以加速MD模拟。这些进展直接解决了计算(生物)分子科学中的核心挑战,包括在复杂系统中定义物理意义上的集体变量,以及与长时间尺度动态评估相关的高计算成本。
用于MD模拟分析的GNN
在这里,我们重点介绍了基于图表示的新兴GNN架构,这些架构最近被用于解析转座蛋白TnsC在双链DNA(dsDNA)上的组装生物物理机制[13]。作为一种新兴的基因组编辑方法,RNA引导的DNA转座越来越多地利用深度学习来解析复杂的功能动态,并实现高效插入工具的精确工程[40]。其中,图注意力机制尤为重要
结论
GNNs通过提供数据驱动的框架,正在迅速改变生物分子模拟的领域,补充并扩展了传统的基于物理的方法。从实现量子级精确的神经网络力场和自动发现集体变量,到加速MD模拟以及揭示高维数据中的隐藏结构或动态模式,GNNs在整个模拟流程中展现了其多功能性。重要的是,最近的进展突显了它们的两个关键优势:
作者贡献
MA、CP、SS和ACP参与了手稿的撰写和图表的准备工作。GP提出了综述思路,并参与了撰写和图表准备。
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的竞争性财务利益或个人关系。
致谢
本材料基于以下机构的支持:国家卫生研究院(资助编号:R01GM141329)和国家科学基金会(资助编号:CHE-2144823)。GP还感谢斯隆基金会(资助编号:FG-2023-20431)和Camille和Henry Dreyfus基金会(资助编号:TC-24-063)的支持。