下一代分子模拟的机器学习能量函数:基于团簇模型的发展与应用

《Small Structures》:Cluster Models for Next-Generation, Machine-Learning-Based Energy Functions for Molecular Simulations

【字体: 时间:2026年02月17日 来源:Small Structures 11.3

编辑推荐:

  本文综述了如何结合机器学习与经验能量函数,以基于团簇的建模新范式,为复杂化学体系(从纯溶剂到异质反应系统)开发高精度、高效的计算势能面。文章通过二氯甲烷、水、共晶混合物、CO在非晶冰吸附以及反应动力学等代表性案例,系统展示了该策略在提升分子动力学模拟准确性方面的潜力与挑战,为分子模拟的未来发展提供了重要指引。

  
新一代分子模拟能量函数的基石:从团簇模型到机器学习势能面
分子模拟,作为理解物质在原子和分子层面行为的关键工具,其核心在于描述系统能量的函数(即势能面,PES)。传统的经验力场(FF)方法虽被广泛应用,但在描述复杂或异质系统时,其准确性常受限于预先设定的数学形式和参数化数据。近年来,机器学习(ML)的兴起为直接从高精度量子化学计算数据中学习势能面开辟了新道路。本文综述了一项前沿研究,该研究聚焦于利用小型到中型分子团簇作为“试验台”,通过整合机器学习技术与经验表达,构建下一代用于凝聚相模拟的高精度能量函数。
方法:混合策略的巧妙融合
研究采用了两种互补的策略来表示体系的总能量。第一种是减除方案:从需要拟合的总相互作用能中,减去由机器学习精确描述的成键项(如分子内振动)。这些成键项通过神经网络(NN)或再生核希尔伯特空间(RKHS)来建模。剩余的非键相互作用(对应于经典力场中的范德华和静电作用),则通过改进的分布电荷模型(如用于共晶混合物、光谱探针和水的柔性最小分布电荷模型fMDCM或基于核的最小分布电荷模型kMDCM)或显式的短程NN二聚体势(用于二氯甲烷)来处理。最后,拟合伦纳德-琼斯(LJ)项来描述能量残差。第二种策略则是将整个团簇的总能量直接表示为一个NN势能面。所有模拟均在支持使用机器学习能量函数的CHARMM程序中进行,并通常与CHARMM通用力场(CGenFF)和TIP3P水模型保持一致性,以确保可比性。
应用案例:从纯液体到异质系统
研究通过一系列具有代表性的系统,展示了基于团簇的机器学习能量函数构建方法的有效性、精度与灵活性。
  1. 1.
    二氯甲烷:混合ML/MM势的“概念验证”
    以二氯甲烷(DCM)为模型,研究者开发了一种混合机器学习/分子力学(ML/MM)势。其核心是将高精度的神经网络二聚体势用于描述短程分子间相互作用,而长程相互作用则沿用CGenFF的静电和LJ模型,并在两者之间设定平滑转换的截断距离。通过对从分子动力学模拟中提取的200个DCM二十聚体团簇进行参数优化,结果表明:优化后的混合势能面与高精度DLPNO-MP2/cc-pVTZ参考计算结果的均方根误差(RMSE)降至约1.0 kcal/mol,接近化学精度(~1 kcal/mol),显著优于单纯的经验力场或重参数化LJ项的效果。
  2. 2.
    纯水:挑战“复杂液体”的精度极限
    水因其独特的氢键网络和众多物理异常而成为极具挑战性的测试体系。研究者采用了一种通用工作流:将单体的小型NN势能面、用于静电的柔性最小分布电荷模型(fMDCM)与用于范德华作用的LJ项相结合。通过拟合至CCSD(T)-F12B/aug-cc-pVTZ-F12级别理论计算的水二聚体、三聚体和四聚体数据,生成了数百个候选模型。最佳模型在测试集上达到了约0.5 kcal/mol每单体的RMSE,远优于从TIP3P模型出发重拟合LJ参数的结果(1.5 kcal/mol)。进一步选取基于CCSD(T)的优化模型进行分子动力学模拟,发现其预测的介电常数、自水合自由能、扩散系数和角重定向时间等热力学与动力学性质与实验值符合良好,展示了团簇模型作为高精度水模型开发起点的潜力。
  3. 3.
    共晶混合物:处理异质且高静电环境的策略
    以水/乙酰胺/NaSCN形成的深共晶混合物为例,研究者展示了如何为异质、高离子强度的系统优化力场参数。在该体系中,SCN-阴离子的内部能量和短程作用通过RKHS势和fMDCM静电模型精确描述,而乙酰胺和水则沿用CGenFF/TIP3P模型。研究的关键在于,通过拟合从不同水/乙酰胺比例混合物分子动力学模拟中提取的、包含SCN-及其周围环境的团簇(总计200个结构)的DFT(M062X/aug-cc-pVTZ)相互作用能,来优化SCN-的LJ参数。研究比较了针对每个混合比例“单独优化”的参数和追求跨比例“可转移”的参数集。结果显示,优化后的参数显著改善了模型与DFT参考数据的一致性,并且基于新参数的模拟得到的径向分布函数(如Na+–N(SCN-)的键距)更符合实验观测,表明该方法能有效调整模型以更真实地反映复杂溶剂环境中的离子溶剂化结构。
  4. 4.
    CO在非晶固态冰上的吸附:面向星际化学的模拟
    一氧化碳(CO)在非晶固态冰(ASW)上的吸附是星际分子形成的重要初始步骤。为了精确描述这一过程,研究者为“CO+(H2O)N”团簇训练了一个全局的神经网络势能面(使用PhysNet架构),其参考数据来自高精度的耦合簇CCSD(T)-F12计算。该势能面成功捕捉了CO在ASW表面多种不同吸附位点的结合能分布,为研究星际冰尘表面的催化反应和分子演化提供了强有力的计算工具。
  5. 5.
    门舒特金反应:追踪溶液中的化学转变
    门舒特金反应是溶液中典型的双分子亲核取代反应(SN2)。研究者为反应物、过渡态和产物构成的团簇体系开发了神经网络势能面。利用此势能面进行的分子动力学模拟,能够实时追踪反应坐标的变化、溶剂分子的重排以及反应自由能垒,直观地展示了溶剂环境如何影响化学反应路径与速率,凸显了基于机器学习势能面在研究溶液反应机理方面的独特优势。
结论与展望
本文通过一系列从简单到复杂的案例研究表明,以团簇为基础,结合机器学习(用于精确描述局部化学环境和短程相互作用)与经验/物理模型(用于高效处理长程静电和范德华作用)的混合策略,是构建下一代高精度分子模拟能量函数的有效途径。 这种方法在二氯甲烷和水中达到了接近化学精度的水平,并能成功处理共晶混合物、表面吸附和化学反应等异质与动态系统。
然而,研究也指出了当前面临的挑战与未来方向:例如,需要更真实的范德华作用模型、改进的水模型(以提升对异质生物体系的定量模拟)、以及引入显式的多体校正或极化模型来更准确地描述强极性体系。随着机器学习方法、算力和高质量参考数据的持续发展,这种基于团簇的、可系统化构建和验证的能量函数开发范式,有望大幅推动分子动力学模拟在化学、材料科学和生命科学等领域的预测能力与应用边界。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号