《Journal of Molecular Graphics and Modelling》:Structured Entropy Analysis (SEA): A Computational Framework for Latent Biomolecular Insights Beyond Conventional Descriptors in Molecular Dynamics Simulations
编辑推荐:
分子动力学轨迹的结构熵分析框架,通过特征标准化、二进制编码和统计测试揭示非随机熵模式与动态关联,开发配套软件工具提升分析效率。
Ezekiel Edward Nettey-Oppong|Emmanuel Essel Mensah|Per Peter Badasu|Stefania Akromah|Eric Asare|Martinson Addo Nartey
韩国Wonju市延世大学生物医学工程系
摘要 分子动力学(MD)模拟被广泛用于研究生物分子系统,然而传统的基于特征的分析方法,如回转半径(Rg )、均方根偏差(RMSD)和均方根波动(RMSF),往往只能提供描述性趋势,而无法完全捕捉结构动力学的潜在复杂性。在这项研究中,我们引入了结构熵分析(SEA)这一基于熵的新框架,旨在量化MD轨迹中的潜在信息内容。以泛素(1UBQ)、β-淀粉样蛋白(Aβ42)肽片段(1IYT)和T4溶菌酶(3LZM)作为代表性系统,我们通过一个包含特征归一化、二进制编码、熵评估和统计测试的多步骤流程展示了SEA的应用。我们应用了熵指标,包括香农熵、最小熵、比特平衡、运行测试、卡方分析和序列相关性,来表征特征派生序列中的结构化随机性。我们的结果表明,虽然传统分析突出了全局稳定性和灵活性趋势,但SEA揭示了非随机的熵模式、相关性和受限波动,这些强烈表明了潜在的物理和功能特性。定量上,SEA一致地检测到所有系统中的显著偏离随机性:1UBQ的Rg 实际值为6519而非预期值10677;RMSD分别为4517和10677;1IYT的RMSF为2823而非6687,3LZM为11921而非28192;卡方统计量高达7.98×104 至3.37×105 ;并且存在持续的非零序列相关性(0.051至0.264),证实了MD派生描述符中存在结构化的时间顺序,这是标准特征图无法单独捕捉到的。为了便于复制和更广泛的应用,我们开发了一个专用的结构熵分析(SEA)软件流程。该工具自动化了整个工作流程,并同时导出数据和图表。该软件使SEA能够无缝集成到分子动力学工作流中,提高了分析的可访问性和一致性。通过结合信息论和生物分子建模,这一框架提供了一种轻量级、数据驱动且可泛化的方法,丰富了MD模拟的解释,为生物分子分类、系统比较和熵信息描述符的开发提供了新的机会。
引言 分子动力学(MD)模拟已成为研究原子尺度上分子系统的结构和动态特性的不可或缺的工具。通过数值求解牛顿运动方程,MD使研究人员能够观察原子和分子的时间分辨轨迹,从而洞察蛋白质折叠、材料变形、自组装和化学相互作用等过程。常用的特征参数,如均方根偏差(RMSD)、回转半径(Rg )和均方根波动(RMSF),常用于量化结构稳定性、构象变化和原子灵活性。尽管这些可观测量非常宝贵,但它们的解释能力通常仅限于视觉趋势或比较统计,可能会掩盖数据中嵌入的更深层次的、特定于系统的模式。随着MD规模和复杂性的不断增加,人们越来越需要改进的方法来从传统结构特征中提取更丰富的高层次信息。
熵是热力学和信息论中的一个基本概念,它作为一种定量度量,用于衡量系统内的无序、不确定性或信息内容。在物理科学中,熵传统上用于捕捉构型变异性或热分散,为平衡状态、相变和系统复杂性提供见解。同时,香农在通信理论中对熵的定义量化了随机过程产生的平均信息量,为信号处理、数据压缩和随机性分析奠定了基础。Ali等人[14]将香农熵作为信息论中的基本不确定性度量,应用于通信、数据压缩和机器学习。通过抛硬币实验、编码效率和决策树构建,证明了熵可以量化系统无序。该研究进一步将熵与人工智能联系起来,强调了其在大数据、深度学习和知识管理中的作用。近年来,物理熵和信息熵之间的这种交叉融合激发了使用基于熵的指标来研究生物和材料系统的兴趣。然而,尽管在概念上有协同作用,熵在分子动力学中的应用主要仍局限于热力学估计或粗粒度描述符,而没有明确表征Rg 、RMSD或RMSF等单个结构特征中嵌入的信息丰富性。
尽管MD生成的数据量庞大,结构特征也被广泛用于定性评估,但从信息论的角度定量解释这些特征仍存在明显差距。传统分析将Rg 、RMSD和RMSF视为独立的低维描述符,常常忽略了随时间出现的潜在随机模式。现有的以熵为中心的研究主要针对构型熵,需要复杂的采样技术或降维处理,这可能会掩盖局部波动或非平衡动态。此外,目前还没有成熟的框架来评估作为独立信息流的结构特征时间序列中的熵或随机性。这种遗漏限制了我们使用一致且可复制的指标来评估分子系统中的变异性和复杂性的能力。
这一差距激发了我们开发一种新的分析范式的动力,该范式利用信息论工具从分子动力学特征数据中提取结构化熵。我们的方法不依赖于热力学熵或全局构型评估,而是专注于量化Rg 、RMSD和RMSF等特征轨迹中嵌入的信息内容。通过对这些时间序列数据应用归一化、二进制转换和统计随机性测试,我们构建了反映潜在动力学的熵谱。这种结构化熵框架旨在提供对分子行为的更深入见解,实现跨模拟的比较,识别微妙的转变,并可能为系统分类提供新的描述符。通过将特征派生数据视为物理信息载体,我们提出了一种统一的、可解释的方法来通过熵的视角研究复杂的分子系统。
在这项研究中,我们引入了结构熵分析(SEA),这是一种基于熵的新框架,旨在将传统的分子动力学轨迹转换为可解释的熵描述符。从实验解析的蛋白质结构开始,选择了三种代表性的生物分子作为测试系统:泛素(PDB ID:1UBQ)、β-淀粉样蛋白(Aβ42)肽片段(PDB ID:1IYT)和T4溶菌酶(PDB ID:3LZM)。每种结构都溶解在水中,并进行了能量最小化、平衡和生产模拟。从得到的轨迹中提取了传统的结构特征——回转半径(Rg )、均方根偏差(RMSD)和均方根波动(RMSF),以表示全局和局部结构动态。这些特征随后被归一化并转换为二进制序列,以便通过信息论和统计指标进行评估。具体来说,使用香农熵和最小熵来量化信息内容和不可预测性,而比特平衡、运行测试和序列相关性则用于探测二进制流中的偏差和依赖性。此外,还进行了卡方测试,以评估字节级频率分布与理论均匀期望值的符合程度。这种方法使我们能够揭示潜在的结构动态,并以补充和扩展传统分析的方式量化复杂性。
除了概念上的贡献外,我们还创建了一个软件框架,旨在使基于熵的结构分析对广大研究人员群体可访问。该实现提供了命令行接口和模块化功能,允许用户无缝处理分子动力学输出。通过自动化,该软件不仅减少了手动工作量,还确保了可重复性。此外,每个阶段生成的视觉输出增强了可解释性,弥合了抽象熵指标和直观结构洞察之间的差距。我们的框架轻量级、数据驱动且可泛化,适用于各种分子系统和模拟条件。通过弥合分子结构和信息内容之间的差距,这项工作为数据丰富的分子建模、系统分类和物理系统的特征级熵描述符设计奠定了基础。
模型和模拟设置 选择了三种生物分子来演示结构熵分析(SEA)框架:泛素(PDB ID:1UBQ)、β-淀粉样蛋白(Aβ42)肽片段(PDB ID:1IYT)和T4溶菌酶(PDB ID:3LZM)。晶体结构来自蛋白质数据银行(PDB),并使用CHARMM-GUI解决方案构建器进行模拟准备。这些结构溶解在TIP3水中,溶质与盒子边界的距离为12 ?。
结构熵分析(SEA)的数学框架 该框架的目的是通过将连续的物理描述符转换为适合信息论和统计分析的二进制流,来模拟分子动力学(MD)特征中嵌入的结构熵。本节概述了用于计算熵指标的核心数学公式,以阐明分子系统中的时间结构、变异性和随机性。
分子动力学模拟中的结构熵分析(SEA) 为了展示结构熵分析(SEA)在分子动力学模拟中的实用性,对具有不同结构的溶解生物分子进行了建模。图1展示了本研究中研究的三种生物分子系统:泛素(1ubq)、β-淀粉样蛋白(Aβ42)肽片段(1iyt)和T4溶菌酶(3lzm),以及结构熵分析(SEA)框架的示意图。
选择这些分子是为了代表不同的结构类别、动态范围等。
结论与未来工作 在本文中,我们引入了结构熵分析(SEA)作为一种补充框架,以提高分子动力学模拟的可解释性。通过系统地将传统的MD派生特征转换为二进制流,并对其进行熵和统计评估,SEA量化了超出Rg 、RMSD和RMSF等标准指标所能揭示的潜在结构动态。应用于三种结构不同的生物分子,泛素
软件可用性 本研究中开发的结构熵分析(SEA)软件可在GitHub上公开获取:[
https://github.com/cyril-pierro/sea-cli.git 。该软件包提供了命令行接口和模块化Python函数,用于端到端分析,包括特征归一化、二进制编码、熵计算、统计评估和自动化图表生成。代码在MIT许可下发布,允许重用和扩展。文档和使用说明也一并提供。
CRediT作者贡献声明 Per Badasu: 软件、方法论、研究、正式分析。Stefania Akromah: 撰写 – 审稿与编辑、方法论、研究。Eric Asare: 撰写 – 审稿与编辑、初稿撰写、验证、监督。Martinson Nartey: 撰写 – 审稿与编辑、验证、监督、研究。Ezekiel Edward Nettey-Oppong: 撰写 – 审稿与编辑、初稿撰写、可视化、方法论、研究、正式分析、概念化。Emmanuel Mensah:
利益冲突声明 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
利益冲突声明 ? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。