《Journal of Molecular Biology》:FDB&FragLinker: A Large Fragment Database for Rapid Ligand Optimization within Protein-Ligand Complex
编辑推荐:
药物发现流程中,FDB整合数据库与FragLinker工具通过片段重组生成高精度蛋白-小分子复合结构,突破传统对接的低效和扩散模型的资源消耗,支持药物优化、PROTAC及多肽融合设计,开源提供。
作者:郑磊、周启生、傅天翔、彭越、戴一哲、陈荣、孙兆曦、张约翰·Z.H.
纽约大学-华东师范大学计算化学中心,中国上海200124
引言
药物发现长期以来被认为是一个耗时、劳动密集且资本密集的过程,失败率很高1, 2。开发一种上市药物通常需要通过多轮迭代优化来合成和评估数万个候选分子3, 4。在早期阶段,对潜在候选分子的修改主要依赖于药物化学家的直觉,有时会结合生物等排替换等理论进行补充5。结构生物学和计算机辅助药物设计(CADD)的出现极大地提高了合理修饰的成功率,因为它们提供了原子级别的结构信息6, 7。
在药物化学中,片段替换是一种常见的做法,通过改变现有候选分子的结构来改善其药理学(例如效力、选择性)、物理化学(例如溶解度)和ADMET(吸收、分布、代谢、排泄、毒性)特性,从而最终使新设计的化合物具有专利性8。随后会设计片段库,为药物化学家提供修改候选分子的模板9。
基于片段的药物设计(FBDD)通过将较小的、多样化的片段组装成较大的分子,已成为发现高质量候选化合物的有效策略10。完成片段筛选并对筛选出的候选分子进行表征后,下一步的挑战是扩展这些片段,生成具有高结合亲和力的较大分子实体并证明其抑制活性10。已经开发了许多用于虚拟药物设计的FBDD工具11, 12, 13, 14,例如FragmentGPT15,它能够实现片段生长、片段连接和片段合并。然而,这些工具仍然只能生成由片段组成的分子的SMILES或图结构,而无法生成完整的复合体结构。
尽管取得了这些进展,但仍存在重大挑战。生成蛋白质-配体复合体的精确3D结构——无论是涉及小分子、肽还是RNA——通常需要繁琐的手动操作或大量的基于对接的采样。然而,传统的对接方法在生成接近天然状态的结合构象时效率较低16。
尽管现有计算方法在片段设计和蛋白质-配体/多肽复合体建模方面取得了一些成功,但仍存在显著的限制:
a) 基于SMILES的分子生成缺乏结构背景信息。
基于SMILES字符串或分子图的生成模型可以设计出化学上有效的分子,但无法直接生成相应的蛋白质-配体复合体结构。结合构象仍需通过对接来推断,这引入了额外的不确定性17, 18, 19。
b) 柔性对接方法产生的构象一致性较差。
当将一系列相关的小分子与同一蛋白质对接时,柔性对接方法常常会产生高度不同的结合构象20。这种变异性使得片段替换的比较评估变得复杂,并影响了优化研究的可靠性16。
c) 基于扩散的3D生成模型资源消耗量大。
最近,扩散模型已被用于直接预测蛋白质-配体复合体的结构,例如AlphaFold321、Protenix22、Boltz-223。虽然这些模型在结构保真度方面具有潜力,但它们通常需要大量的计算资源和较长的推理时间,限制了其在高通量药物发现管道中的应用24, 25。
综上所述,迫切需要既结构可靠又计算效率高的方法。我们提出了Fragment Database(FDB)和FragLinker,这是一个集成的、最大的片段数据库和共价优化工具。FDB使用户能够探索、修改和重组来自DrugBank和ZINC数据库(约8亿个分子)的片段。独特的是,FragLinker提供了首个基于片段级别的3D复合体生成能力,允许将选定的片段通过共价连接方式连接到小分子的指定连接原子上。这种方法生成的配体结构质量高、经过蛋白质优化,结构保真度高于传统对接方法,并且在10核CPU的情况下仅需1秒即可完成。该框架广泛适用于小分子、PROTAC以及小分子/肽杂化体的优化。FDB&FragLinker将作为开源资源在GitHub上免费提供。
片段数据库
FDB的构建是一个全面且层次化的整理工作,旨在建立迄今为止最大、结构最多样化的片段库。整个过程通过多阶段流程实现,包括严格的分子预处理、基于规则的片段生成和系统的冗余减少。整个过程如图1b所示。
在第一阶段,从Drugbank(10,041个)和ZINC(8亿个)中筛选出的所有输入分子都经过了类似药物的筛选
数据库多样性
所有片段集均使用RDKit进行了标准化处理(相同的盐去除和互变异构体处理)。为所有片段生成了循环指纹(ECFP4,2048位)。在282万个ZINC片段样本上训练的TruncatedSVD模型(256维)被用于其他数据库。在ZINC上学习的K-means(k=2000)聚类中心被重新用于通过256维空间中的最近中心映射将DrugBank(约3000个)和Enamine(约30000个)的片段分配到相应的簇中。为了可视化,还训练了一个UMAP模型
结论
集成的片段数据库FDB及其片段构建工具FragLinker是首个百万级别的片段库,也是首个能够高通量生成片段修饰复合体的平台,为从候选化合物到临床前候选化合物的优化提供了高效且准确的结构预测方法。
FDB提供了一个高度整理的、可扩展的、化学上可追溯的片段空间,弥合了数据驱动的分子设计与传统药物化学之间的差距。
作者贡献声明
郑磊:撰写——原始草稿、验证、软件开发、方法论设计、实验研究、数据分析、数据整理。周启生:验证、数据分析、数据整理。傅天翔:数据分析。彭越:。戴一哲:实验研究、数据整理。陈荣:数据分析。孙兆曦:撰写——审稿与编辑、验证、监督、方法论设计、概念化。张约翰·Z.H:。
利益冲突声明
作者声明他们没有已知的可能会影响本文研究结果的财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(编号22333006、92270001)和上海市科学技术委员会(资助编号25DX2800500)的支持。我们衷心感谢纽约大学阿布扎比分校的高性能计算(HPC)资源和纽约大学的Greene的支持。特别是纽约大学阿布扎比分校HPC设施提供的计算资源对这项工作起到了关键作用。