综述:用于分子设计的大型语言模型:弥合化学语法与生物学语义之间的差距

《Drug Discovery Today》:Large language models for molecular design: bridging the gap between chemical syntax and biological semantics

【字体: 时间:2026年02月23日 来源:Drug Discovery Today 7.5

编辑推荐:

  LLMs通过结构感知和多模态框架提升药物发现效率,自主代理实现闭环设计流程,但存在生物合理性不足、合成可行性验证等挑战,未来需发展统一基础模型和神经符号架构。

  
陈颖军|郭新恒|薛伟伟
上海工程技术大学计算机与信息工程学院,中国上海201219

摘要

大型语言模型(LLMs)正在早期药物发现中弥合化学语法与生物学语义之间的差距。本文回顾了从基于序列的生成模型到自主发现系统的演变过程。我们分析了多种范式,包括从头命中识别和多目标先导优化。关键的是,我们讨论了结合3D几何约束的结构感知和多模态框架,以克服1D表示的局限性。此外,我们还探讨了能够协调整合设计-制造-测试-分析(DMTA)循环的自主代理。最后,我们批判性地评估了计算基准与实验现实之间的持续差异,并提出了迈向混合神经-符号架构和统一基础模型的路线图,以实现稳健、自主的分子设计。

引言

小分子疗法的发现本质上是一个复杂、昂贵且耗时的过程。尽管计算化学和高通量筛选(HTS)取得了进展,但庞大的类药化学空间仍然效率低下。[1],[2] 传统的化学信息学和QSAR建模方法严重依赖于手工制作的描述符和有限的化学先验。[3] 深度生成模型的最新进展,如变分自编码器(VAEs)、[4] 生成对抗网络(GANs)、[5] 自回归模型、[6] 图神经网络(GNNs)[7] 和扩散模型,[8],[9] 使得有效化学结构的可扩展采样成为可能。[10] 然而,这些模型通常存在显著的限制——它们通常具有狭窄的泛化能力、脆弱的表示学习能力,并且在整合多样化的生物或上下文约束方面面临挑战。[11] 关键的是,它们往往缺乏复杂的指令遵循能力,仅作为独立的生成工具使用,与推理或分析框架分离。
大型语言模型(LLMs)源自强大的变换器架构,[12],[13],[14],[15] 在解决这些具体问题方面具有独特优势。[16],[17] 与传统模型在灵活性方面存在局限不同,LLMs提供了统一的生成-推理能力,允许它们根据自然语言指令同时生成分子结构、评估属性和优化设计。[18],[19] 为了解决狭窄泛化的问题,LLMs利用强大的跨模态泛化能力,通过大规模预训练整合化学、生物和结构信息与科学知识。[20] 此外,它们在条件化方面提供了前所未有的灵活性,可以使用与属性、支架或结合口袋相关的提示来严格控制分子生成。[3],[21] 最后,与孤立的计算工具相比,LLMs天生设计用于与外部工具的无缝集成。这使得“LLM代理”能够利用LLMs进行推理和工具交互,从而协调整合对接、[22] 分子动力学、ADMET预测、逆合成甚至实验室自动化等复杂的工作流程。[23],[24],[25],[26]
这些优势引发了将LLMs作为下一代分子设计模型的极大兴趣。最初的工作集中在分子完成、支架修饰、简化的分子输入线输入系统(SMILES)语法建模和属性引导生成上。[27],[28] 更近期的努力将LLMs扩展到结构条件化设计,结合目标特定的嵌入、[29] 蛋白质-配体共生成[30] 以及与扩散或几何深度学习模型集成的3D感知生成。[31] 同时,联合建模序列、图和结构表示的多模态LLMs变得越来越普遍。[32],[33] 在制药领域,LLMs正在被迅速应用于整个设计-制造-测试-分析(DMTA)循环,涵盖从头命中设计、[34] 多目标先导优化[3] 和自动化合成规划。[35] LLM驱动的代理也被用于自动化分子评估、对接、逆合成和实验规划,朝着闭环、人工智能(AI)驱动的发现工作流程发展。[22],[23],[36] 尽管取得了这些快速进展,但仍存在重大挑战。LLMs可能会生成无效或无法合成的分子,[37] 缺乏生物物理和结构约束的依据,[3] 在验证新化学空间中的分子时面临挑战[34],并且表现出来自不完整或噪声训练数据的偏见。[38] 生物相关性仍然是一个主要障碍,因为LLMs通常缺乏对配体、靶标和细胞环境之间相互作用的机制理解。此外,缺乏标准基准、稳健的评估标准和安全指南阻碍了它们在工业药物发现中的可靠应用。[39],[40],[41]
在这篇综述中,我们全面审视了这些进展。我们讨论了LLMs如何实现药物发现的关键阶段,从基于序列的生成和结构条件化设计到逆合成预测以及自主发现代理的协调。我们分析了当前的局限性,包括幻觉、合成不可行性、生物学无关性和监管问题,并总结了迈向稳健、多模态、基于生物学和自主AI驱动的分子设计的未来方向。图1展示了从传统的孤立深度生成模型到LLMs提供的统一多模态推理框架的根本转变。

部分摘录

化学和生物学建模的基础

LLMs依赖于表示选择和架构设计来弥合化学和生物学之间的语义差距。[20],[42] 为了严格解决这一差距,首先需要在计算框架内区分这两个领域。我们将化学语法定义为支配分子表示的一组语法规则和离散约束(例如,价态、环闭合和SMILES的有效性)。相比之下,语法规定了“如何编写一个有效的”

基于序列和属性驱动的设计范式

LLMs迅速成为分子设计的核心工具,提供了超出传统深度生成模型能力的可控性、泛化和多模态集成。[3],[38] 在药物发现中,它们的价值在于能够生成符合特定药理学、物理化学和结构要求的化合物。[37] 为了促进这些技术的采用,我们总结了本文讨论的关键LLMs和框架

结构感知的多模态框架

结构引导的设计对于精准药物发现至关重要,[34] 然而,对于本质上为线性序列设计的语言模型来说,这带来了根本性的挑战。为了调和化学语法与空间现实之间的紧张关系,我们将当前的方法分为三种不同的架构范式。首先,传统的1D方法主要依赖于像SMILES或蛋白质字符串这样的序列表示,试图通过大规模

通过自主代理的闭环发现

虽然LLMs在分子生成方面表现出强大的能力,但当它们被集成到更广泛的药物发现工作流程中时,其变革性影响才得以显现。[3],[11] 超出静态文本生成,这些系统作为自主代理发挥作用——能够通过与外部环境的交互来进行推理、规划和执行科学任务。本节概述了这些代理从理论逆合成规划到自动化工具协调的进展

生成模型的基准测试

评估LLMs在分子生成方面的性能是一个复杂而多方面的挑战。[39],[40],[41] 与传统的自然语言任务不同,分子设计需要评估化学有效性、新颖性、可合成性、结构相关性、药理学合理性和生物学功能。稳健的基准测试对于衡量进展、确保可重复性、识别模型局限性和评估实际应用性至关重要。[3],[41] 图5总结了

当前的限制

尽管取得了快速进展,但在LLMs能够在实际药物发现中可靠部署之前,仍存在重大挑战。[3],[11],[37],[42] 这些限制源于化学复杂性、生物数据的稀疏性、缺乏3D依据、合成可行性约束、透明度的局限性以及安全或监管问题。本节总结了必须解决的最关键障碍,以确保稳健和具有转化相关性的分子设计。

未来研究方向

为了解决上一节中指出的限制,该领域必须从生成简单的1D序列发展到构建基于生物学、结构准确且实验上可验证的分子。我们概述了五个战略方向,这些方向直接对应于LLM驱动药物发现中的关键挑战。

结论性评论

LLM在药物发现中的应用标志着从静态的、基于规则的化学信息学到动态的、具有语义感知的生成智能的根本性范式转变。正如本文所详细描述的,LLMs已经远远超出了简单的序列生成器,成为能够弥合化学语言语法与生物功能复杂语义之间差距的多功能引擎。

数据可用性。

本文描述的研究没有使用任何数据。

CRediT作者贡献声明

陈颖军:撰写——审阅与编辑、撰写——初稿、监督、方法论、资金获取、数据管理、概念化。郭新恒:撰写——审阅与编辑、数据管理。薛伟伟:撰写——审阅与编辑、撰写——初稿、监督、资金获取、数据管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(22573012)和上海工程技术大学2025年校级研究计划(EGD25QD14)的支持。
薛伟伟是重庆大学药学科学副教授。他获得了兰州大学的化学学士学位和化学信息学博士学位。他曾作为访问学者在华盛顿大学蛋白质设计研究所工作。薛伟伟实验室的研究专注于构建与治疗相关的数据库和工具,并开发结合人工智能和分子建模方法来设计创新
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号