综述:超越文本生成:大型语言模型作为自主代理,用于协调合成生物学循环
《Bioresource Technology》:Beyond text generation: large language models as autonomous agents for orchestrating synthetic biology cycles
【字体:
大
中
小
】
时间:2026年02月28日
来源:Bioresource Technology 9
编辑推荐:
LLMs在合成生物学中的应用突破传统ML局限,通过语义理解整合多维度生物数据,实现从序列设计到代谢工程的全流程自动化,案例包括ProGen、UniKP和SAMPLE系统,但面临计算成本与可解释性挑战。
叶安强|王炳英|程振顺|董长江|郭凤彪
武汉大学药学院中南医院呼吸与重症医学系,中国武汉430071
摘要
合成生物学旨在设计和构建新的生物系统,在处理高维设计空间和优化复杂实验周期方面面临着固有的挑战。大型语言模型(LLMs)作为能够解析生物系统深层逻辑的语义引擎正在兴起,这使它们特别适合处理复杂的生物序列数据。在这篇综述中,我们首先系统地展示了不同LLM架构如何针对特定的生物任务进行优化。我们还强调,与传统机器学习相比,LLMs将范式从手动特征创建转变为语义驱动的方法。通过对新型生物序列设计、基于上下文的代谢工程和智能自动化实验室中的变革性应用的批判性研究,我们指出了这一范式带来的前所未有的加速以及深刻的新挑战,包括计算成本、可解释性和伦理治理问题。我们不仅将LLMs视为预测工具,还将其视为能够协调合成生物学设计-构建-测试-学习周期的自主代理。一种协作智能的出现,其中人类专业知识与多个代理动态结合,以导航生物学的广阔设计空间,正引领该领域朝着可持续制造、医学等领域的突破迈进。
引言
合成生物学致力于将生物系统设计成可编程平台。其应用范围涵盖关键领域,包括生物治疗(Munirah等人,2025年;Omidi等人,2024年)、可持续生物燃料生产(Meijnikman等人,2022年)和环境修复(Gao等人,2024年)。推动这一领域的基础框架是设计-构建-测试-学习(DBTL)循环,该循环将工程原理应用于生物设计(Foldi等人,2024年;Lu等人,2024年)。然而,将实验室演示扩展到工业应用时,会遇到生物系统固有的复杂性(Qiao等人,2025年)。这种复杂性带来了三个普遍的瓶颈:首先,知识碎片化使得关键的设计规则分散在非结构化的文献和不同的数据库中,阻碍了系统层面的洞察;其次,实验效率低下,面对可能的生物变体的组合爆炸,使得穷举搜索不切实际(Boro等人,2025年);最后,自动化方面存在认知差距。尽管能够执行预定义的协议,但它们无法解释实验背景或动态响应不可预见的生物结果,限制了它们在迭代设计工作流程中的实用性(Barreiro等人,2024年)。因此,即使是像通量平衡分析(FBA)这样的成熟建模工具,其预测结果也常常与实验结果不符,这主要是由于未考虑到的动态变量和活细胞内的环境扰动(Li等人,2022年;Sen,2024年)。
大型语言模型(LLMs)是基于Transformer架构构建的通用人工智能(AI)系统,通过大量文本数据进行预训练。它们的核心机制涉及通过自注意力机制建模语言符号之间的深层关联,从而实现从文本理解到生成的跨任务泛化。利用自注意力机制,LLMs能够模拟生物知识中的深层语义关系,超越模式识别,实现不同概念之间的推理,合成碎片化信息,并将高级指令转化为可执行的实验计划(Zhang等人,2025d;Zhou等人,2025b)。此外,代理系统利用LLMs作为其认知核心,能够感知环境、进行逻辑推理,并自主操作工具以实现特定的科学目标(Ramos等人,2024年)。在这篇综述中,我们将应用于合成生物学各个组成部分的LLMs视为专门的专家代理(例如,生物序列设计代理、代谢通量代理等),并由一个主协调代理来协调所有专家代理以实现全局优化。
作为一项尖端AI技术,近年来LLMs在合成生物学的各个研究领域展示了显著的应用潜力,为解决该领域的基本科学挑战提供了新的途径。在生物序列设计中,LLMs利用其从大量数据库中学习生命深层语法的能力,实现了功能性、多样化蛋白质和核酸的从头生成,超越了自然进化模板的限制。例如,ProGen是一个基于LLM的蛋白质设计模型,可以根据特定的功能或结构要求生成新的蛋白质序列(Madani等人,2023年)。在代谢工程中,LLMs擅长整合异构的多组学数据,提供对酶动力学和复杂途径动态的基于上下文的预测,克服了传统机制建模的准确性限制。一个典型的例子是UniKP,它可以根据LLMs准确预测酶动力学参数(Yu等人,2023年)。在智能自动化实验室中,LLMs作为自主代理,能够将高级科学指令转化为可执行的机器人协议,并解释实验反馈,从而完成DBTL循环,降低实验的高劳动力成本。以SAMPLE为例,它可以设计新的蛋白质,并将设计发送到一个完全自动化的机器人系统进行实验测试(Rapp等人,2024年)。
先前的综述已经列举了机器学习(ML)在DBTL循环中的应用,或详细介绍了用于生物任务的特定深度学习(DL)架构。例如,Faulon等人回顾了监督学习和半监督学习在预测酶活性和优化代谢途径中的应用(Faulon和Faure,2021年)。Rai等人认为,采用将现代ML工具和高通量实验方法整合到合成生物学DBTL过程中的数据驱动方法可以显著加快细菌设计的速度和范围(Rai等人,2024年)。Goshisht描述了DL的预测潜力和基础,以及其在合成生物学中的众多应用,特别是在细胞工程、蛋白质活性和代谢途径方面(Goshisht,2024年)。然而,他们提到的技术依赖于手动策划和现有的领域知识,而不是自主发现和编码潜在的生物物理和进化特征。
这篇综述提供了关于LLMs在合成生物学中作用的新鲜视角。首先,我们介绍了LLMs的主要架构,并阐明了它们在生物领域中的适当角色,讨论了它们与传统ML相比所代表的范式转变。其次,我们详细介绍了不同LLMs在关键领域的具体应用:生物序列设计、代谢工程和智能自动化实验室。我们还提供了相关实际案例。此外,我们探讨了当前面临的挑战,如高计算成本、可解释性、幻觉问题以及LLMs在某些方面仍不如传统ML的情况。最后,我们得出结论,未来在于专门的多代理系统,其中自主的领域特定代理通过优化的协作来实现更优的全局目标。
LLMs的主要架构
LLMs在合成生物学中的变革潜力不仅仅取决于它们的规模,还直接源于其底层的计算架构。这些架构对信息处理方式施加了特定的先验或偏见,从根本上重塑了我们表示、查询和生成生物数据的方式。在本节中,我们研究了不同的LLM范式如何使研究人员能够应对生物学的独特表示挑战。
利用LLMs进行生物序列设计
生物序列的设计正在经历一个决定性的转变。我们正从基于经验的局部突变转向在高维适应度景观中进行系统导航的范式,这种范式由将生物大分子视为具有可学习语法和语义的形式化语言的模型所驱动。我们收集了应用于合成生物学的LLMs,并分析了它们之间的差异(表2)。
利用LLMs进行代谢工程
细胞代谢的工程是合成生物学中最具挑战性的领域之一,本质上是一个多维优化难题,其中遗传扰动、酶动力学和环境波动以非线性方式相互作用。传统工具通常局限于稳态抽象或手动文献策划,难以应对这种复杂性。LLMs正成为关键的整合推理工具,在生物知识之间进行转换
利用LLMs的智能自动化实验室
实验室工作台正在经历一场无声的革命。几十年来,自动化意味着将人类意图仔细转化为脆弱的线性代码,即能够移动液体但不能理解实验的脚本。这种范式正在被打破。LLMs正在将语义理解注入科学机械中,将工具从执行者转变为合作者。这种转变不仅仅是技术上的;它是认识论上的,改变了我们对...的理解
实际案例研究
LLMs从理论模型转变为发现伙伴的过程,最好通过它们在DBTL循环中协调多代理架构的特定组件的部署来说明。在以下案例中,我们明确展示了特定平台在我们的提出的框架内的功能。EVOLVEpro代表序列设计代理,通过主动学习在“学习”和“设计”阶段之间建立循环。UniKP在COBRA-k框架中的集成
当前挑战和未来方向
LLMs从文本助手发展为潜在的生物系统架构师并非定局。这取决于解决一系列深刻的、相互关联的挑战,这些挑战目前是演示和部署之间的障碍。这些问题不仅仅是技术上的缺陷,而是关于在生物工程核心部署概率性、数据驱动智能的可靠性、效率和安全性的基本问题(图3)。
结论
LLMs正从工具转变为合成生物学中的发现伙伴。这标志着一个本体论上的转变:我们正在超越将计算应用于生物学,朝着将生物理解内置于架构本身的方向发展。通过将序列视为语法、途径视为逻辑、协议视为可执行的叙述,LLMs建立了一个统一的语义框架,用于翻译和组合生物语言。这种统一正在消除关键障碍。
CRediT作者贡献声明
叶安强:撰写——审稿与编辑、撰写——初稿、方法论、形式分析、数据策划、概念化。王炳英:形式分析、数据策划。程振顺:方法论、调查。董长江:监督、资金获取。郭凤彪:撰写——审稿与编辑、监督、项目管理、调查、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(2022YFA0912100)、国家自然科学基金(项目编号32370696)以及武汉大学中南医院的医学人才培养项目(项目编号PDJH202406)的资助。作者感谢Si Tang在修订手稿方面提供的宝贵帮助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号