
-
生物通官微
陪你抓住生命科技
跳动的脉搏
扩展抗体语言模型的规模有助于提升抗体工程中的结构感知表示能力
《Communications Biology》:Scaling antibody language models improves structure aware representation for antibody engineering
【字体: 大 中 小 】 时间:2026年05月26日 来源:Communications Biology 5.1
编辑推荐:
摘要抗体语言模型通过捕捉序列中的模式,在抗体工程中成为强大的工具,从而推动发现和优化的创新。尽管最近机器学习的进步显著增强了这一领域的能力,但目前的方法往往难以完全捕捉抗体序列中固有的结构复杂性。为了解决这个问题,我们提出了AbLingua,这是一系列在抗体序列上预训练的语言模型
抗体语言模型通过捕捉序列中的模式,在抗体工程中成为强大的工具,从而推动发现和优化的创新。尽管最近机器学习的进步显著增强了这一领域的能力,但目前的方法往往难以完全捕捉抗体序列中固有的结构复杂性。为了解决这个问题,我们提出了AbLingua,这是一系列在抗体序列上预训练的语言模型。该系列中最大的模型包含17亿个参数,并基于14亿个序列进行训练,使其成为迄今为止最大的专门针对抗体的基于编码器的语言模型。AbLingua采用了一种先进的分词方法,将词汇量扩展到与人类语言相当的水平,从而使模型能够捕捉影响抗体行为的复杂结构基序。在此基础上,AbLingua引入了一种改进的预训练方法,该方法能够更好地处理氨基酸单元,以表征结构间的相互依赖关系。我们证明了AbLingua在多种应用中表现出卓越的性能,包括表位预测、中和能力评估和治疗性抗体设计。此外,它在B细胞发育阶段的无监督分类以及病毒特异性抗体的识别方面也表现出色。我们的研究结果表明,先进的分词技术、稳健的扩展规律以及精心策划的数据集相结合,为抗体工程提供了坚实的基础,显著提升了开发效率。
生物通微信公众号