
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ANARCII通过使用一种通用的语言模型,实现了无需对齐的抗原受体编号功能
《Communications Biology》:ANARCII enables alignment-free antigen receptor numbering using a generalised language model
【字体: 大 中 小 】 时间:2026年05月22日 来源:Communications Biology 5.1
编辑推荐:
摘要抗原受体编号技术能够仅通过序列信息来确定抗体和T细胞受体的抗原结合区域。目前的编号方法是通过与参考序列集进行比对来实现的。但这种方法可能会因所使用的参考序列集不同而产生不同的编号结果,对于来自稀有物种的序列或某些特殊格式的序列可能无法正常应用。我们提出了一种名为ANARCII
抗原受体编号技术能够仅通过序列信息来确定抗体和T细胞受体的抗原结合区域。目前的编号方法是通过与参考序列集进行比对来实现的。但这种方法可能会因所使用的参考序列集不同而产生不同的编号结果,对于来自稀有物种的序列或某些特殊格式的序列可能无法正常应用。我们提出了一种名为ANARCII的新方法,该方法无需进行比对操作,而是基于Seq2Seq语言模型。与现有方法相比,ANARCII在关键区域的编号一致性、对序列截断的鲁棒性、对未知物种的泛化能力以及用户使用便捷性方面都有显著提升。其轻量级的架构使得在高性能GPU上每分钟可以处理90,000条序列的编号任务。该软件可通过网页应用程序(https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabpred/anarcii/)或软件包(https://github.com/oxpig/ANARCII)进行获取。最终,ANARCII能够对更多类似抗体的序列进行编号,更准确地恢复现有数据库中的全长抗原结合区域,并支持对现有工具无法编号的新受体进行比较分析。