ASD数据库:整合百万级抗体-抗原交互数据,为计算抗体工程铺平道路

《mAbs》:ASD: antigen-specific antibody database

【字体: 时间:2026年02月17日 来源:mAbs 7.3

编辑推荐:

  本文推荐一篇关于抗原特异性抗体数据库(ASD)构建的综述。该研究(1)整合了来自15个数据源的超过109万条抗体-抗原交互记录,创建了一个大规模、标准化的数据资源;(2)详细描述了数据采集、处理和质控的完整流程,确保了数据的高质量与可溯源性;(3)分析了数据库在抗原覆盖度、亲和力类型(如KD、IC50)、抗体类型(如scFv、纳米抗体)及种系基因(如IGHV3-6601)使用偏好等方面的特征;(4)明确指出数据库在抗原分布不均、数据类型混杂(如布尔型、数值型)等方面的局限性;(5)强调了ASD作为基准测试和模型训练资源,对于克服抗体设计领域数据稀缺瓶颈,推动可泛化的机器学习(ML)模型开发具有重要意义。

  
摘要
尽管基于深度学习和高通量筛选的计算模型在加速治疗性抗体开发方面展现出巨大潜力,但其发展面临一个核心瓶颈:高质量、大规模且格式统一的抗体-抗原相互作用数据的缺乏。现有数据散落于不同来源,实验协议和报告格式各异,严重阻碍了大规模分析和可泛化机器学习模型的训练。为解决这一问题,研究者开发了抗原特异性抗体数据库(Antigen-Specific Antibody Database, ASD)。该数据库系统地整合了来自15个不同来源(总计25个子数据集)的公开数据,通过标准化格式和注释,最终汇集了1,097,946条唯一的抗体-抗原相互作用记录,涉及9,575种独特的抗原865,153个独特的抗体。ASD不仅包含多样化的亲和力测量值(如平衡解离常数KD、半数抑制浓度IC50、吉布斯自由能变化delta_g)和定性结合评估,还提供了丰富的元数据,包括UniProt和PDB标识符、靶蛋白名称、置信度等级以及实验条件等。ASD旨在成为一个全面的、高质量的资源库,为计算抗体工程和药物发现提供坚实的数据基础。
材料与方法
数据集汇总
为构建大规模、整合的抗体-抗原相互作用数据集,研究团队采取了多元化的数据收集策略,结合了来自开放数据库、同行评审出版物以及文献中引用的已整理数据集的信息。数据源的选择标准包括亲和力测量方法、数据集多样性以及靶标和抗体的多样性,尤其注重获取抗体重链和轻链的完整氨基酸序列。整个数据采集工作流程始于区分数据源类型,然后根据数据类型选择特定的处理路径。数据收集完成后,进行过滤、验证,并最终通过序列编号进行数据富集。
值得注意的是,ASD与多个已有的抗体-抗原资源库存在部分重叠。例如,与SAbDab数据库共享了2,018个PDB靶点和459个(共10,540个)独特抗体,与PLAbDab数据库共享了2,977个抗体。数据集间的交集是通过直接的序列和结构比较确定的。
最终数据集由25个子数据集组成,这些子数据集源自15个不同的来源,代表了多样化的抗体-抗原相互作用记录。数据整理流程结合了自动提取、标准化和人工验证步骤。主要数据源包括结构数据库(如PDB)、基于序列的存储库(如GenBank),以及使用自然语言处理(NLP)和光学字符识别(OCR)技术处理的文献或专利数据集。
部分数据集并未直接包含抗原或抗体序列。当序列以UniProt/PDB标识符形式存储时,会从相应数据库中检索完整序列;当仅有蛋白质名称时,则通过外部查找和基于名称的搜索来重建完整的配对。在许多情况下,需要通过专用的序列重建过程,将出版物中指定的突变应用到亲本序列上。对于无法重建或结合信息不确定的论文和样本,则从数据集中移除。
数据集整理
每个主要数据源都经过独立处理,以保留输入格式的异质性(如“亲和力类型”或通用靶标元数据),确保每个数据集既可以单独分析,也可以与其他数据集以任意组合方式聚合。
不同数据集的整理方式各异:
  • AAE数据集:从PDF格式的补充表格中解析数据,手动验证后形成核心数据集,亲和力以KD [nM]测量。
  • AATP数据集:采用类似处理,并对论文主图(image)中的靶标和抗体序列进行了OCR识别。
  • Skempiv2、ab-bind、abdesign数据集:源自已处理的AbDesign数据库,预处理需求极少。
  • ABBD数据集:源自一个聚合了多个PDB亲和力数据的资源,需要通过抓取RCSB PDB数据库中的相关FASTA文件来获取靶标序列。
  • Alphaseq数据集:源自Alphabind论文,提供了“alphaseq”亲和力测量方法,通过合并亲和力数据表和相关的靶标序列表来构建。
  • AntiBinder数据集:包含四个预处理数据集(hiv, covid-19, met, biomap),统一了命名约定并链接到特定的亲和力类型。
  • Buzz数据集:通过读取预处理的CSV文件构建,结合置信度表示为“高”、“中”或“低”类别。
  • DLGO数据集:使用Claude Opus模型通过OCR从单个表格中准备数据,测量结合亲和力为IC50[μg/ml]。
  • Flab数据集:包含五个子数据集,这些数据集虽有完整的序列和KD亲和力数据,但缺乏靶标序列,需根据原始论文中出现的名称来分配。
  • OSH数据集:由于包含序列和KD亲和力的整个表格以图像格式出现,需要使用OCR技术。
  • RMNA数据集:仅需轻微的模式调整,仅包含布尔型结合信息。
  • GenBank、Literature、Patents和Structures数据库:均来自内部资源,主要包含布尔型亲和力数据。
在数据集中,最常见的亲和力类型是“模糊”亲和力(源自buzz数据集),占所有条目的48%。该类型将结合强度分为h(高)、m(中)、l(低)三类。
所有抗体序列都要求具有完整的重链和轻链。对于缺少关键标识符的记录,要么被排除,要么被人工解析。通过聚合包含完全相同抗体和抗原的行,并对数值型亲和力测量值取平均值、对分类表达式取众数来进行数据集内去重。
经过人工审查后,每个数据集都被分配了一个置信度标签,代表数据集的质量和对数据来源的信心。“中等置信度”类别包括以自动或半自动方式(包括使用LLM智能体)包含的样本;“高置信度”类别包含结构良好的数据集,需要从外部来源(如PDB或UniProt数据库)获取序列;“极高置信度”类别代表无需任何人工干预即可获得亲和力、亲和力类型以及抗原和抗体序列的数据集。数据还通过RIOT工具的输出进行了富集,该工具通过比对确定种系分配并提供区域边界信息。
整理过程最终为所有研究建立了统一的结构。抗原数据集包含抗体-抗原配对以及亲和力测量值,其结构遵循文中所展示的数据库模式。
可用性
该数据集可通过 https://naturalantibody.com/agab/ 获取,用于非商业应用。商业应用需通过官方渠道(联系我们表格)进行讨论。为增强可用性,研究团队还准备了一个Colab笔记本,展示如何加载和筛选数据库。
结果
整理后的数据集总计包含1,097,946条独特的抗体-抗原相互作用记录,来源于15个不同数据源的25个子数据集。其中包含865,153个独特的抗体和716,650个完整的重轻链对。总共代表了9,575种独特的抗原,这些抗原主要与传染病和癌症相关。数据库中不同抗原所关联的抗体数量差异很大。数据集中最常见的抗原是人类Her2和流感病毒。
序列-亲和力数据在这些子数据集中的分布不均反映了构成数据集的异质性。例如:
  • Buzz 数据集针对单一抗原提供了524,346个条目,适合超深度绘制序列-亲和力关系图。
  • Patents 数据集提供了113,117个条目,涵盖5,291种独特抗原,支持广泛的交叉反应性调查,但由于专利数据的不可靠性,分辨率有限。
  • AbBDAlphaSeq 等其他大型资源则结合了高深度和窄抗原范围的特点。
  • 中等规模的数据集如 covid-19HIV 在广度和深度上提供了不同的平衡。
  • 结构衍生资源如 structures-antibodiesstructures-nanobodies 每个抗原大约有2-3个条目,可用于基准测试和建模。
  • 针对特定靶点的文库如 AbDesign、DLGO、AB-BindAATP 则以一致的深度针对较窄的范围。
数据集概况展示了每个数据集中序列数量和独特抗原的数量。
ASD的一个关键局限在于抗原代表性存在显著不平衡。例如,Buzz数据集针对单一抗原(HER2)贡献了超过50万个条目,而其他抗原可能仅有少数几个相互作用记录。这可能导致下游分析或机器学习模型产生偏差。为缓解此问题,建议采用归一化策略,如对过度代表的抗原进行下采样、根据抗原频率对样本进行逆向加权,或采用分层训练/测试分割以确保平衡评估。
另一个问题是所收集数据集之间存在重叠。为了可靠地反映抗体和抗原的多样性,研究团队测量了现有数据集之间的重叠度,以便用户根据个人需求进一步修剪数据集。
除了抗原多样性,数据集还捕捉了广泛的结合行为测量方式(统称为“亲和力”)。这些包括定量指标(如吉布斯自由能变化、动力学常数和IC50值)以及定性结合评估。由于实验方法和报告标准的差异,不同亲和力类型的频率可能有所不同。数据集中顶级亲和力类别的分布显示,最常见的类别是布尔型,仅告知是否结合,不涉及强度;在布尔型之外,KD是最高质量的小型数据集中最常见的亲和力类型。
抗体序列的链组成结构概括显示,大多数条目同时包含重链和轻链。较小的子集包含单独的重链或轻链、纳米抗体和scFv格式。这种多样性允许比较单域和标准抗体。序列类型的变化反映了不同数据源在实验设计、测序覆盖范围以及是否包含非经典抗体格式方面的差异。
不同格式的抗体进一步关联到不同的序列长度。序列长度是通过汇总每个抗体条目中重链和轻链序列的氨基酸数量来计算的。大多数序列落在124-227的范围内,这与标准抗体构建体中常见的仅可变区或Fab配对链条目一致。一小部分序列被归类为短或中,反映了部分记录或单链格式(如纳米抗体)。数据库的异构特性允许根据未来研究所需特征(如与测试抗体的相似性、可开发性或序列类型)仔细选择数据点。
对种系进行的分析揭示了数据集中生物体分配的偏好。分析是在计算机内使用RIOT算法的功能进行的。每个抗体链都进行了单独分析,以确定最可能的物种分配。在撰写本文时,有三种不同的物种可用于分析:人、小鼠和羊驼。大多数抗体链被分配给了人类种系,其次是小鼠和羊驼的较小贡献。羊驼物种仅归因于重链,因为数据集中存在一部分纳米抗体。
种系基因使用情况分析进一步聚焦于识别重链和轻链中最常使用的V、J和C基因。对于重链,IGHV3-6601 成为最主要的V基因,在数据集中远超所有其他V基因。在J基因分析中,IGHJ402 在所有重链J基因中显示最高频率。恒定区分析表明 IGHE 是重链的主要C基因。轻链分析显示 IGKV1-NL101 是最丰富的V基因。对于J基因,IGKJ101 在轻链J基因中显示出最高的使用模式。恒定区使用则以 IGKC 为最常用的轻链恒定基因。结果清楚地显示了重链和轻链序列中对特定种系基因的偏好,某些基因的使用频率远高于其他基因。这种对特定V、J和C基因的强烈选择表明免疫系统中存在有组织的使用模式,这暗示某些基因家族在抗体生产中效果更好,并反映在抗体疗法基因选择中。
讨论
目前获取抗体-抗原建模数据的标准方法是进行展示或靶向实验,以获得少量特定测量值,旨在创建针对特定靶点的机器学习模型。然而,这种方法除非是在大规模、针对大量抗原的实验中进行,否则无法实现实验间的泛化和知识迁移。
ASD数据库通过元数据和数据源的多样性,同时支持多靶点和单靶点开发。它允许进行靶点特异性优化和可泛化的机器学习。元数据的添加创造了数据集的另一个重要特性——数据溯源。明确的数据谱系允许研究在单个生成的数据集分布内的学习效果及其对其他数据集的泛化能力。
尽管获得的“亲和力”是异构的,但它们反映了真实世界的研究测量结果,倾向于分为两大类——布尔型和KD测量。元数据和亲和力类型允许进一步过滤和选择适当的样本来辅助后续开发。尽管存在限制,ASD为推进数字药物设计提供了一个灵活且多样化的资源。首先,它反映了跨不同实验室产生的数据,表明了任何建模解决方案都必须面对的基准。
由于其异质性,该数据集的关键局限在于不同类型亲和力、抗原和标签之间的分布不均。大多数布尔型亲和力包括成功的结合,这可能会在训练的模型中引起潜在偏差(尽管这些布尔标签在彼此之间不一定标准化)。因此,通过现有手段进行数据集平衡很重要。越干净、越丰富的数据集变得可用,机器学习工具就越能更快地在抗体发现中充分发挥其潜力。
ASD数据库通过整合而非填补数量和质量的空白,解决了阻碍数字辅助抗体工程中机器学习解决方案的数据稀缺问题。因此,建议该数据集主要用作参考和基准测试资源。随着新数据集的可用,数据库的进一步开发将继续进行,为高效、经济且成功的治疗药物开发提供所需资源。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号