启用具有原子级细节的蛋白质-配体复合物数据集的自动生成

《Journal of Chemical Information and Modeling》：Enabling Automatic Generation of Protein–Ligand Complex Data Sets with Atomistic Detail

【字体：大中小】 时间：2026年05月11日 来源：Journal of Chemical Information and Modeling 5.3

编辑推荐：

　　高分辨率图像下载MS PowerPoint幻灯片预测蛋白质-配体生物活性在药物发现项目中具有挑战性，但同时又至关重要。在基于蛋白质结构的场景中，监督式机器学习模型至少在过去30年里一直非常具有竞争力。无论使用何种机器学习方法，数据集的大小和质量都是模型训练和验证的关

　　高分辨率图像
下载MS PowerPoint幻灯片

预测蛋白质-配体生物活性在药物发现项目中具有挑战性，但同时又至关重要。在基于蛋白质结构的场景中，监督式机器学习模型至少在过去30年里一直非常具有竞争力。无论使用何种机器学习方法，数据集的大小和质量都是模型训练和验证的关键方面。一般来说，数据集是获得准确性能估计的基础。虽然存在针对生物活性和蛋白质结构数据的精心策划的存储库，但将这两种类型的数据结合起来尤其具有挑战性。通过ActivityFinder，我们最近引入了一种完全自动化的数据来源链接过程，该过程仅依赖于蛋白质序列和分子结构。通过将ActivityFinder与之前开发的用于结构质量评估和性质计算的工具相结合，我们创建了StrAcTable，这是一个自动构建的、带有注释的蛋白质-配体复合物数据集。这种自动化程序允许持续和可持续的发展。StrAcTable包含了ChEMBL和PDB之间匹配质量的详细描述、结合的小分子配体以及来自ChEMBL的生物活性数据。基于ChEMBL版本35，StrAcTable包含了20,063个带有生物活性值的蛋白质-配体复合物，从而为基于结构的分子设计方法开发提供了高效的训练和验证数据集。因此，StrAcTable旨在成为可用于训练和测试机器学习方法和传统方法的新数据集的基础。

1. 引言
预测蛋白质-配体复合物的生物活性是早期药物发现阶段的关键挑战。计算方法、基于结构的方法（如命中识别（虚拟筛选）、目标识别（逆向筛选）或化合物优化）都依赖于结合亲和力的估计。这包括评估候选药物对主要目标的结合亲和力，还包括其选择性和潜在的脱靶副作用。尽管经过数十年的研究，仍缺乏可靠且广泛适用的评分函数。(7,8)
多个问题阻碍了更可靠预测的进展，但数据集的大小和质量往往是问题的一部分。(7,8) 新方法经常伴随着新的数据集的出现，这表明目前还没有关于方法开发或验证的金标准数据集的共识。(9-18) 对于新开发的数据集，所使用的数据以及从多个存储库收集和组合数据的方法因方法而异。(12,14,17-19) 常见的是，针对特定数据集(9,20-23)或数据策划和测试的一般方法论(23-27)会提出批评和改进建议。与此一致的是，两项独立的最新综述指出，数据集的大小和质量是限制机器学习方法性能和泛化能力的显著因素。(28,29) 在基于结构的药物发现中，数据集的作用是双重的：它们既用于训练或开发新方法(12,13,18)，也用于测试它们的性能(14,15,30)，无论是对于机器学习方法还是传统的评分函数。因此，用于构建这些数据集的基础数据尤为重要。
尽管与药物发现相关的所有类型的数据集的数据量和质量都可以得到改善，但那些包含实验确定的蛋白质-配体结构和测量的生物活性数据的数据集尤其难以构建和维护。虽然存在精心策划并不断更新的纯结构数据源（PDB(31)）和生物活性数据源（ChEMBL, (32) PubChem(33)），但将两者结合起来并不是一件简单的任务。三个长期存在的数据源用于结合结构数据和生物活性数据分别是PDBbind(34-37)、BindingMOAD(38-41)和BindingDB(42-45)。PDBbind和BindingMOAD通过搜索PDB条目的原始出版物（PDBbind）来提供所有合适条目的亲和力数据，而BindingMOAD则主要通过搜索文献（尤其是美国专利）来收集亲和力数据，并在可能的情况下将其自动链接到PDB条目。BindingDB表示，链接是通过85%或100%序列同一性的精确配体匹配来进行的，但没有提供进一步的细节。(46)
这三种方法的共同点是它们都需要大量的手动工作（PDBbind甚至由两名独立的研究人员对所有条目进行双重检查），这大大增加了维护的成本，并可能导致人为错误。(47) 在PDBbind的情况下，还进行了进一步的手动检查，例如通过检查配体的电子密度是否足够来筛选出更高质量的数据。(36) 使用手动步骤来策划包含不断增长的实验数据的数据集使其持续更新变得更加复杂。BindingMOAD宣布将停止维护其数据库的工作(47)，而PDBbind则转向了付费模式，以跟上日益增长的文献数据量。随着这两个提供免费数据的重要且值得称赞的努力停止，对于带有注释生物活性的蛋白质-配体复合物结构的持续更新数据的需求日益增加。

两项最近的发展是Papyrus数据集(17)和BioChemGraph(48)，它们都使用UniProt ID和InChIKey来链接PDB和ChEMBL。尽管这些方法是自动的，但它们低估了可以在存储库之间链接的数据量（例如，未链接外消旋混合物的数据），并且在使用UniProt ID进行序列匹配时存在质量问题(49)，并且没有提供排除低质量结构的选项。
本文介绍了一个新的数据集——结构活性表（StrAcTable）。最近发布的ActivityFinder(49)可以实现结构和生物活性数据的自动交叉链接，并已应用于PDB和ChEMBL。ActivityFinder分别读取PDB结构中的序列信息和生物活性测定信息，以及两种资源中找到的化学结构信息。PDB结构中感兴趣分子附近的序列部分被特别处理，记录了精确的差异。ActivityFinder根据PDB文件中的3D坐标构建最接近模型数据的分子。然而，使用这种方法可能会因模型结构中的常见错误而降低结果数据集的质量。LigandExtractor用于找出结构中存在的任何潜在配体，以帮助解决这一问题。LigandExtractor背后的方法论首次在Flachsenberg等人(50)的工作中描述。所有潜在配体都会被检查是否与NAOMI化学信息学库的化学模型兼容。(51) 此外，PDB文件元数据中注释的任何潜在问题以及解释的配体结构与元数据之间的不一致也会被报告。StructureProfiler(52)评估整个PDB结构的质量。它自动化了许多结构质量测试，输出结构的多个质量标准、一些配体描述符，并计算整个结构、结合位点以及电子密度内任何配体的支持度。利用StructureProfiler和LigandExtractor，我们可以自动评估PDB结构和模型配体的质量。通过这三个软件工具，我们开发了StrAcTable，它结合了来自ChEMBL的生物活性数据和来自PDB的结构数据，包括关于配体完整性、类型（例如有机、共价）以及结构和生物活性的各种质量标准的信息。StrAcTable为科学界提供了一个新的、高度灵活的资源，支持机器学习和传统的对接-评分开发。由于其自动化特性，更新可以大幅减少手动工作量。此外，还可以使用专有的内部数据来丰富和定制StrAcTable。

2. 方法
StrAcTable被设计为下一代基于结构的生物活性预测数据集。该数据集完全自动化地从ChEMBL和PDB中提取，使用了NAOMI ChemBio Suite中的一系列工具。虽然StrAcTable的主要用途是为基于结构的设计方法创建训练和验证数据，但某些应用场景有特定的需求，我们通过三个额外的StrAcTable变体来解决这些问题（见表1）。

表1. 所有四个版本StrAcTable的描述
| 缩写 | 名称 | 特征 |
|-----------|-------|--------|此模式的数据贡献给了StrAcTable和StrAcTableF。目标模式仅考虑蛋白质-配体复合物的蛋白质部分。所有匹配的ChEMBL目标都会被记录下来，无论其结合活性数据的可用性或匹配蛋白质序列在复合物中的位置如何，这允许用户找到给定蛋白质结构在PDB中最佳匹配的目标，而不论配体和生物活性信息如何。此模式的数据也贡献给了StrAcTableT和StrAcTableTF。需要注意的是，在当前ActivityFinder的实现中，只有与包含现有配体的任何PDB结构有足够匹配的ChEMBL目标才会被记录。ActivityFinder只考虑至少有一个有效配体的蛋白质-配体复合物。这意味着，即使PDB中的apo结构在ChEMBL中有匹配条目，该ChEMBL目标也不会成为ActivityDB实例的一部分。

2.4. 生物活性数据过滤
使用BLAST（55）将PDB序列映射到ChEMBL目标序列会得到几种可能的匹配结果。虽然这对想要调查所有可能数据点的用户来说是有益的，但它复杂化了为任何给定的PL-Pair（StrAcTable）或PDB结构（StrAcTableT）自动选择最佳生物活性数据的进程。为了确定最佳匹配的目标，开发并验证了一种基于链接质量的制药相关目标集的过滤程序（见支持信息第6.1节）。使用该程序，我们创建了上述数据集的过滤版本，称为StrAcTableF和StrAcTableTF，使用户能够更轻松地处理最准确的数据。仅依赖于匹配的百分比身份可能会导致只覆盖查询或目标小部分的比对结果，而不是更理想的结果。为了区分多个序列匹配，如公式1所示，计算了一个蛋白质匹配分数，该分数使用了匹配的百分比身份和查询覆盖度（Covmatch+query），描述了匹配中查询PDB序列被覆盖的程度。所有使用指标的直方图可以在图S3中看到。

2.5. 序列匹配质量等级
然而，仅使用最佳匹配并不能完全描述其质量，因为所有序列身份至少为80%的合适ChEMBL目标都会被报告。为了快速过滤超出序列身份的绝对序列匹配质量，我们根据用例开发了三个类别来进行质量评估（见表2）。我们使用比对的长度、PDB结构使用的序列（query）、ChEMBL目标使用的组分序列或ChEMBL测定变体序列（hit），以及匹配的百分比身份来计算额外的指标Dmatch+query（见公式2）和Dmatch+hit（见公式3）。所有使用指标的直方图显示在图S3中。

3. 数据生成的工作流程
生成StrAcTable的工作流程包括五个主要步骤。首先，对所有要研究的PDB条目并行执行ActivityFinder、StructureProfiler和LigandExtractor。第二步将每个工具和输出类型的相应输出文件合并为一个文件，其中包括工具的主要输出和ActivityFinder的次要输出以及记录的结合位点突变数据。第三步，丰富和过滤生物活性数据。查询ChEMBL数据库以获取额外的数据（例如，变体序列测定或目标分类数据）或直接添加（例如，目标层次结构或ChEMBL发布信息）到解析后的活性数据中，以供将来分析。然后，计算质量等级和分数，并添加到每个活性数据条目中。生成一个经过过滤的活性数据版本，其中每个PDB结构仅使用最佳匹配的ChEMBL目标。第四步，结合结构数据、配体数据和两种版本的活性数据来创建最终的StrAcTable和StrAcTableF数据集。一个数据集包含每个PDB的所有可能的ChEMBL目标（StrAcTable），另一个数据集仅包含根据我们开发的指标选出的最佳匹配目标（StrAcTableF）。同样，目标模式的活性数据用于创建StrAcTableT和StrAcTableTF。最后一步，无论突变类型如何，都将ActivityFinder注释的结合位点中的突变数量添加到StrAcTable和StrAcTableF中。如果一个测定存在变体序列，则在后续分析中忽略与组分序列的匹配。因此，如果变体序列包含与PDB结构序列中的突变一致的突变，则不记录该突变。在ChEMBL版本35中，有17,070个具有变体序列的测定，其中1861个（10.90%）的变体序列标记为UNDEFINED MUTATION。由于没有可用序列被注释为UNDEFINED MUTATION，所有标记为此突变的测定都被视为没有变体序列注解的测定。生成了一个经过过滤的生物活性数据版本，其中每个PDB结构（StrAcTableT）或PL-Pair（StrAcTable）仅使用最佳匹配的ChEMBL目标。只要ChEMBL的模式或PDB格式没有变化，阻止NAOMI（51,56）工具读取它们，这个过程就可以用于自动定期更新。

3. 结果
在这篇发表物中开发了四个不同版本的StrAcTable（见表1）。以下部分检查了所有版本中的数据、开发的目标过滤指标，并展示了如何使用StrAcTable。

3.1. 关于StrAcTable的一般信息
我们有20,063个蛋白质-配体复合物可以为它们注释活性值。在51,678个独特分子中，有13,042个在StrAcTable中至少有一个活性值。在任何过滤之前，StrAcTable包含3,619,313行和134列，它是LigandExtractor（12列）、ActivityFinder（85列）和StructureProfiler（36列）的数据的全外连接，加上两个合并指示器和额外的质量列。StrAcTable中所有列的详细列表，包括描述，见支持信息。以目标为中心的版本StrAcTableT和StrAcTableTF的ActivityFinder列数减少（37列），因此总共有85列。为了创建StrAcTable，使用了ChEMBL版本35和2025年4月25日的PDB镜像，其中包含226,339个PDB条目。表3显示了所有StrAcTable版本的统计信息。这包括具有匹配ChEMBL数据的PDB条目数量、独特分子数量以及具有和没有活性数据的复合体数量。

3.2. 完整的StrAcTable过滤统计
对于许多PDB结构，会发现多个可能匹配的ChEMBL目标，有时每个可能的ChEMBL目标会有多个不同的BLAST匹配结果。对于那些只对最佳匹配数据和相应ChEMBL目标感兴趣的用户，提供了StrAcTableF和StrAcTableTF。过滤流程的详细描述见第2.4节，关于一组制药相关目标的详细结果见SI第6.1节。过滤流程的统计数据显示在图3中。之后，每个复合体只允许最佳可能的BLAST匹配结果。具体数字见支持信息。对于StrAcTable，有20,033个PL-Pair组合可以与合适的活性匹配，在其中14,647个情况下只找到一个目标。与表3相比PL-Pair数量的轻微差异是由于某些PL-Pair仅使用SEQADV序列进行匹配，这些序列在过滤过程中被丢弃。对于剩余的5,386个组合，应用了过滤流程。组合主要根据蛋白质匹配质量来决定，其次是根据蛋白质目标层次结构。在整个PDB中，目标匹配的平局仅在36个组合中使用。

3.3. StrAcTable的组成
所有版本的StrAcTable都是LigandExtractor、StructureProfiler和ActivityFinder数据的全外连接。因此，许多条目缺少来自某些工具的数据，例如在ChEMBL中未找到匹配的生物活性数据。图4显示了每个工具对StrAcTable和StrAcTableF的贡献的维恩图。在StrAcTableF中，只有12.44%的条目包含了来自所有三个工具的数据。相比之下，未经过滤的StrAcTable包含38.32%的条目，这些条目包含了来自所有三个工具的数据。这意味着我们的过滤过程在将数据筛选为单一目标时去掉了大量的生物活性数据点。图4展示了StrAcTable的统计信息，以及哪些工具贡献了相应百分比的条目（a为StrAcTable，b为StrAcTableF，c为StrAcTableT，d为StrAcTableTF）。高分辨率图片 Download MS PowerPoint Slide。

以下分析仅针对StrAcTableF进行。对于大多数应用场景来说，StrAcTableF是最合理的数据集，因为它不会因为同一分子在不同ChEMBL目标中的活性而膨胀。在StrAcTableF中，大多数条目要么包含来自LigandExtractor和StructureProfiler的数据，要么仅包含来自LigandExtractor的数据。这是合乎逻辑的，因为在PDB中发现的大多数配体（例如晶体添加剂）在ChEMBL中没有记录任何活性，但仍然有关于结构质量和存在的配体的信息。来自LigandExtractor的大量条目是由于LigandExtractor被设计为记录结构中存在的任何配体，即使StructureProfiler或ActivityFinder由于NAOMI化学模型不支持某些价态而无法处理这些配体。剩余的3.44%的条目仅包含来自StructureProfiler的数据，这些条目的结构中没有结合的配体，且配体名称之间的差异非常小。请注意，只有对于具有可用电子密度的结构，才提供EDIAm值及相关测试结果，即使StructureProfiler还有其他数据。对于0.94%的条目，只包含活性数据。这是由于ActivityFinder发现了其他工具未发现的替代结合链。

3.4. 探索StrAcTable中的共同属性
为了实现活性、结构和配体的自动化质量评估，基于PDB和ChEMBL的数据计算或提取了许多相关描述符。图5展示了常见属性的分布可视化，例如所有独特PL-Pair条目的可旋转键数量（59）和分子量，还包括生物体频率的饼图。图6进一步分析了所有PDB-HET条目的情况。

如图5所示，覆盖13,037个独特HETcode和20,033个PDB-HET代码复合物的化合物在重原子数量、Wildman和Crippen计算的对数pKa值（60）、可旋转键数量、结构分辨率、立体中心数量以及生物体类型等方面表现出广泛的分布，表明数据集具有很高的化学多样性。在StrAcTableF中最常见的生物体是人类（Homo sapiens），其次是挪威鼠（Rattus norvegicus）、HIV-1和牛（Bos taurus）。如果不校正独特的PDB-HET代码复合物，像HIV-1这样在ChEMBL中有很多活性的目标会出现更高的频率（见图S1e）。

如图6b所示，活动类型主要由IC50和Ki值主导，但StrAcTableF中存在非常多样化的活动类型。如图6a所示，有118,004个复合物的EDIAm质量值在0.8到1.2之间，随着EDIAm值降低的复合物数量减少，而EDIAm值较高的复合物数量很少。有3,377个复合物无法由StructureProfiler正确计算EDIAm值，因此返回-1，在可视化中为了清晰起见被省略了。StrAcTableF中有58.54%的条目是在单一蛋白质测定格式下测量的（见图6d），其余的要么是在非特异性测定格式下测量的，要么是基于细胞的测定格式测量的，97.95%的条目是针对单一蛋白质类型的靶标测量的（见图S1d）。77.23%的条目是通过自动校验整理的（见图S1a），95.08%的条目是从出版物中提取的（见图S1b）。测定类型主要以结合测定为主，功能性测定和ADME测定较少，其他类型的测定也非常少（见图6e）。如图6f所示，StrAcTable中可以找到各种各样的活性值（平均值7.19，中位数7.28，标准差1.45），包括高亲和力和低亲和力的测量结果。使用ActivityFinder可以提供端到端的突变追踪，如方法部分所述。配体结合位点的突变会被记录下来，并在StrAcTable和StrAcTableF的每个条目中注释。值得注意的是，大多数条目（80.64%）在结合位点没有突变（见图6c），96.67%的条目有三种或更少的突变。

3.5. ChEMBL目标分布
图7展示了StrAcTableF中ChEMBL目标的第一个和第二个层次结构。在支持信息中可以找到一个交互式版本，用于可视化用户过滤后的数据以及类似的图表。此外，表4给出了第一层次结构的准确数量。

表4显示了StrAcTableF中每个第一层次ChEMBL分类的PDB结构数量：
- 酶：14,570
- 表观遗传调节因子：1,941
- 转录因子：1,347
- 未分类的蛋白质：755
- 其他细胞质蛋白：696
- 离子通道：492
- 膜受体：414
- 分泌蛋白：250
- 其他核蛋白：138
- 结构蛋白：113
- 运输蛋白：102
- 辅助运输蛋白：92
- 表面抗原：63
- 其他膜蛋白：25
- 黏附蛋白：15

分析图7和表4可以发现，数据集具有高度多样性；它包括离子通道、表观遗传调节因子、转录因子、膜蛋白等多种目标类别的数据。然而，同样明显的是，PDB和ChEMBL中常见的偏见在这里也得到了重复，其中19%的结构被归类为激酶。其他常见的目标，如凝血酶（Thrombin）和碳酸酐酶2（Carbonic anhydrase 2）也经常出现。

3.6. 分子和蛋白质匹配质量分析
我们为PDB到ChEMBL目标匹配开发了序列匹配质量等级，以便直观地进行基于质量的数据子选择。蛋白质匹配等级分为金（Gold）、银（Silver）和铜（Bronze），具体定义见第2节。Ehmki等人（49）提出了五个分子匹配等级来分类PDB和ChEMBL之间的匹配。它们通常可以分为三类：完全相同的分子（inChI key完全相同/5和USMILES具有手性/4）、立体化学上不同的分子（标准的USMILES没有手性/3）以及可能完全相同的分子（截断的inChI原子层/2或截断的inChI原子层/1）。

如图8d所示，StrAcTableF中86.98%的序列质量属于金等级（33.09%）或银等级（53.88%），而只有58.13%的条目属于相同的等级。尽管没有直接使用这些质量等级，过滤过程仍然丰富了高质量的链接。在22.15%的情况下，可以在StrAcTableF中找到具有最高序列质量的ChEMBL目标和完美匹配的配体。由于在许多情况下，只有ChEMBL目标的序列比PDB结构中的序列更长，因此银等级的匹配频率很高。对于配体匹配，StrAcTableF和StrAcTable中绝大多数条目的匹配都是完美或几乎完美的（等级4和5），而在忽略手性信息的情况下，另有16.90%/15.66%的匹配，以及17.33%/16.27%的匹配存在更严重的差异。

3.7. StrAcTable的增长
StrAcTable的构建过程被设计为尽可能容易地扩展到新的数据点。为了展示过去StrAcTable的增长情况，我们可以模拟不同的ChEMBL和PDB版本。使用PDB结构提交的日期和记录到ChEMBL的文件的提交日期，我们可以估计在所有ChEMBL数据立即发布的假设情景下，具有记录数据的独特PDB-配体复合物的数量随时间的变化情况。如图9所示，从2005年开始，年度和累计数据开始显著增长。到2010年，至少在ChEMBL中有一条记录的蛋白质-配体复合物的数量呈线性增长。近几年的下降可能是因为使用的ChEMBL版本是2024年12月的，生物活性和结构数据可能没有同时上传或记录。

3.8. 使用StrAcTable构建数据集
StrAcTable旨在创建新的数据集。为了展示如何从不同版本的StrAcTable收集和使用数据，我们以一个ChEMBL目标为例进行探索。CHEMBL1862是ChEMBL中单蛋白形式的人源酪氨酸蛋白激酶ABL。将StrAcTableF过滤到我们的目标后，我们找到了692行。进一步研究后发现，有37个独特的PDB结构、42个分子、139个ChEMBL测定和上述所有标识符的293种组合。一种方法是将现有数据集过滤为高质量的数据集。在这种情况下，需要考虑几个因素。首先关注结构和小分子的完整性。为了确保配体的完整性，我们可以使用LigandExtractors的跳过理由（见支持信息第3节）。为了考虑电子密度中的嵌入，我们可以使用EDIAm。然而，由于EDIAm仅适用于晶体结构，使用这种方法会过滤掉通过其他方法解析的结构。这些步骤从StrAcTableF中过滤掉了42个数据点，剩下650行。接下来，我们可以根据全局结构质量进行过滤，例如分辨率低于2.5 ?，这样剩下524行。接下来，我们需要过滤生物活性数据的质量，移除任何潜在的重复项和带有数据有效性评论的记录，剩下425行。然后，我们需要考虑将结构映射到生物活性数据的质量，这包括序列和分子映射。对于分子映射，最佳做法是过滤出具有相同分子的案例，剩下352行。最后是序列匹配，有两个重要标准：百分比相同性和结合位点的突变数量。有人可能会认为两者都是必需的，但也有理由只考虑结合位点的突变。如果突变位于结合口袋之外，它们可能对结合的影响较小。在筛选出序列一致性超过95%且没有突变的样本后，剩余了337条记录。有趣的是，我们排除了15个含有突变的样本和0个序列一致性匹配的样本。这再次强调了考虑结合位点突变的重要性。尽管StrAcTable的主要用途是构建用于对接和评分方法开发的大型数据集，但它也可以用于更具体的分析。例如，我们可以关注单个PDB结构，比如PDB-ID为3QRJ的T315I突变结构。在这种情况下，我们在过滤后的高质量数据中只找到了一条检测记录，以及两条具有相同活性值的记录，它们之间的区别仅在于PDB文件中匹配的配体不同。值得注意的是，该检测包含一个变异序列；因此，这个序列被匹配了。如果我们现在查看未过滤的表格，会发现有3QRJ的26个额外条目和5个额外的检测记录。这是因为我们在筛选时不仅考虑了最佳的ChEMBL靶标，还考虑了最佳BLAST匹配结果。只有CHEMBL5108948检测与突变结构3QRJ最匹配，因为该变异序列包含了突变。

一个高级的应用是调查在StrAcTable中是否能找到有用的额外数据。通过与过滤后的版本进行比较，我们在StrAcTable中发现了3519条额外的记录。我们在StrAcTable中找到了四个新的PDB结构，这意味着每个结构都有更好的ChEMBL靶标。仅分析这些新PDB结构的数据，我们发现最小和最大的序列一致性分别为84.39%和99.30%。负责99.30%序列一致性的PDB条目是3K5V，它是Mus musculus版本的酪氨酸蛋白激酶ABL，因此与CHEMBL3099的序列一致性更高。

另一个高级选项是仅通过查询靶标数据来探索是否能在StrAcTableT中找到有趣的游离态结构或没有活性的配体结构。我们找到了5967个这样的案例，并因此为该特定的ChEMBL靶标找到了18个新的PDB条目。例如，PDB结构8I7T（66,67）中有一个结合配体，但我们没有找到其生物活性数据；或者2G2I（68,69）是一个只有ADP结合的非活性结构。

4. 讨论
创建一个自动化的工作流程来交叉链接结构和生物活性数据库对于任何预测蛋白质-配体生物活性方法的未来发展都是至关重要的。现有的手动方法几十年来一直是方法开发的核心，并将继续发挥关键作用。尽管如此，解决方案需要能够随着结构和亲和力数据生成的不断增加而发展。在这项工作中，我们自动生成了这样的数据集，并对现有数据进行了彻底分析。

有一些改进ActivityFinder、StructureProfiler和LigandExtractor以及StrAcTable工作流程的有效机会。由于ActivityFinder目前仅关注X射线结构，因此忽略了冷冻电镜（cryo-EM）或核磁共振（NMR）结构的生物活性值。EDIAm需要电子密度计算，并用作实验支持的描述符。因此，在使用EDIAm进行过滤时，像通过NMR光谱学创建的结构这样的没有电子密度的结构会被排除，从而丢失了潜在的有价值信息。对于冷冻电镜图谱，Q-Score（70）是从EDIAm中衍生出来的，并计划在将来纳入其中。

到目前为止，NAOMI（51,56）尚未完全处理含金属的配体。因此，任何含有金属的配体的生物活性都只使用了原始配体的一部分，但这些情况可以通过跳过规则来过滤掉。虽然存在提取共价结合分子的方法，但在StrAcTable的初始版本中，我们决定不将它们纳入生物活性链接的考虑范围，因为还需要解决将其与ChEMBL分子匹配和解释生物活性方面的进一步问题。同样，目前的版本也不支持改进的立体化学信息。

PDB-redo（71）旨在通过更复杂的精修程序来提高PDB结构的模型质量。正在研究基于PDB-redo创建StrAcTable的替代版本，但尚未包含在此版本中。此外，目前只有ChEMBL数据库与PDB进行了交叉链接，但PubChem（33）、BindingDB（42）等其他数据库的加入也将非常有价值。由于PDB和PubChem之间没有自动链接，并且PubChem包含了BindingDB和ChEMBL的数据，这将显著增加StrAcTable中的数据量和多样性。虽然BindingDB与PDB条目进行了链接，但其链接细节不如ActivityFinder使用的方法详细。由于BindingDB主要搜索美国专利，其生物活性数据大多与ChEMBL不同，因此可以进一步丰富StrAcTable。

5. 结论
在这项工作中，我们提出了自动化的工作流程来创建结合生物活性和结构数据的数据集。由于配体与靶标的生物活性对结构的微小变化非常敏感，我们特别注意确保来自不同数据源的靶标和小分子具有合理的相似性。任何潜在的差异都会被报告出来，以便用户决定是否接受这些小的变化。此外，对复杂结构的实验证据也经过了仔细验证。

StrAcTable旨在提供用户所需的任何信息，以准确估计结构的实验支持、活性数据以及两者之间的匹配情况，从而实现衍生数据集的自动构建。用户可以选择使用最高质量的数据，或者包括质量较低的序列匹配或来自外消旋混合物的数据点，这样虽然降低了质量，但增加了数据量。ChEMBL中包含未结晶配体的额外数据点也可以用来丰富数据集。通过将已经存在的结晶配体的所有生物活性数据添加到StrAcTable中，具有独特生物活性的蛋白质-配体组合的数量增加了40倍以上，而这还不考虑相似性。由于自动化，可以随着PDB和ChEMBL的发展实现持续增长，消除了繁琐的人工工作需求。由此产生的数据集合有可能成为用于改进基于机器学习的对接和评分方法以及验证场景的优质数据资源的基础。然而应当注意的是，StrAcTable是一个原始数据资源，需要为下游应用进行严格的整理。我们将在后续的出版物中讨论多种应用场景的标准。

热点排行