综述:走向可推广的DNA编码库预测模型

《Drug Discovery Today》:Toward generalizable predictive models for DNA-encoded libraries

【字体: 时间:2026年02月20日 来源:Drug Discovery Today 7.5

编辑推荐:

  这是一篇关于药物发现前沿领域DNA编码库(DNA-encoded libraries, DELs)与机器学习(Machine Learning, ML)结合应用的权威综述。文章深入剖析了DEL-ML(DNA-encoded library-machine learning)模型存在的“泛化性鸿沟”,即模型易过拟合于特定组合化学库,难以预测未见化学空间。作者通过Aurora Kinase A(AURKA)案例,揭示了数据噪声、类别不平衡与化学空间偏移(domain shift)等核心挑战,并探讨了严格的去噪策略、域适应(domain adaptation)等解决方案,为构建更稳健、可推广的DEL-ML模型提供了清晰的路线图。

  
引言
寻找具有临床相关性的化合物是药物发现的基本挑战。化学空间的浩瀚,估计包含1060到1063个类药分子,使得穷举性的实验筛选成为不可能。虽然高通量筛选(HTS)、超大规模虚拟筛选(ULVS)等多种方法各有取舍,但DNA编码库(DEL)技术作为一种高通量方法,能够产生海量的结合数据(106–1012个数据点),为机器学习(ML)应用提供了宝贵的数据基础。
然而,关键在于区分文库规模与多样性。DEL的化学多样性受限于特定结构单元的重现以及DNA兼容合成反应的范围。尽管文库的“同系物”性质有利于从噪声中提取信号,但这也导致了其结构覆盖度的内在局限,使得标准ML模型往往难以泛化到未见的化学空间。
DEL-ML的考量因素
训练稳健的ML模型需要大规模且多样的数据集。典型的DEL-ML工作流程核心在于将原始的测序数据转化为可靠的预测信号。这涉及从原始序列计数到富集分数的转换,以降低基质结合和测序伪影带来的噪音。常用的方法包括基于平均计数的简单富集计算、基于Z分数的概率方法,以及考虑背景控制计数和泊松分布的更复杂的概率损失函数。关键在于将DEL化合物准确注释为结合子(binders)与非结合子(nonbinders),需特别区分真正的结合子与因基质结合、合成失败或DNA标签干扰而产生的假阳性或假阴性信号。
DEL筛选数据天然高度不平衡,活性化合物稀少。处理这种不平衡的策略包括对少数类(活性物)过采样或对多数类(非活性物)欠采样,但各有利弊。数据分割策略对模型评估至关重要,随机分割易导致数据泄露和过于乐观的评估,而基于分子骨架或多样性的分割能更严格地测试模型对新化学型的预测能力,尽管可能引入分布偏差。
分子特征化方面,传统的理化描述符或分子指纹(如Morgan/ECFP)各有局限,图神经网络(GNNs)和变分自编码器(VAEs)等深度学习架构能更有效捕捉原子连接与相互作用。建模算法可采用分类(结合子 vs. 非结合子)或回归(预测富集分数)任务。除了基础模型,保形预测(Conformal Prediction, CP)框架可为预测提供校准的置信区间,在嘈杂的DEL环境中尤其有价值。
模型验证必须严谨。对于高度不平衡的数据集,评估指标应超越准确率或AUC-ROC,转而关注精确率-召回率(Precision-Recall, PR)曲线、马修斯相关系数(MCC)或富集因子(Enrichment Factor, EF),这些更能反映模型在稀疏活性物中的识别能力。验证的黄金标准是模型能否从严格的内部分割中找回高置信度的富集分子。
为何DEL-ML模型难以预测已知化合物?
DEL-ML模型在验证时经常难以准确预测已知的结合子或非结合子。失败原因可能源自DEL数据质量本身,或模型构建过程(如特征选择、架构或类别不平衡)的局限。微弱的结合信号易被背景噪音淹没,形成“灰色区域”。更重要的是,DELs由受限的结构单元和反应方案构建,已知结合子若处于与文库不同的化学空间中,则可能落在模型的适用域(Applicability Domain)之外。此外,模型容易过度拟合高丰度伪影(如基质结合相互作用),从而学习到虚假相关性。
DEL-ML中的模型泛化性
确保模型泛化性,即其准确预测未见分子空间的能力,是ML的核心挑战。DEL数据集通常反映了由特定文库设计或受限合成方案定义的狭窄化学空间,这固有地限制了其化学多样性。因此,在此类数据上训练的模型容易过拟合结构模式或标签特异性伪影,导致内部验证时性能虚高,而应用于外部文库或不相关骨架时预测能力下降。
为正确评估泛化性,避免因训练与测试集之间的结构冗余而产生虚假的性能增益,应采用多种分割方案。增强模型稳健性的常用方法包括数据增强、正则化、集成学习等。此外,迁移学习、多任务学习以及基于大尺度无标签化学数据集(如ChEMBL或PubChem)的预训练后微调,可以提升模型的适应性。为了评估上述泛化策略的实际效果,作者利用在SciLifeLab药物发现与开发平台进行的内部项目,以AURKA为模型靶点进行了案例研究。该研究使用包含约29亿个独特化合物的OpenDEL 4.0文库进行筛选,构建了包含约58,170个独特结合子和约191万非结合子的数据集,并使用基于图的消息传递神经网络(MPNN)模型Chemprop进行评估。
分析发现,仅用DEL数据训练的模型(场景1和2)在内部数据上表现出高准确率,但在预测外部AURKA抑制剂数据集时性能极差。结合已知AURKA活性与非活性数据进行再训练(场景3)可显著提升外部数据集的灵敏度,但这种提升高度依赖于已知数据的可用性。对非结合子进行欠采样(场景4)显著提高了模型在外部数据集的灵敏度,但这可能源于模型记住了优势活性亚结构,而非真正的泛化。
通过基于脂规(Lipinski's Rule of Five)和维伯规则(Veber's rule)描述的以及扩展连通性指纹(ECFP6)的主成分分析(PCA)发现,OpenDEL 4.0文库中的高度富集化合物往往比已知AURKA抑制剂更大、更亲脂、极性更小,且已知抑制剂表现出更大的结构多样性。这表明DEL-ML模型预测性差的根本原因之一是域偏移(domain shift),即训练数据集与目标空间(已知结合子)的化学空间存在显著差异。
域适应方法
为了系统性地解决泛化挑战,研究探索了相对而言在化学领域应用较少的域适应(Domain Adaptation, DA)技术,其目标是减小源域(DEL数据)与目标域(已知结合子空间)之间的特征分布差异。具体而言,研究通过协变量偏移校正来减小这种差异。其核心思想是利用初始DEL模型从庞大的类药化合物库(如Enamine REAL Diversity Set)中预测出高置信度的结合子和非结合子,并将这些“预测数据”作为中间域或近似目标域,与源数据结合,重新训练模型。这一策略在理论上通过降低域差异项,有望减少模型在目标域上的预期预测误差。
验证结果显示,通过域适应方法增广训练集后,其化学空间质心与已知AURKA空间的欧几里得距离从0.77降至0.32。从性能看,仅用预测的结合子增广(场景5)显著提升了模型对已知AURKA结合子的召回率(灵敏度达35–60%),但也引入了偏差。同时使用预测的结合子和非结合子进行增广(场景6)则取得了平衡,尽管灵敏度降至20–39%,但模型在多个外部数据集上的马修斯相关系数(MCC)显著提升(从0.2提高至0.5)。这一策略有效地规范了决策边界,减少了文库特异性伪影的影响,显著改善了对已知活性物的识别能力,并且这一策略可推广至缺乏已知配体信息的新靶点。
结论
DEL与ML的集成为通过高效探索巨大化学空间来加速早期药物发现提供了变革性机遇。然而,实现这一潜力需要克服关键的“泛化性鸿沟”。主要挑战并非仅仅是数据量,而在于数据的性质:组合化学库固有的结构偏差和由连接体干扰等导致的系统性假阴性,会混淆模型,使其记忆文库特异性伪影而非学习可迁移的结构-活性关系。虽然欠采样等策略可以利用优势亚结构提升外部灵敏度,但这仍是一种偏差利用,而非真正的泛化。因此,高内部验证指标常常掩盖了模型向新颖、药理学相关骨架外推的失败。
克服这些局限需要范式转变。未来的工作必须超越标准的监督学习,采用明确为处理分布偏移而设计的方法。域适应(DA)和迁移学习等技术对于对齐有偏差的文库“源”分布与类药化学空间的“目标”分布至关重要。此外,将基于物理的先验知识整合到学习框架中,以约束潜在空间并减少对噪声的过拟合,也是一个关键步骤。展望未来,学界应优先关注数据多样性和严格的验证标准。开源DEL数据集的扩展对于构建覆盖更广类药化学空间的训练集至关重要,从而减少单一文库偏差。通过从简单的精度最大化转向稳健的域对齐,DEL-ML可以从一个回顾性分析工具,演变为一个识别新型化学起点(starting points)的可靠引擎。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号