多靶点结合导向的药物发现中一种简单的化合物优先排序方法

《Digital Discovery》:A simple compound prioritization method for drug discovery considering multi-target binding

【字体: 时间:2026年02月12日 来源:Digital Discovery 5.6

编辑推荐:

  本文提出一种创新的主动学习(Active Learning, AL)策略,用于多目标配体优化,特别针对计算成本高昂的多靶点结合亲和力预测。通过分离训练和采集过程,并改进期望提升(Expected Improvement, EI)采集函数,该方法在回顾性验证中显著提高了高效化合物的检索率,为同时优化效力和选择性提供了高效计算框架。

引言
主动学习(AL)策略在过去十年中在制药行业获得广泛关注,其核心思想是利用替代机器学习(ML)模型预测大量化合物的性质,仅对少量候选化合物进行昂贵的物理方法计算(如分子对接或自由能计算),从而显著降低计算成本。传统AL多专注于优化单一性质(如效力),但药物候选分子的实用性受多种性质影响,包括ADME(吸收、分布、代谢、排泄)属性、毒性和选择性。现有方法通常采用过滤策略排除不良ADME化合物,但难以灵活处理选择性和毒性等需要权衡的性质。
多目标优化可通过定义整体目标函数或帕累托优化实现。目标函数需用户定义各性质权重,而帕累托优化虽稳定但可能无法直接满足药物发现需求。当涉及多靶点结合时,每个靶点的亲和力计算均昂贵,且同时计算所有性质可能造成计算资源浪费。本研究引入一种分离采集策略,可高效分配计算预算,针对不同性质独立优化。
理论框架
本研究基于期望提升(EI)采集函数进行扩展。传统EI衡量目标函数f的整体提升,而改进后的EI(p)量化单个性质p对f的贡献。假设目标函数f为分段线性函数,对每个性质p在固定其他性质最大似然估计下,计算其期望提升。该方法将多维积分简化为多个一维积分,提升计算效率,同时允许非加性性质耦合(如PPAR系统中的最小效力原则)。
方法
验证数据来自DOCKSTRING数据集,包含26万分子对58个临床相关靶点的对接分数。设计两个优化任务:JAK2选择性抑制(最大化JAK2结合,最小化LCK结合)和PPAR多靶点抑制(同时结合PPARA、PPARD、PPARG)。目标函数整合对接分数和类药性(QED)惩罚项。
工作流以1000个随机配体初始,使用手性摩根指纹(半径4,长度1024位)进行特征化。采用高斯过程(GP)回归模型,每个周期采集300个分数。比较五种策略:联合训练与采集、分离训练与联合采集、完全分离训练与采集(包括贪婪和EI采集)。评估指标为top化合物召回率。
结果与讨论
分离训练策略显著提升模型预测性能,Spearman等级相关性提高1.5倍,主要因单独拟合对接分数比直接拟合复杂目标函数更易学习。分离采集策略进一步优化计算预算分配:JAK2任务中优先采集JAK2分数(因其对目标函数贡献线性),PPAR任务中偏向PPARG(因其平均结合较弱,提升空间大)。这种自适应分配避免了均匀采集的低效性。
关键改进在于将EI参考值f*锚定至化合物池(而非已采集数据),确保高潜力化合物不被漏选。对比显示,该策略在PPAR系统中尤其有效,避免了传统EI因性质耦合导致的采集停滞。
结论与展望
本研究提出的分离采集AL策略在多目标配体优化中表现优越,通过自适应预算分配和独立模型训练提高高效化合物发现效率。未来工作将整合多任务学习以降低计算成本,并应用于前瞻性药物发现项目,结合自由能计算和生成式设计进一步优化化学空间探索。该方法有望在早期发现阶段综合考虑多靶点平衡,提升候选药物成功率。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号