ConGen:通过对比学习(Contrastive Learning, CL)与隐空间优化(Latent Optimization, LO)实现靶向分子生成

《Molecular Informatics》:ConGen: Targeted Molecule Generation Through Contrastive Learning and Latent Optimization

【字体: 时间:2026年05月22日 来源:Molecular Informatics 3.1

编辑推荐:

  新型化合物的发现是药物研发过程中的关键环节,其中针对特定蛋白质靶点的分子设计尤为重要。现有基于蛋白质结构的设计方法受限于结合态配体结构数据的稀缺性,且常生成几何冲突的不合理构象,泛化能力有限;而基于序列的方法多仅利用相互作用数据,忽略了非相互作用信息对提升模型

  
新型化合物的发现是药物研发过程中的关键环节,其中针对特定蛋白质靶点的分子设计尤为重要。现有基于蛋白质结构的设计方法受限于结合态配体结构数据的稀缺性,且常生成几何冲突的不合理构象,泛化能力有限;而基于序列的方法多仅利用相互作用数据,忽略了非相互作用信息对提升模型特异性与泛化能力的价值。为此,研究人员提出ConGen——一种仅需蛋白质序列输入的靶向分子生成框架,据其所知首次将对比学习(CL)与包含相互作用及非相互作用分子的隐空间优化(LO)相结合,解决仅利用相互作用数据训练的局限性。ConGen采用两阶段策略:(1)对比学习阶段将蛋白质与分子映射至联合隐空间,拉近相互作用对的嵌入距离、推远非相互作用对;(2)隐空间优化阶段从随机分子隐向量出发,使其向目标蛋白质嵌入移动,并在其局部邻域内解码生成候选分子。该方法通过在共享隐空间中高效利用结构化信息,实现给定靶点的特异性分子设计。实验结果表明,ConGen的性能与当前最优的基于序列的靶向药物生成模型EncDecLM相当;消融研究进一步验证了对比学习与隐空间优化两个阶段的独立贡献。
《Molecular Informatics》刊载的研究聚焦药物发现中靶向分子生成的核心挑战,针对现有方法依赖蛋白质三维结构或仅利用相互作用数据的局限,提出了新型序列条件生成框架ConGen。研究背景显示,尽管计算机辅助药物设计已发展多年,但化学空间规模庞大(约1060量级)与蛋白质-化合物相互作用复杂性仍使新型分子预测极具挑战;基于结构的方法受限于结合态结构稀缺与生成构象不合理,基于活性分子或对接引导的方法则面临靶点特异性数据缺失、生成分子合成可行性低及计算成本高的问题;而现有序列条件模型因仅利用相互作用对,无法借助负例证据提升表征空间的区分度与泛化性。为此,研究人员假设显式建模非相互作用信息可改善靶点特异性与泛化能力,进而开发了ConGen框架。
关键技术方法包括:数据集构建方面,基于BindingDB数据库(202403版本)筛选蛋白质-配体互作数据,以Kd值低于100 nM定义为相互作用、高于该值为非相互作用,通过控制每个蛋白质的正负样本数量平衡数据分布,并过滤Tanimoto相似度高于0.7的交叉标签分子以避免对比学习信号冲突,最终形成训练集(13 137个互作)、验证集(4039个互作)、测试集(3270个互作)及未见蛋白集(18 871个互作);模型架构方面,采用预训练ProtBERT编码蛋白质序列(输出1024维嵌入)、预训练MoLeR编码与解码分子(输出512维隐向量),通过单层多层感知机投影层将二者映射至512维共享隐空间;训练策略方面,第一阶段采用带自适应边距的三重损失(Triplet Margin Loss)进行对比学习,第二阶段冻结所有编码器与投影层,仅优化随机初始化的分子隐向量以最小化其与目标蛋白质嵌入的负余弦相似度,最终通过局部邻域采样解码生成候选分子。
研究结果部分:
  1. 1.
    ConGen与基线分子生成器性能相当
    研究人员在未见过蛋白集上比较ConGen、通用分子生成器MoLeR与当前最优序列条件模型EncDecLM,每靶点生成20个分子。集合水平评估显示,ConGen在独特性(Uniqueness)、logP、天然产物相似性(NP)、合成可及性(SA)及药物相似性(QED)等指标上优于MoLeR与EncDecLM,且Frechet ChemNet距离(FCD)低于MoLeR;EncDecLM在相似性指标上略优,但统计检验表明ConGen与EncDecLM无显著差异。蛋白水平评估显示,ConGen的平均FCD显著低于MoLeR且与EncDecLM相当,证实其具备有效的靶点特异性生成能力。
  2. 2.
    消融研究验证对比学习与隐空间优化的有效性
    通过移除对比学习阶段(仅随机初始化投影层后进行隐空间优化)与同时移除对比学习和隐空间优化阶段(直接从随机隐向量解码)的实验,研究人员发现ConGen的FCD最低,逐步移除模块后FCD依次升高;同时ConGen在独特性、性质距离指标(logP、NP、SA、QED)及多样性指标上均表现最优或相当,证实两个阶段的协同作用对靶向生成至关重要。
  3. 3.
    ConGen构建的共享隐空间实现相互作用与非相互作用分子的有效分离
    t-SNE可视化结果显示,对比学习前蛋白质与分子的嵌入随机分散,对比学习后相互作用分子聚类于目标蛋白质周围,非相互作用分子则远离,且该规律在多个蛋白质上一致,验证了共享空间的表征合理性。
讨论部分指出,ConGen的优势在于轻量化(仅训练少量投影层与每靶点隐向量)、模块化(可替换预训练编码器)及广谱适用性(无需蛋白质三维结构),可作为结构方法的快速前置筛选工具。其局限性包括对互作数据覆盖度的依赖、Tanimoto过滤可能排除活性悬崖(Activity Cliffs)等高相似交叉标签信息,以及预训练编码器分布偏移的影响。研究人员建议未来可通过适配器微调(Adapter Fine-tuning)缓解域偏移问题,并探索相似性感知采样替代硬过滤。
结论部分强调,ConGen通过耦合对比学习与隐空间优化,实现了仅依赖蛋白质序列的靶向分子生成,性能与当前最优模型相当且优于通用生成器,两个核心阶段均为必需。未来工作将扩展至多靶点设计(通过加权目标优化亲和力与抗靶点惩罚),并改进对比学习策略以更好处理高相似交叉标签对,从而捕捉更精细的结构-活性关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号