《Nature Communications》:Deciphering DEL pocket patterns through contrastive learning
编辑推荐:
本研究针对DNA编码化合物库(DEL)筛选成功率低的难题,为深入理解DEL靶标口袋特性,研究人员开发了ErePOC模型,该模型通过结合ESM-2嵌入与对比学习,捕捉口袋结构与功能特征。研究整合多维分析,实现了对适合DEL筛选的人源蛋白的高精度预测,为基于DEL的药物发现提供了高效靶点选择与口袋相似性分析的新框架。
DNA编码化合物库(DEL)的出现,为药物研发打开了一扇通往万亿级化合物空间的大门。通过独特的“裂分-合并”合成与DNA标记技术,DEL允许在单次实验中筛选海量化合物与蛋白靶点的相互作用,极大地提升了筛选通量。然而,这看似强大的“寻宝”工具,在实践中却遭遇了尴尬:尽管潜力巨大,真正由DEL筛选成功并最终进入临床试验或市场的药物却寥寥无几。问题的症结何在?一个关键瓶颈在于,我们对哪些蛋白靶点、特别是其表面哪些“口袋”真正适合用DEL技术来“开锁”,仍然缺乏清晰的认识。传统的分析方法往往难以兼顾口袋的结构柔性与功能相似性,这使得筛选常常带有盲目性,成功率难以保障。为了打破这一僵局,让DEL的潜力得到充分发挥,一项聚焦于“解密”蛋白口袋内在模式的研究应运而生。
为了开展这项名为“Deciphering DEL pocket patterns through contrastive learning”的研究,并发表在《Nature Communications》期刊上,研究人员主要运用了以下几项关键技术方法:首先,基于蛋白序列预训练模型ESM-2,生成蛋白残基级别的嵌入向量,作为口袋表征的输入基础。其次,通过对比学习(Contrastive Learning)方法构建了名为ErePOC的口袋表征模型,该模型旨在从正负样本对中学习,使得具有相似功能的口袋在高维嵌入空间中距离更近。再者,研究整合了对口袋低维理化性质(如疏水性、电荷等)的分析,以提供多维度的口袋特征视图。最后,利用训练好的ErePOC模型,对大规模人类蛋白质组进行预测,识别出可能适合DEL筛选的潜在靶点蛋白,并进行功能富集分析。
研究结果
- •
ErePOC模型在口袋表征中展现高性能
研究人员开发了ErePOC模型,这是一个专门用于表征蛋白结合口袋的深度学习模型。该模型以ESM-2生成的蛋白序列嵌入为输入,通过对比学习框架进行训练。评估结果显示,ErePOC在下游分类任务中达到了98%的精度,显著优于其他基线方法,证明其能够有效捕捉口袋中与功能相关的复杂特征。
- •
ErePOC揭示了DEL靶点的共享特征
利用ErePOC生成的高维口袋嵌入,研究人员对已知的DEL靶点进行了深入分析。通过将ErePOC嵌入与传统的低维理化性质分析相结合,研究提供了一个关于DEL靶点空间的综合视图。分析发现,某些特定的结构和功能模式在不同DEL靶点的口袋中重复出现,这为理解“DEL可成药”口袋的共性特征提供了线索。
- •
预测适合DEL筛选的人源蛋白并发现功能富集
训练成熟的ErePOC模型被应用于预测整个人类蛋白质组中哪些蛋白可能含有适合DEL筛选的结合口袋。预测结果成功识别出了一系列潜在靶点。进一步的功能富集分析表明,这些预测靶点并非随机分布,而是在18个特定的功能类别中显著富集,例如某些酶类或信号通路相关蛋白。这为针对特定生物过程进行定向DEL库设计和筛选提供了策略指导。
结论与讨论
本研究的核心结论是,成功构建了一个基于对比学习的蛋白口袋表征模型ErePOC。该模型不仅能高精度地表征口袋的结构与功能特征,还能有效识别DEL靶点口袋间的共享模式。通过整合多维分析,研究为DEL靶点空间提供了更全面的解读。最重要的是,利用ErePOC对人类蛋白质组进行扫描,预测出了一批适合DEL筛选的潜在靶点,并发现了其在特定功能类别上的富集现象。
这项研究的意义重大。它超越了传统方法在分析口袋灵活性(如构象变化)和功能相似性方面的局限,为评估蛋白靶点对DEL技术的适用性提供了一个强大的计算框架。ErePOC模型的应用,能够指导更合理的DEL库设计(针对特定类型的口袋)和更精准的靶点选择(优先筛选预测成功率高的靶点),从而有望从根本上提高DEL筛选的命中率和后续药物发现的成功率。这项工作建立了一个通过计算手段增强基于DEL的药物发现的范例,将人工智能与高通量实验技术紧密结合,为加速新药研发进程开辟了新的路径。