《Journal of Cheminformatics》:PROTAC-Splitter: a machine learning framework for automated identification of PROTAC substructures
编辑推荐:
本文综述了开发PROTAC-Splitter这一机器学习框架的工作。它旨在自动、准确地将蛋白质降解靶向嵌合体(PROTACs)拆分为E3连接酶配体、连接体和弹头三个核心组件。针对公开PROTAC数据稀缺的挑战,团队构建并开源了包含约130万个合成PROTAC结构的数据集。在此基础上,开发了基于Transformer的序列到序列模型和基于XGBoost的图模型两种互补方法,并对它们在公开数据和药企内部数据上的性能进行了全面评估。研究提出了一种混合策略,以平衡预测准确性与化学结构有效性,为自动化PROTAC分析提供了强大、可扩展的工具。
引言
蛋白质降解靶向嵌合体(Proteolysis-targeting chimeras, PROTACs)是一类异双功能分子,能通过招募E3泛素连接酶至靶蛋白(Protein of Interest, POI),诱导其被蛋白酶体降解而非传统抑制。一个典型的PROTAC分子由三个部分组成:一个E3连接酶配体、一个靶向POI的弹头以及连接二者的连接体。尽管结构看似模块化,但准确地将一个完整的PROTAC分子拆解并标注出这三个组分却极具挑战性,目前主要依赖人工处理和预定义的子结构匹配。随着数据集的增长以及分子在连接点、环融合和立体化学上的变异,传统方法难以胜任。为应对这一挑战,研究团队开发了PROTAC-Splitter——一个专门为PROTAC子结构自动注释设计的机器学习框架。
数据与方法概览
研究的核心是解决PROTAC数据稀缺问题。公开领域仅有约5000个可用的PROTAC结构,且带注释的少之又少。为此,团队通过精心设计的数据生成流程,构建并开源了一个包含约130万个合成PROTAC结构的大规模数据集,每个结构都带有经过化学合理性校验的配体拆分注释。
研究开发了两种互补的模型来实现PROTAC拆分:
- 1.
基于Transformer的序列到序列模型:将拆分任务视为从PROTAC的SMILES(简化分子线性输入规范)序列到三个子结构SMILES序列的翻译问题。该模型基于预训练的ChemBERTa-v1微调,通过编码-解码架构生成子结构。
- 2.
基于XGBoost的图模型:将任务构建为分子图中化学键的二分类问题,预测哪些键是子结构间的切割点。该模型使用从分子图和线图中提取的拓扑特征以及化学特征进行训练,能够保证拆分结果的化学有效性。
为了提升Transformer模型的可靠性,研究者引入了一个名为Transformer-Δ的修正包装函数,它能自动识别并纠正生成过程中出现的部分原子错误(例如多出或缺失少数原子),从而提高重组准确率。
合成数据集覆盖真实的PROTAC化学空间
为了训练模型并评估其泛化能力,研究者构建了大规模合成数据集。该数据集通过对从公开数据(PROTAC-DB和PROTAC-Pedia)中精心整理出的配体字典(包含253个E3配体、1926个连接体和885个弹头)进行半随机重组而生成。为了模拟真实场景中遇到新化学结构的挑战,研究者通过聚类有意识地将部分配体排除在训练集外,以确保验证集和测试集中包含一定比例的“未见”子结构。
分析表明,合成数据覆盖的化学空间与真实PROTAC数据高度重叠,同时通过设计引入了可控的新颖性,为评估模型在分布外(Out-of-Distribution, OOD)数据上的表现提供了良好基础。
模型在公开数据上表现优异
在包含5670个真实PROTAC的公开测试集上,两种模型展现了各自的优势。XGBoost模型始终能保证100%的化学有效性和100%的重组准确率(即拆分出的三个部分能完美重新拼合成原分子),但其精确匹配准确率(预测拆分与标准标注完全一致)相对较低,为42.20%。与之相对,Transformer-Δ模型在公开数据上取得了85.96%的高精确匹配准确率和96.29%的重组准确率,显示出其更接近人工或算法推导的“理想”拆分点。这表明,对于与训练数据分布相近的PROTAC,Transformer模型能提供高度准确的拆分。
在内部专有数据上验证泛化能力
为了评估模型在真实药物研发场景(常包含与公开数据化学结构差异较大的分子)中的表现,研究者在阿斯利康(AstraZeneca)的2256个内部专有PROTAC数据集上进行了测试。内部数据的化学空间,尤其是弹头部分,与公开数据存在显著差异。
在此更具挑战性的OOD数据集上,XGBoost模型依然保持了100%的有效性和重组准确率,但其精确匹配准确率降至约22.96%。基础的Transformer模型表现大幅下滑,弹头部分的预测有效性和匹配准确率分别降至74%和12%。然而,经过修正函数处理的Transformer-Δ模型显著提升了性能:总体重组准确率达到70.35%,弹头匹配准确率提升至36.6%,而E3配体由于结构相对保守,匹配准确率仍维持在42.9%。这一结果表明,修正函数能有效纠正大部分结构性错误,使模型在面对新颖化学结构时仍能提供有价值的拆分结果。
讨论:优势、局限与未来方向
研究指出,基于大规模合成数据的训练是有效的,但当数据量达到一定程度后,性能提升会趋于平缓。模型面临的主要挑战在于泛化到含有全新子结构的PROTAC分子上,这在内部数据测试中尤为明显。
两种模型各有局限性:Transformer模型偶有“幻觉”(hallucination),产生多余的原子;而XGBoost模型虽然稳健,但仅依赖拓扑信息,难以捕捉复杂的、化学语境依赖的拆分模式,导致匹配准确率有限。此外,两种模型都无法区分PROTAC与非PROTAC分子,会对任何输入分子进行三组分拆分。
为了平衡准确性与可靠性,研究者提出了一种混合策略:对于输入分子,首先使用Transformer-Δ模型进行预测;如果预测结果通过了化学有效性和重组检查,则采纳;否则,自动回退到XGBoost模型,以确保输出至少是化学上有效且可重组的拆分。这种策略结合了两者的优点,有望在实际应用中实现最佳效果。
未来工作可朝多个方向发展:探索将PROTAC-Splitter整合到强化学习(Reinforcement Learning, RL)等生成式人工智能框架中,用于指导基于子结构的理性设计;研究PROTAC的理化性质是否可以从其子结构的性质加和预测;将方法扩展至肽-药物偶联物(Peptide-Drug Conjugates)或溶酶体靶向嵌合体(Lysosome-Targeting Chimeras, LYTACs)等其他异双功能模式;以及引入三维化学信息以提升立体化学预测的精度。
结论
PROTAC-Splitter是一个用于PROTAC分子自动拆分的综合性框架。其贡献包括:发布了一个大规模、带精确注释的合成PROTAC数据集;开发了基于Transformer和XGBoost的两套互补、易用的模型;通过在公开和内部专有数据上的广泛基准测试,证明了模型在不同化学空间中的稳健性能。所提出的混合拆分策略为实现对新颖数据集的全面覆盖提供了实用方案。尽管存在局限,PROTAC-Splitter为推进靶向蛋白降解剂的设计与优化,实现可扩展的、自动化的PROTAC组分注释奠定了坚实基础。所有代码、数据和预训练模型均已开源。