基于神经网络的方法改进抗体-抗原对接构象评估

《Frontiers in Physics》:Neural network–based approach for improving the evaluation of antibody–antigen docking poses

【字体: 时间:2026年01月06日 来源:Frontiers in Physics 2.1

编辑推荐:

  本文提出了一种基于最小化神经网络(NN)的创新策略,通过精心筛选的界面物理化学特征与图论衍生描述符,显著提升了抗体-抗原(Ab-Ag)对接构象的质量评估能力。研究不仅实现了对天然样(native-like)与诱饵(decoy)构象的高效区分(ROC AUC达0.90),更可直接预测DockQ评分(Pearson相关系数0.59),其性能优于传统对接评分ITScore-PP。该工作凸显了特征工程与AI结合在蛋白质-蛋白质相互作用建模中的关键价值,为抗体药物设计提供了强有力的计算工具。

  
1 引言
人工智能(AI)与机器学习在计算生物学领域的应用近年来深刻改变了蛋白质科学的研究范式。尽管AlphaFold2等算法在单蛋白结构预测方面取得突破性进展,但蛋白质-蛋白质相互作用(PPI)的精准预测,特别是抗体-抗原复合物的结构建模,仍是亟待解决的关键挑战。抗体作为重要的治疗剂,其理性设计依赖于对结合界面结构的深入理解。实验方法如X射线晶体学虽能提供高分辨率结构信息,但耗时且成本高昂。计算对接方法(如HDOCK、ClusPro)可高效生成大量可能的结合构象(即对接姿态),然而,如何从这些构象中准确识别出最接近天然结构的“天然样”构象,是当前面临的主要难题。现有的评分函数(如ITScore-PP)通常针对结合亲和力进行优化,而非结构准确性。因此,开发能够有效评估对接姿态质量的新方法具有重要意义。
2 结果
2.1 数据集分析与对接姿态定义
研究基于SAbDab数据库,从初始9780个实验解析的抗体-抗原复合物中,经过冗余剔除和界面完整性筛选,最终得到2188个高质量复合物结构作为分析数据集。对每个复合物,使用HDOCK进行分子对接模拟,并保留每个对接任务中评分前十的构象。通过DockQ这一广泛使用的对接质量度量标准(计算公式为 DockQ = (Fnat+ lRMSscaled+ iRMSscaled)/3),将对接姿态分类为诱饵(DockQ < 0.24)、中间态(0.24 ≤ DockQ ≤ 0.81)和天然样(DockQ > 0.81)。数据集中诱饵构象数量最多(19406个),天然样构象为1684个,中间态为790个。分析显示,HDOCK提供的ITScore-PP评分在区分天然样与诱饵构象方面具有一定的能力(ROC AUC为0.78),但仍有较大提升空间。
2.2 特征间相关性分析
为描述抗体-抗原界面特性,研究定义了21个初始特征,主要分为三类:复合物几何特征(如pca_stretch_ratio, pca_alignment_score)、界面特征(如bs_sasa_ratio, bs_mean_hydrophobicity)以及基于图论的复合物网络特征(如edge_density, weighted_mean_clustering)。为避免特征冗余,采用皮尔逊相关性分析(阈值|r| > 0.75)并结合整数线性规划(ILP)求解最小顶点覆盖问题,最终筛选出15个低相关性特征用于后续建模。
2.3 通过主成分分析(PCA)进行无监督分类
对筛选后的15个特征进行主成分分析(PCA)发现,前两个主成分(PC1和PC2)共同解释了32%的总方差。虽然PC1本身不具备区分能力(AUC 0.52),但PC2在无监督情况下已能较好地区分天然样与诱饵构象(AUC 0.68)。载荷分析表明,对PC2贡献最大的特征包括pca_flatten_ratio、pca_alignment_score等,这些特征反映了界面几何形状(如扁平度、分子间取向)的差异。
2.4 基于最小神经网络的对接姿态分类方法
研究构建了一个简单的两层前馈神经网络(NN),以15个筛选后的特征作为输入,进行二分类(天然样 vs. 诱饵)任务。通过系统优化网络参数数量(最终确定为约70个参数)和训练集比例,该NN模型在测试集上取得了优异的分类性能,ROC AUC达到0.90,显著优于HDOCK的ITScore-PP(0.80)。即使刻意将训练集与测试集按PC1值进行划分以增加难度,NN模型的AUC仍保持在0.81-0.82,证明了其良好的泛化能力。此外,该NN模型在区分天然样与中间态构象这一更具挑战性的任务上也表现出潜力(AUC 0.77)。
2.5 使用神经网络改进对接姿态评估
研究进一步训练NN模型直接回归预测DockQ值(记为pDockQ)。结果表明,pDockQ与真实DockQ值之间的皮尔逊相关系数达到0.59,优于ITScore-PP(-0.41)和PC2(-0.27)。pDockQ在不同DockQ值区间的概率密度函数分布呈现良好的分离趋势,说明其能够有效捕捉对接姿态质量的连续变化。在与基于MM/GBSA方法的结合自由能预测(ΔG)的比较中,pDockQ也展现出可比甚至更优的相关性,凸显了该方法的有效性。
3 结论
本研究表明,结合精心设计的界面特征(包括几何与图论描述符)与简单的神经网络模型,能够显著提升抗体-抗原对接构象的评估准确性。该方法不仅在分类任务上表现优异,还能直接、连续地预测DockQ值。这项工作强调了特征选择在AI驱动蛋白质相互作用研究中的重要性,为改进抗体-抗原对接预测及其在药物设计中的应用提供了有价值的新工具。
4 方法
4.1 抗体-抗原复合物数据集
数据集源自SAbDab,经过严格过滤(保留蛋白抗原、单链、界面完整、能量最小化)和CD-HIT去冗余(序列一致性90%),得到最终2188个复合物。
4.2 对接模拟与诱饵姿态选择
使用HDOCK对每个复合物进行对接,取前十名构象。DockQ评分用于定义构象类别。
4.3 特征描述
使用的15个特征涵盖了复合物PCA参数、界面可及表面积(SASA)、大小、疏水性以及基于接触网络的图论指标(如密度、度、聚类系数、传递性等)。
4.4 神经网络架构与优化
NN为两层隐藏层结构,使用ReLU激活函数。分类任务使用二元交叉熵损失,回归任务使用均方误差(MSE)损失,采用AdamW优化器进行训练。
4.5 统计分析
使用ROC曲线下面积(AUC)评估分类性能,使用皮尔逊相关系数评估回归预测与真实DockQ的相关性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号