DeepCPBSite:基于深度残差网络与集成学习的蛋白质-碳水化合物结合位点精准预测新方法

《Briefings in Bioinformatics》:Predicting protein–carbohydrate binding sites: a deep learning approach integrating protein language model embeddings and structural features

【字体: 时间:2026年01月30日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对蛋白质-碳水化合物相互作用位点预测难题,开发了DeepCPBSite深度学习框架。该模型融合ProtT5-XL-U50和ESM-2的蛋白质语言模型嵌入、结构特征及进化信息,通过ResNet+FNN架构和集成学习策略,在TS53和TS14独立测试集上分别实现0.925/0.843的AUC值,显著优于现有方法。研究成果为糖生物学研究和碳水化合物药物设计提供了新工具。

  
蛋白质与碳水化合物的相互作用在细胞识别、免疫应答和疾病发生中扮演关键角色,精准识别其结合位点对理解生物过程和药物设计具有重要意义。然而,由于碳水化合物结构的复杂性和结合位点的动态特性,传统实验方法耗时费力,而现有计算方法在准确性和鲁棒性方面仍有不足。
为突破这一瓶颈,研究人员在《Briefings in Bioinformatics》发表论文,提出了DeepCPBSite深度学习框架。该研究通过整合多维度特征和先进算法,实现了对蛋白质-碳水化合物结合位点的高精度预测。研究团队构建了包含706个蛋白质链的大规模数据集,采用10折交叉验证和独立测试集验证,系统评估了模型的性能。
关键技术方法包括:1)使用ProtT5-XL-U50和ESM-2蛋白质语言模型提取序列嵌入特征;2)从实验结构和ESMFold预测结构中提取36维结构特征;3)采用ResNet+FNN混合架构处理局部和全局特征;4)通过随机下采样、加权过采样和类别加权损失三种策略训练集成模型。训练数据来源于RCSB PDB数据库的碳水化合物结合蛋白,测试集包含TS53和TS14两个独立数据集。
特征工程与选择
研究团队系统比较了12类特征组的预测效能,包括单语言模型嵌入(ProtT5-XL-U50、ESM-2等)、传统特征(PSSM、DPC等)和结构特征。通过增量特征选择、递归特征消除和弹性网络三种方法,最终确定ProtT5-XL-U50嵌入、结构特征和ESM-2嵌入构成最优特征组合,在10折交叉验证中达到0.849的F1分数。
模型架构优化
在深度学习模型设计中,研究人员对比了简单FNN、ResNet+FNN和Transformer+FNN三种架构。结果表明,ResNet+FNN组合最能有效捕捉局部残基间模式,在验证集上获得0.925的AUC值。针对类别不平衡问题,采用三种处理策略的模型集成,最终模型在TS53集上达到0.496的F1分数和0.487的MCC值,显著优于DeepGlycanSite等现有方法。
多维度性能验证
在TS53测试集上,DeepCPBSite在实验结构和ESMFold预测结构上分别实现0.925和0.924的AUC值,证明了模型对预测结构的适应性。特别在古菌和真菌类别中,基于ESMFold特征的模型表现更优,显示出对低同源性蛋白的更好泛化能力。在CASP16衍生的TS14集上,模型取得0.843的AUC值,展现了跨数据集稳定性。
研究通过SHAP值分析揭示了结构特征的重要性,特别是溶剂可及性和空间位置特征对结合位点识别贡献显著。不同生物 kingdoms 的分析表明,模型在细菌和动物蛋白中表现稳定,而在古菌和真菌中仍有提升空间,反映了训练数据分布的影响。
该研究开发的DeepCPBSite框架为蛋白质-碳水化合物相互作用研究提供了可靠的计算工具,其创新性体现在:1)首次系统评估了多种蛋白质语言模型在碳水化合物结合位点预测中的效能;2)提出了融合序列嵌入和结构特征的混合深度学习架构;3)通过集成学习策略有效缓解了类别不平衡问题。研究成果不仅推进了糖生物学计算研究方法学发展,还为碳水化合物药物设计和蛋白质工程应用提供了技术支撑。未来工作可进一步扩展至糖-蛋白质共价结合位点预测及动态相互作用分析等领域。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号