HGCTBind:一种基于可解释特征与上下文自适应特征融合的混合架构,用于预测蛋白质与DNA的结合位点

《Computational Biology and Chemistry》:HGCTBind: A hybrid architecture for predicting protein-DNA binding sites based on interpretable and contextual adaptive feature fusion

【字体: 时间:2026年02月28日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  DNA结合位点预测模型HGCTBind融合图卷积网络与Transformer架构,通过自适应特征融合模块整合人工特征与预训练蛋白语言模型嵌入,并采用加权焦点损失解决类别不平衡问题,在多个基准数据集上显著优于单一模态方法,验证了多源特征融合的有效性。

  
龚文涛|张飞凡|陈俊凡|卢克汉
中国农业大学理学院,北京清华东路,100083,中国北京

摘要

准确识别蛋白质-DNA结合位点对于理解相关生物过程的分子机制至关重要。然而,大多数现有的计算方法仍然主要依赖于单一模态信息(序列或结构),因此缺乏有效融合来自不同来源的蛋白质特征的战略。为了克服这些限制,我们引入了HGCTBind,这是一种新颖的混合架构,用于预测DNA结合位点,它结合了图卷积网络II(GCNII)和Transformer来协同提取结构和序列信息。此外,还引入了一个上下文自适应特征融合模块,以有效地将手工制作的特征与蛋白质语言模型嵌入相结合。鉴于数据集中的类别不平衡问题,在模型训练过程中应用了加权焦点损失函数进行优化。在多个DNA数据集上的实验结果表明,HGCTBind的性能始终优于所有基于序列或结构的方法。对不同融合策略的可解释性分析揭示了各种特征之间的潜在关系,并表明特征融合模块显著提高了特征表示的质量,从而提高了结合位点的预测能力。进一步的实验表明,本研究提出的特征融合策略在应用于九种架构和六种其他ProtTrans模型嵌入时表现出一致且稳健的性能。为了评估HGCTBind的多功能性,我们将其扩展到了六个额外的配体结合位点预测任务中,在所有情况下都取得了有竞争力的或更优的性能。

引言

蛋白质-DNA相互作用对于多种生物过程至关重要,包括遗传信息复制、信号转导、转录调控和基因表达(Stormo和Zhao,2010;Gallagher等人,2022;Zhao等人,2010)。从机制上解析蛋白质-DNA相互作用可以为蛋白质功能提供关键见解,并有助于发现新的治疗靶点(Bhardwaj和Lu,2007;Konz等人,2013;Xu等人,2021)。尽管传统的实验技术(如X射线晶体学(Orengo等人,1997)和电子显微镜(Zhao等人,2024)能够准确绘制DNA结合位点,但它们通常成本高昂且耗时较长,不适合大规模研究。
当前的蛋白质-DNA结合预测计算方法大致可以分为基于序列的方法和基于结构的方法。基于序列的方法直接从蛋白质序列中提取结合模式,由于其计算效率高且数据需求少而被广泛采用。这些方法包括DNAPred(Zhu等人,2019)、SVMnuc(Su等人,2019)、DBPred(Patiyal等人,2022)、CLAPE(Liu和Tian,2024)、PDNAPred(Zhang和Liu,2024)、ULDNA(Zhu等人,2024a)等。例如,CLAPE结合了一个预训练的蛋白质语言表示模型和对比学习策略来识别DNA结合残基。ULDNA结合了长短期记忆(LSTM)网络和注意力机制来捕捉长距离依赖性。PDNAPred采用多尺度卷积神经网络(CNN)与双向门控循环单元(GRUs)相结合,以实现全面的序列表示学习。与基于序列的方法相比,基于结构的方法通过利用3D结构特征提供了更高的预测精度。现有的基于结构的方法包括GraphBind(Xia等人,2021)、GraphSite(Yuan等人,2022)、EQUIPNAS(Roche等人,2023)、EGPDI(Zheng等人,2024)、GeSite(Zeng等人,2025a)、USPDB(Mi等人,2025)等。例如,EGPDI通过结合GCNII和等变图神经网络(EGNN)进行多视图学习,以实现分层特征提取,并通过基于注意力的特征融合进行增强。GeSite利用领域自适应的蛋白质语言模型和EGNN来准确预测蛋白质结合位点。USPDB采用U形等变图神经网络(U-EGNNet)结合子图采样来提取全局上下文信息,并利用通用等变Transformer(GET)模块来捕捉局部结构细节。
尽管这些方法取得了显著进展,但在蛋白质-DNA结合位点预测中有效整合序列和结构信息仍然是一个主要挑战。一些基于结构的方法结合序列信息来初始化蛋白质特征,但节点表示的后续更新仍然主要由结构数据指导。此外,无论架构差异如何,基于结构和基于序列的方法都基本上依赖于特征工程来获得稳健的性能。这些特征根据来源分为两类:(1)手工制作的特征(例如,物理化学序列属性、One-hot编码、PSSM、HHM等)和(2)来自预训练蛋白质语言模型的嵌入(例如,ProtTrans(Elnaggar等人,2022)、ESM(Rives等人,2021、Lin等人,2023、ESM团队,2024、Hayes等人,2025)等)。融合多源特征的主要方法是直接连接,尽管这种方法倾向于生成冗余信息并且容易受到噪声的影响。大量研究表明,深度学习模型可以通过注意力机制有效融合多源信息(Nguyen等人,2023;Wu等人,2024;Zhu等人,2024b;Zhu等人,2025),但它们在蛋白质-DNA结合预测中的应用仍然很大程度上未被探索。
为了解决这些挑战,我们提出了一种名为HGCTBind的新方法。具体来说,上下文自适应特征融合模块动态地将手工制作的特征与预训练的蛋白质语言模型嵌入相结合。然后,我们设计了一种混合架构,结合了GCNII和Transformer模块来捕获蛋白质表示中的结构和序列信息。此外,我们在模型训练过程中使用了加权焦点损失函数来缓解类别不平衡问题。通过在基准数据集上的系统测试,HGCTBind的性能优于所有基于序列或结构的方法。可解释性分析证实,特征融合可以通过利用各种特征之间的互补关系来提高特征表示的质量。值得注意的是,所提出的特征融合策略在九种架构中表现出一致且稳健的性能,并且在应用于六种其他ProtTrans模型嵌入时也显示出强大的能力,突显了其适应性和广泛的应用性。此外,HGCTBind在扩展到其他配体结合预测任务时也保持了有竞争力的性能。

数据集描述

为了评估HGCTBind,我们使用了之前研究中常用的五个蛋白质-DNA结合位点数据集:Train-573、Test-129、Test-181、Train-335和Test-52。具体来说,Train-573和Test-129来自GraphBind(Xia等人,2021),Test-181来自GraphSite(Yuan等人,2022),Train-335和Test-52来自TargetS(Yu等人,2013)。补充表S1提供了基准数据集的详细信息。

HGCTBind的工作流程

图1表明HGCTBind包含三个不同的组件:

与其他方法的性能比较

为了证明我们提出的方法HGCTBind的优越性能,我们在Test-129和Test-181上与九种代表性的基于序列或结构的方法进行了全面比较,包括COACH-D(Wu等人,2018)、GraphBind(Xia等人,2021)、Graphsite(Yuan等人,2022)、ULDNA(Zhu等人,2024a)、PDANPred(Zhang和Liu,2024)、EQUIPNAS(Roche等人,2023)、EGPDI(Zheng等人,2024)、GeSite(Zeng等人,2025a)和USPDB(Mi等人,2025)。如表2所示,

结论

在这项工作中,我们提出了HGCTBind,这是一种基于可解释和上下文自适应特征融合的混合架构,用于准确识别DNA结合位点。通过与多个基准数据集上的几种代表性基于序列或结构的方法进行比较,HGCTBind取得了优异的性能。消融研究表明,HGCTBind的强大性能主要源于两个因素:(1)特征融合模块有效地整合了ESMC、Prot5和手工制作的特征

数据和代码可用性

数据和代码可在https://github.com/Gwt-TTT/HGCTBind获取。

CRediT作者贡献声明

陈俊凡:写作——审阅与编辑、可视化。卢克汉:写作——审阅与编辑、可视化。龚文涛:写作——审阅与编辑、原始草稿撰写、可视化、验证、方法论、概念化。张飞凡:写作——审阅与编辑、监督、资源管理、项目协调。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

感谢中国农业大学团队的成员在这项工作中的友好帮助。这项研究没有外部资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号