基于DNABERT与多模块注意力机制的转录因子结合位点深度学习预测框架TFBS-Finder

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：A DNABERT based deep learning framework for predicting transcription factor binding sites

【字体：大中小】 时间：2026年02月04日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对转录因子结合位点(TFBSs)预测精度不足的难题，开发了融合预训练语言模型DNABERT、卷积神经网络(CNN)、改进卷积注意力模块(MCBAM)与多尺度注意力模块(MSCA)的深度学习框架TFBS-Finder。该模型在165个ENCODE ChIP-seq数据集上验证显示预测性能显著优于现有方法，并通过可视化分析增强结果可解释性，为解析基因调控网络提供新工具。

在细胞生命活动的精密调控网络中，转录因子(Transcription Factor)如同精准的分子开关，通过结合特定DNA序列——转录因子结合位点(Transcription Factor Binding Sites, TFBSs)——来启动或抑制基因表达。这些结合位点通常隐藏在基因启动子(promoter)区域的DNA序列中，其精准定位是破译基因调控密码的关键。然而，由于DNA序列的复杂性和结合位点模式的多样性，传统计算方法往往难以实现高精度预测。尽管深度学习模型已在该领域取得进展，但如何同时捕捉DNA序列的长期依赖关系和局部特征仍是亟待突破的瓶颈。

为攻克这一难题，研究团队在《Scientific Reports》上发表了题为“A DNABERT based deep learning framework for predicting transcription factor binding sites”的研究论文，提出了名为TFBS-Finder的创新解决方案。该研究巧妙地将自然语言处理领域的预训练技术引入基因组学分析，通过多模块协同的深度学习架构，实现了TFBSs预测精度的重要提升。

研究采用的核心技术方法包括：基于165个ENCODE（百科全书DNA元件计划）ChIP-seq（染色质免疫沉淀测序）数据集进行模型训练与验证；使用预训练DNABERT模型进行DNA序列嵌入以捕获长程依赖；结合卷积神经网络提取局部特征；引入改进型卷积注意力模块(MCBAM)和多尺度注意力模块(MSCA)增强特征表达能力；通过消融实验和跨细胞系验证评估模型鲁棒性。

模型架构设计

研究团队构建的TFBS-Finder模型包含五个核心组件：预训练DNABERT负责将DNA序列转化为蕴含上下文信息的向量表示；卷积神经网络模块专注于局部模式识别；改进的卷积注意力模块(MCBAM)通过通道与空间注意力机制突出关键特征；多尺度注意力模块(MSCA)利用不同尺寸卷积核捕获多维度特征；输出模块整合所有特征进行最终预测。这种分层设计使模型既能理解DNA序列的“语法结构”，又能精准识别局部“语义模式”。

性能验证结果

在165个ENCODE ChIP-seq数据集上的测试表明，TFBS-Finder在多项指标上显著优于基线模型。消融实验证实各模块均对性能提升有实质性贡献：移除DNABERT导致长程依赖捕获能力下降；取消注意力模块后局部特征选择性减弱；多尺度卷积的缺失则影响不同粒度特征的融合效果。跨细胞系验证进一步显示模型具有良好的泛化能力，在不同细胞环境下均保持稳定预测性能。

可视化分析洞察

通过注意力权重可视化，研究人员成功解读了模型决策依据，发现高权重区域与已知转录因子结合模序高度吻合。这种可解释性分析不仅验证了模型可靠性，更为发现新型结合模式提供了线索。例如，在某些调控区域，模型识别出与传统模序预测不一致但实验验证有效的新位点，提示存在尚未被认知的结合规律。

本研究通过深度融合预训练语言模型与注意力机制，建立了TFBS预测的新范式。TFBS-Finder框架在保持高精度的同时具备良好可解释性，其开源发布（https://github.com/NimishaGhosh/TFBS-Finder）将促进基因组学领域的方法学创新。该研究不仅为解析基因调控网络提供了强大工具，更展示了预训练模型在生物序列分析中的巨大潜力，为深度学习在计算生物学中的应用开辟了新方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号