TCN-5mC：基于多特征融合与时序卷积网络的5-甲基胞嘧啶位点预测新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Genetics》：TCN-5mC: a predictor of 5-methylcytosine sites based on multi-feature fusion and TCN-inspired block networks

【字体：大中小】 时间：2026年02月03日 来源：Frontiers in Genetics 2.8

编辑推荐：

　　本综述系统介绍了TCN-5mC这一创新深度学习模型，该模型通过融合时序卷积网络（TCN）与双向门控循环单元（BiGRU）架构，结合混合特征编码策略（One-Hot+NCP），在5-甲基胞嘧啶（5mC）位点预测领域实现突破。研究在肺癌细胞系不平衡数据集上验证显示，其AUC值达0.989，显著优于现有方法，为表观遗传学研究和生物标志物发现提供了高效计算工具。

引言

DNA甲基化异常是多种疾病的重要驱动因素，其与肝癌、肺癌、乳腺癌等多种癌症，以及阿尔茨海默病、帕金森病等神经退行性疾病密切相关。在众多表观遗传修饰中，5-甲基胞嘧啶（5^mC）作为DNA甲基化的主要形式，在基因表达调控、基因组稳定性维持等生物学过程中发挥核心作用。然而，传统的5^mC检测方法如亚硫酸氢盐测序等存在成本高、耗时长等局限性，促使计算预测工具的开发成为研究热点。

材料与方法

基准数据集构建

研究采用来自癌症细胞系百科全书（CCLE）的启动子5^mC位点数据集，针对人类小细胞肺癌（SCLC）和非小细胞肺癌（NSCLC）分别构建两个基准数据集。通过CD-HIT工具去除序列相似度高于80%的样本后，数据集1包含893,326条序列（正负样本比例1:11.8），数据集2包含1,335,158条序列（比例1:6.8）。所有序列统一截取为41bp长度，按8:2比例划分训练集与测试集。

特征编码策略

模型采用混合编码方案：One-Hot编码将四种碱基转换为4维向量，形成4×41特征矩阵；核苷酸化学性质（NCP）编码则基于碱基的环结构、化学功能基团和氢键强度三个化学特性，生成3×41矩阵。两者拼接后形成7×41的混合特征矩阵，为模型提供兼具序列信息和化学特性的输入特征。

模型架构设计

TCN-5mC模型包含五个核心模块：

1.
TCN启发模块：通过膨胀卷积和残差连接捕获长程依赖关系，其因果卷积特性确保位置预测仅依赖历史信息
2.
过渡层：包含核大小为1的卷积层和窗口为4的池化层，结合批归一化提升泛化能力
3.
BiGRU模块：双向处理序列，融合前后文信息学习序列模式
4.
注意力机制：并行通道注意力与空间注意力模块（CBAM）突出关键特征
5.
多层感知机（MLP）：最终使用全连接网络进行5^mC/非5^mC二分类

模型使用焦点损失函数处理样本不平衡问题，设置γ=2的聚焦参数和α=0.25的平衡因子。训练采用Adam优化器，初始学习率1×10^-3并应用余弦衰减策略。

结果与讨论

特征编码方法比较

在相同网络架构下，对比单一编码与混合编码的性能表现。结果显示，One-Hot+NCP混合编码在MCC指标上显著优于单一编码方法，在独立测试集上分别提升5.3%和1.8%。这表明化学特性的引入增强了模型对不平衡数据的处理能力。

消融实验分析

通过系统移除模型组件验证各模块贡献：

•
完整模型（TCNiB+TL+BiGRU）在MCC和AUC指标上全面领先
•
单独使用TCN启发模块（TCNiB+TL）在特异性方面表现最佳
•
TCN与BiGRU组合（TCNiB+BiGRU）则获得最高灵敏度

实验证实多模块协同可提取更高级别的特征表示。

训练集性能验证

采用20次重复的五折交叉验证显示，模型在两个数据集上均保持稳定性能。数据集1的灵敏度约0.7，特异性达0.95；数据集2性能更优，灵敏度0.86，特异性0.985，AUC接近0.99。箱线图分析表明模型具有强泛化能力。

与现有模型对比

在数据集1上，TCN-5mC的特异性（96.7%）、准确率（95.6%）、MCC（0.707）和AUC（0.967）均超越最新BERT-5mC等模型。在数据集2的独立测试中，相较BiLSTM-5mC模型，MCC提升3.9%达到0.845。特别值得注意的是，模型在不平衡数据环境下仍保持高特异性，避免了过拟合问题。

结论

TCN-5mC通过多特征融合和混合网络架构，实现了5^mC位点预测精度的显著提升。其TCN-BiGRU协同框架有效平衡了长程依赖捕获与局部特征提取，注意力机制则强化了关键特征的判别能力。模型在真实肺癌数据集上的优异表现，为表观遗传标志物发现和癌症机制研究提供了可靠的计算工具。未来工作可拓展至多癌种验证和多组学数据整合，进一步推动计算表观遗传学的发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号