《Frontiers in Genetics》:TCN-5mC: a predictor of 5-methylcytosine sites based on multi-feature fusion and TCN-inspired block networks
编辑推荐:
本综述系统介绍了TCN-5mC这一创新深度学习模型,该模型通过融合时序卷积网络(TCN)与双向门控循环单元(BiGRU)架构,结合混合特征编码策略(One-Hot+NCP),在5-甲基胞嘧啶(5mC)位点预测领域实现突破。研究在肺癌细胞系不平衡数据集上验证显示,其AUC值达0.989,显著优于现有方法,为表观遗传学研究和生物标志物发现提供了高效计算工具。
引言
DNA甲基化异常是多种疾病的重要驱动因素,其与肝癌、肺癌、乳腺癌等多种癌症,以及阿尔茨海默病、帕金森病等神经退行性疾病密切相关。在众多表观遗传修饰中,5-甲基胞嘧啶(5mC)作为DNA甲基化的主要形式,在基因表达调控、基因组稳定性维持等生物学过程中发挥核心作用。然而,传统的5mC检测方法如亚硫酸氢盐测序等存在成本高、耗时长等局限性,促使计算预测工具的开发成为研究热点。
材料与方法
基准数据集构建
研究采用来自癌症细胞系百科全书(CCLE)的启动子5mC位点数据集,针对人类小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)分别构建两个基准数据集。通过CD-HIT工具去除序列相似度高于80%的样本后,数据集1包含893,326条序列(正负样本比例1:11.8),数据集2包含1,335,158条序列(比例1:6.8)。所有序列统一截取为41bp长度,按8:2比例划分训练集与测试集。
特征编码策略
模型采用混合编码方案:One-Hot编码将四种碱基转换为4维向量,形成4×41特征矩阵;核苷酸化学性质(NCP)编码则基于碱基的环结构、化学功能基团和氢键强度三个化学特性,生成3×41矩阵。两者拼接后形成7×41的混合特征矩阵,为模型提供兼具序列信息和化学特性的输入特征。
模型架构设计
TCN-5mC模型包含五个核心模块:
- 1.
TCN启发模块:通过膨胀卷积和残差连接捕获长程依赖关系,其因果卷积特性确保位置预测仅依赖历史信息
- 2.
过渡层:包含核大小为1的卷积层和窗口为4的池化层,结合批归一化提升泛化能力
- 3.
BiGRU模块:双向处理序列,融合前后文信息学习序列模式
- 4.
注意力机制:并行通道注意力与空间注意力模块(CBAM)突出关键特征
- 5.
多层感知机(MLP):最终使用全连接网络进行5mC/非5mC二分类
模型使用焦点损失函数处理样本不平衡问题,设置γ=2的聚焦参数和α=0.25的平衡因子。训练采用Adam优化器,初始学习率1×10-3并应用余弦衰减策略。
结果与讨论
特征编码方法比较
在相同网络架构下,对比单一编码与混合编码的性能表现。结果显示,One-Hot+NCP混合编码在MCC指标上显著优于单一编码方法,在独立测试集上分别提升5.3%和1.8%。这表明化学特性的引入增强了模型对不平衡数据的处理能力。
消融实验分析
通过系统移除模型组件验证各模块贡献:
- •
完整模型(TCNiB+TL+BiGRU)在MCC和AUC指标上全面领先
- •
单独使用TCN启发模块(TCNiB+TL)在特异性方面表现最佳
- •
TCN与BiGRU组合(TCNiB+BiGRU)则获得最高灵敏度
实验证实多模块协同可提取更高级别的特征表示。
训练集性能验证
采用20次重复的五折交叉验证显示,模型在两个数据集上均保持稳定性能。数据集1的灵敏度约0.7,特异性达0.95;数据集2性能更优,灵敏度0.86,特异性0.985,AUC接近0.99。箱线图分析表明模型具有强泛化能力。
与现有模型对比
在数据集1上,TCN-5mC的特异性(96.7%)、准确率(95.6%)、MCC(0.707)和AUC(0.967)均超越最新BERT-5mC等模型。在数据集2的独立测试中,相较BiLSTM-5mC模型,MCC提升3.9%达到0.845。特别值得注意的是,模型在不平衡数据环境下仍保持高特异性,避免了过拟合问题。
结论
TCN-5mC通过多特征融合和混合网络架构,实现了5mC位点预测精度的显著提升。其TCN-BiGRU协同框架有效平衡了长程依赖捕获与局部特征提取,注意力机制则强化了关键特征的判别能力。模型在真实肺癌数据集上的优异表现,为表观遗传标志物发现和癌症机制研究提供了可靠的计算工具。未来工作可拓展至多癌种验证和多组学数据整合,进一步推动计算表观遗传学的发展。