《Frontiers in Genetics》:Bream: an open-source deep learning framework for simultaneous base calling and DNA methylation detection on novel nanopore sequencing platforms
编辑推荐:
本文开发了开源深度学习框架Bream,可在新型纳米孔测序平台(如启探科技QCell-384)上实现碱基识别(Base Calling)与DNA甲基化(5mC)检测的同步进行。该框架通过卷积神经网络(CNN)与反向长短期记忆网络(LSTM)结合完成碱基识别,并采用双向LSTM(BiLSTM)与注意力机制进行甲基化检测,在多种生物数据集上展现出与牛津纳米孔技术(ONT)R9.4平台相当的准确度(碱基识别准确率89.38%-91.83%,CpG甲基化频率与亚硫酸氢盐测序相关性r≥0.96)。研究为新兴纳米孔测序技术的开放创新提供了透明、可训练的计算工具。
引言
过去十年间,牛津纳米孔技术(ONT)推出的纳米孔测序平台以其长读长、实时检测DNA修饰和便携性著称。近年来,包括启探科技(Qitan Technology)在内的多家公司陆续推出新型纳米孔测序平台,旨在降低研究成本、拓宽应用场景并提升测序精度。然而,这些平台从蛋白质工程(如解旋酶、纳米孔蛋白)到碱基识别及修饰检测的计算算法开发流程仍较为封闭。纳米孔测序通过检测单链DNA/RNA分子穿过纳米孔时引起的电阻变化来生成电信号,其中序列信息和修饰信息并存。信号质量主要受两大因素影响:一是控制DNA穿过孔速率的解旋酶,二是决定孔内连续五个核苷酸对应电信号模式的纳米孔蛋白。尽管较低的解链速度可减少信号噪声,但也会降低测序通量。商业纳米孔芯片依赖解旋酶和纳米孔蛋白的特性以优化通量与精度。ONT通过持续改进二者结构,逐步提升测序精度——2018年推出的R9.4芯片平均准确度达90%,2022年推出的R10.4芯片进一步提升至97%。然而,其蛋白质设计细节与核心解码算法仍不公开。此外,高噪声信号下的碱基识别算法以及基于识别结果的甲基化检测算法开发是另一大挑战。ONT从早期的马尔可夫统计模型逐步发展为采用多种深度学习架构,推出MinKNOW、Guppy、Bonito和Dorado等碱基识别软件,其中Dorado已能同步检测序列与碱基修饰。与此同时,专为R9.4芯片与Guppy软件设计的甲基化检测工具(如DeepSignal、DeepSignal-plant、DeepMod)逐步升级为适配R10.4的DeepMod2、DeepBAM、DeepPlant,在算法性能、软件功能及可检测甲基化类型多样性上均有提升。尽管Dorado等工具可实现同步碱基与修饰识别,但其专有属性及与ONT化学体系的紧密集成限制了方法的公开发展。中国在纳米孔测序领域尚处早期阶段,具有较大成长潜力。随着启探科技等国内企业的崛起,国内在解旋酶、纳米孔蛋白设计及碱基识别方法上逐步补齐短板。本研究开发的开源框架Bream,旨在利用新型纳米孔测序平台原始信号实现同步碱基识别与DNA甲基化检测,推动测序技术的开放创新。
蛋白筛选与原始测序信号统计
为缓解多核苷酸快速穿膜导致的信号识别困难,研究团队通过随机氨基酸突变对Pif1样解旋酶进行工程化改造,在其关键结构域(包括塔域E264-P278、N296-A394,针域K89-E105,以及1A域M1-L88、M106-V181)引入半胱氨酸残基与非天然氨基酸,增强解旋酶与DNA结合并稳定转位速率在400 bp/s,与ONT R9.4流式细胞(450 bp/s)相当。同时,对源自假单胞菌CsgG/HfaB家族的纳米孔蛋白进行重构,将第69–76位氨基酸(KPTPASSF)突变为RPSPASAQ,提升结构刚性及核酸亲和性,增强电信号稳定性。联合优化的解旋酶与孔蛋白使测序碱基识别准确度接近90%,甲基化检测与亚硫酸氢盐测序(BS-seq)相关性≥96%,性能媲美ONT R9.4平台。
原始电信号分析显示,DNA结合状态信号在100–200 pA区间波动,局部信号不稳定()。通过对四种标准碱基(A、C、G、T)周围信号进行归一化及t-SNE降维可视化,发现不同碱基信号呈部分可分簇,但因噪声重叠显著,传统统计方法难以稳健识别。进一步比较果蝇全甲基化(YF6418)与全非甲基化(YF6419)数据集的CpG位点信号特征(电流信号、碱基质量、停留时间),发现甲基化样本在电流信号上差异明显,但噪声仍阻碍传统技术可靠区分甲基化状态,这促使采用深度学习模型进行同步碱基识别与甲基化检测。
Bream框架概述
Bream为开源深度学习框架,集成完整工作流,从原始信号处理至输出序列数据与甲基化状态。其核心包含两部分:基于卷积神经网络(CNN)与反向长短期记忆网络(LSTM)的碱基识别模块(),以及基于双向LSTM(BiLSTM)与注意力机制的甲基化检测模块。该设计实现从输入到输出的无缝流程,提升基因组数据集成分析能力。
Bream在新纳米孔测序平台上的碱基识别评估
使用拟南芥、水稻及果蝇(甲基化与非甲基化)数据集对Bream进行系统评估。Bream模型在所有测试数据集上均实现高效碱基识别。数据集质量评估显示,拟南芥数据质量最高(读段通过率63.67%,碱基通过率84.17%),水稻数据质量较低(读段通过率49.79%,碱基通过率71.21%)。读段质量分布显示存在部分低质量读段(平均质量值0-2)。通过minimap2将平均碱基质量≥10的读段与参考基因组比对,提取比对精度:拟南芥最高(91.83%),YF6418样本最低(89.38%)。错误率、缺失率、插入率及错配率分析表明纳米孔测序错误率在8%-10%之间()。使用Merqury评估组装序列准确性,发现组装质量与比对精度在各数据集间具有相关性。
Bream甲基化识别模型评估
在果蝇数据集上训练甲基化识别模型,评估显示ROC曲线下面积(AUC)达98.35%,PR曲线下面积98.79%,精确度、召回率与F1分数分别为96.79%、93.88%与95.31。进一步使用拟南芥与水稻叶片DNA样本,以亚硫酸氢盐测序数据为金标准,对CpG位点进行二分类评估:拟南芥准确度、召回率与F1分数分别为94.81%、92.74%与94.70%;水稻分别为97.38%、97.33%与97.38%,表明Bream甲基化模型具备单分子CpG甲基化检测强能力。在全基因组水平,Bream甲基化预测与BS-seq甲基化频率的相关性随测序深度增加而提升,在15×覆盖度后趋于稳定。热图显示拟南芥(N=5,488,306)与水稻(N=29,503,269)数据集中Bream预测与BS-seq高度一致(Pearson相关系数分别为0.974与0.977),且Bream可覆盖更多CpG位点。
纳米孔测序噪声对碱基识别与甲基化检测的干扰
测序信号质量对碱基识别精度至关重要。高噪声区域(信号波动大)降低读段可靠性,影响甲基化检测。Bream输出数据过滤(平均质量值<10的读段被剔除)后,读段错误率分布显示拟南芥错误率较低,而经甲基转移酶处理的果蝇数据集YF6418错误率略高,提示甲基化可能影响测序精度。碱基质量值与错误率关系分析表明,质量分超过25时错误率接近零。甲基化预测精度随错误率升高而下降:错误率<0.1时预测精度高,>0.25时精度显著降至约70%。不同错误率区间ROC曲线显示,低错误率(0-0.05)下AUC近1,错误率≥0.3时AUC降至0.79,表明高错误率显著降低甲基化预测准确性()。
讨论
Bream作为新型纳米孔测序平台上同步碱基识别与DNA甲基化检测的开源深度学习框架,性能稳健(比对错误率≤10%,CpG甲基化检测与BS-seq相关性≥0.96),填补了现有工具(如ONT的Guppy、Dorado)虽逐步从统计模型演进为深度学习架构但模型、训练数据与决策机制仍不公开的空白。Bream的透明、可训练、可适配特性有助于终端碱基识别与甲基化检测流程的定制化开发,尤其对非CpG甲基化(如CHG、CHH)、RNA修饰(如m6A)或化学损伤诱导DNA加合物检测等多任务场景具有拓展潜力。尽管Bream性能与ONT R9.4相当,当前启探科技平台的信号质量仍受生化与工程因素限制,未来需通过理性设计或AI驱动优化解旋酶与纳米孔蛋白以提升信号分辨率。计算层面,引入Transformer架构可更有效建模信号轨迹中的长程依赖,超越RNN/LSTM性能。此外,将Bream扩展至多修饰类型(如5hmC、6mA)检测将增强其在表观基因组研究中的实用性。总之,Bream通过实现同步碱基识别与甲基化检测,为长读长测序分析设定了灵活、透明与高性能的新标准,其持续改进(硬件蛋白设计与软件模型创新)将推动便携实时测序技术的全面发展。
方法
重组Pif1样解旋酶与突变孔蛋白在BL21(DE3)细胞中表达纯化:解旋酶采用FPLC纯化,孔蛋白通过Ni-NTA亲和色谱分离。碱基识别数据提取包括信号无效段剔除、中位数绝对偏差(MAD)归一化、数据分段(6000 bp,重叠500 bp)及低覆盖区过滤。Bream框架含六大计算模块:信号预处理、碱基识别、CTC解码、一致序列组装、FASTQ质量值转换写入与甲基化检测。碱基识别模块采用五层CNN接五层BiLSTM,通过CTC解码器输出序列;训练使用多物种合成数据,优化器为AdamW,混合精度加速。甲基化检测模块整合序列特征(21碱基窗口单热编码)与原始信号特征,经BiLSTM与注意力机制加权后输出甲基化(Pm)与非甲基化(Pum)概率;训练使用果蝇全甲基化与非甲基化数据集,Adam优化器。评估方面,碱基识别通过minimap2比对与Merqury组装质量分析;甲基化检测通过ROC/PR曲线及Pearson相关系数(ρX,Y= Cov(X,Y)/(σXσY))衡量与BS-seq一致性。