Coral:基于双重上下文感知的纳米孔直接RNA测序碱基识别器显著提升转录组分析精度

《Nature Communications》:A dual context-aware basecaller for nanopore direct RNA sequencing

【字体: 时间:2026年01月22日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对纳米孔直接RNA测序(DRS)碱基识别错误率高的技术瓶颈,开发了基于Transformer编码器-解码器架构的双重上下文感知碱基识别工具Coral。该工具通过同步捕捉信号级和序列级上下文依赖关系,在人类RNA样本上相比Dorado碱基识别器准确率提升最高达6.17%,多物种测试平均中位读长准确率约97%,RNA004数据达99.52%。显著提升了转录亚型发现(增加26%)、单核苷酸多态性分型(增加36%)和单倍型定相(降低78.8%切换错误)的精度,为全长转录本分析和表观转录组学研究提供了关键技术支撑。

  
在转录组学研究领域,科学家们一直致力于揭示基因表达的复杂调控机制。传统的高通量RNA测序方法虽然广泛应用,但其依赖cDNA合成和扩增的过程会引入偏好性,且无法保留天然RNA修饰信息。纳米孔直接RNA测序(DRS)技术的出现打破了这一局限,它能够直接对RNA分子进行测序,不仅避免了逆转录带来的偏差,还能完整保留RNA修饰信息,为表观转录组学研究开辟了新途径。然而,这项技术面临着一个严峻挑战:较高的碱基识别错误率成为制约其广泛应用的主要瓶颈。
当前主流的碱基识别工具大多基于连接主义时间分类(CTC)架构,这种架构在解码时假设输出符号之间条件独立,限制了模型捕捉序列上下文依赖关系的能力。特别是在处理RNA分子时,其与DNA在结构上的差异、化学修饰的存在、二级结构的复杂性以及更慢的纳米孔易位速度,都对碱基识别精度提出了更高要求。如何突破现有技术的局限,开发出能够同时利用信号和序列双重上下文信息的碱基识别方法,成为该领域亟待解决的关键科学问题。
针对这一挑战,深圳大学谢少辉、丁璐璐等研究人员在《Nature Communications》上发表了题为"A dual context-aware basecaller for nanopore direct RNA sequencing"的研究论文,提出了名为Coral的创新性碱基识别工具。该研究团队设计了一种基于Transformer的编码器-解码器架构,通过双重注意力机制(自注意力和交叉注意力)实现了信号级和序列级上下文依赖关系的同步建模。Coral的核心创新在于其自回归解码器能够以前一个已解码碱基为条件预测当前碱基,从而突破了传统CTC方法的条件独立性假设限制。
在技术方法层面,研究团队构建了包含卷积神经网络和Transformer的混合编码器处理原始电信号,同时设计了具有因果自注意力和交叉注意力机制的解码器。通过引入单调对齐正则化损失函数,确保信号与序列对齐的生物学合理性。研究还开发了两种工作模式:默认的单碱基预测模式保证最高精度,FAST模式通过同时预测多个碱基优化吞吐量。模型训练使用了来自人类、拟南芥、小鼠等多个物种的纳米孔DRS数据,并在独立测试集上进行了系统验证。
研究团队在多个维度验证了Coral的性能表现。在碱基识别准确性方面,Coral在六种代表性物种的RNA001/002测试数据集上实现了约97%的平均中位读长准确率,显著优于Guppy、RODAN、GCRTcall和Dorado等主流工具。特别是在最新的RNA004化学试剂盒数据上,Coral达到了99.52%的中位准确率,将C/U错误率从RNA001/002的约1%降低至0.25%。值得注意的是,Coral在长短同聚物识别方面都表现出色,且随着读长增加,其准确性优势更加明显。
转录亚型发现与分析的结果显示,Coral在三个独立的人类细胞系数据集(A549、HCT116和NA12878)上均能识别出更多的注释转录亚型。与Dorado相比,Coral发现了额外26%的注释转录本,其中许多低丰度转录本通过Illumina短读长数据得到了验证。在剪接点识别方面,基于Coral结果的ESPRESSO分析获得了最高的精确度和召回率,表明其碱基识别质量显著提升了转录本结构的解析能力。
研究团队进一步通过 Spike-In RNA Variant(SIRV)实验评估了转录本定量准确性。Coral不仅检测到的SIRV转录本数量最多,其表达量估计与已知输入浓度也显示出最高的相关性(Pearson和Spearman相关系数)。在融合基因检测方面,Coral在MCF-7癌细胞系中成功识别出了所有12个经实验验证的融合基因,检测性能显著优于其他工具。
等位基因特异性表达(ASE)分析表明,基于Coral结果在NA12878数据集中鉴定出了269个显著ASE基因,远超其他碱基识别器。单倍型定相分析进一步证明,Coral能够将切换错误和汉明错误分别降低高达78.8%和76%,同时多分型36%的单核苷酸多态性(SNP),为疾病相关基因的单倍型分析提供了更完整的数据支持。
通过模拟实验,研究团队还系统评估了测序准确性对下游分析的影响。发现当碱基识别准确率达到95%左右时,各项分析任务的性能会出现显著提升,而Coral已经接近这一最优性能阈值,表明其能够有效提取绝大多数转录组和基因组信息。
在计算效率方面,虽然基于自回归解码的Coral在理论复杂度上高于CTC方法,但通过FlashAttention、键值缓存等技术优化,其FAST模式在RNA004数据上实现了4倍加速,且精度损失可忽略不计,在实际应用中提供了精度与效率的良好平衡。
该研究的结论部分强调,Coral通过创新的双重上下文感知架构,有效解决了纳米孔DRS技术中碱基识别错误率高的核心问题。其开源特性使科研人员能够根据特定应用场景定制模型,突破了商业碱基识别器的"黑箱"限制。值得注意的是,Coral在RNA004化学试剂盒上的卓越表现,预示着其能够很好地适应纳米孔测序技术的持续演进。
研究人员在讨论中指出,尽管通过计算和正交验证进行了严格评估,但本研究依赖公共数据集的特点意味着缺乏直接的实验验证,这将是后续研究的重要方向。同时,Coral的实现还可以在模型量化、知识蒸馏和硬件加速等特定应用场景中进一步优化,以显著降低计算开销。
这项研究的重要意义在于,它不仅提供了一个高性能的纳米孔DRS碱基识别工具,更重要的是展示了对测序数据进行更精细解读的可能性。Coral在转录亚型发现、等位基因特异性表达分析和单倍型定相等方面的显著提升,为研究基因表达调控机制、疾病相关变异等前沿科学问题提供了强有力的技术支撑。随着纳米孔测序技术在临床诊断和精准医疗中的应用日益广泛,诸如Coral此类高精度分析工具的开发将推动转录组学研究进入新的发展阶段。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号