ModiCal:一种用于纳米孔直接RNA测序中位点特异性m5C验证的靶向校准工作流

《ACS Chemical Biology》:ModiCal: A Targeted Calibration Workflow for Site-Specific m5C Validation by Nanopore Direct RNA Sequencing

【字体: 时间:2026年05月20日 来源:ACS Chemical Biology 3.8

编辑推荐:

  准确识别单核苷酸分辨率的RNA 5-甲基胞嘧啶(m5C)是纳米孔直接RNA测序(DRS)中的核心挑战。现有的全局扫描和修饰感知碱基识别方法可实现转录组范围的检测,但往往假阳性率高,缺乏位点特异性准确性。为此,研究人员将原本用于从头多修饰分类的工具ModiDeC

准确识别单核苷酸分辨率的RNA 5-甲基胞嘧啶(m5C)是纳米孔直接RNA测序(DRS)中的核心挑战。现有的全局扫描和修饰感知碱基识别方法可实现转录组范围的检测,但往往假阳性率高,缺乏位点特异性准确性。为此,研究人员将原本用于从头多修饰分类的工具ModiDeC改造为针对已有生化证据支持的RNA修饰位点的高精度靶向验证工具,并通过三步校准工作流实现:首先以酿酒酵母25S rRNA中已明确表征的m5C2278位点为基础,使用携带甲基化或未修饰C2278的短链合成RNA作为基准训练集,随后利用体外转录(IVT)衍生的信号进行校准,并在甲基转移酶敲除酵母中进行验证。基准模型可准确识别真实的m5C2278位点,但初期存在脱靶预测。通过反复加入未修饰IVT信号进行再训练,逐步减少并最终消除假阳性,同时保持真实位点的强信号。最终模型在野生型和敲除酵母中保留了酶依赖性检测能力,并能显式靶向检测到第二个rRNA位点C2870,该位点在初始分析中不可见。将该流程应用于人源前体rRNA加工中间体,解析出28S rRNA上的两种不同m5C沉积模式;推广至登革病毒基因组RNA则证实该校准逻辑可在多种RNA背景下迁移适用。该研究建立了一个可重复、可迁移的框架,将生化验证与神经网络迭代优化相结合,为纳米孔直接RNA测序中可靠的位点特异性m5C确认提供了可行路径。
本研究由研究人员发表于《ACS Chemical Biology》,聚焦于解决纳米孔直接RNA测序(DRS)中RNA 5-甲基胞嘧啶(m5C)检测的假阳性率高、位点特异性不足的问题。当前主流检测方法如亚硫酸氢盐测序存在化学处理导致的RNA降解与不完全转化之间的权衡,抗体富集法缺乏单核苷酸分辨率,现有计算工具在m5C检测中表现尤其不佳,难以区分真实修饰信号与背景变异。为此,研究人员基于已有的多修饰分类神经网络ModiDeC,构建了名为ModiCal的靶向校准工作流,通过基准训练、批量假阳性抑制、迭代单点校准三个环节,实现了在酵母25S rRNA中对两个已知m5C位点的精准检测与酶依赖性验证。该方法进一步在人类pre-rRNA加工过程中揭示出两个保守m5C位点具有不同的沉积动力学模式,并可推广至病毒RNA检测,为高精度位点特异性修饰验证提供了通用框架。
关键技术方法方面,研究人员采用三步校准策略:第一步,基于合成RNA构建甲基化与未修饰的基准训练集;第二步,引入体外转录(IVT)产生的未修饰信号进行批量假阳性抑制;第三步,针对剩余假阳性位点逐一迭代校准。实验样本包括酿酒酵母野生型及Rcm1、Nop2甲基转移酶敲除株系,人源pre-rRNA加工中间体,以及登革病毒基因组RNA。测序数据来自纳米孔DRS平台,使用RNA004化学试剂,并配合ModiDeC神经网络框架完成信号特征提取与分类。
研究结果部分,首先在基准模型性能评估中发现,仅依靠局部序列的合成基准训练虽可识别目标m5C2278位点,但假阳性数量高达35个,且无法检测到同分子上的第二个已知位点m5C2870,表明模型尚未形成对不同位点的泛化能力。随后,研究人员通过批量引入IVT来源的未修饰信号,成功将假阳性数减少90%以上,并将真实位点m5C2278的检测频率提升至约76%。在此基础上,通过三轮迭代单点校准,彻底清除残余假阳性,同时在合成滴定实验中验证了模型的定量准确性(相关系数r=0.99)。在双位点校准阶段,模型在野生型酵母中同时检测到C2278与C2870,且在对应甲基转移酶敲除株中分别丧失信号,显示出严格的酶依赖性。与通用修饰感知碱基识别工具Dorado相比,ModiCal在保持真实位点检测的同时显著降低了假阳性负荷。进一步在人类28S rRNA的应用中,研究人员发现m5C4447在最早的47S初级转录本中已接近完全修饰,并在后续加工中维持高水平;而m5C3782则从早期中等水平逐步上升至成熟28S的高水平,揭示了两种不同的沉积动力学模式。
在讨论部分,研究人员指出ModiCal的核心优势在于通过靶向再训练主动塑造神经网络行为,而非依赖固定阈值过滤假阳性。这种策略在计算机视觉领域被称为硬负样本挖掘(hard-negative mining),在纳米孔信号分类中同样有效。研究还强调,合成与天然训练数据的结合可兼顾序列背景的复杂性与可控性,避免单一数据来源的偏差。ModiCal目前已实现对长达约10 kb RNA的无背景检测,适用于“先图谱后验证”的两级策略:先用全转录组工具筛选候选位点,再用校准模型进行高精度验证。研究结论表明,该工作流在多种生物体系中均具备可迁移性和定量可靠性,是当前RNA004化学条件下实现可靠位点特异性m5C检测的可行方案。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号