ModiCal：一种用于纳米孔直接RNA测序中位点特异性m5C验证的靶向校准工作流

《ACS Chemical Biology》：ModiCal: A Targeted Calibration Workflow for Site-Specific m5C Validation by Nanopore Direct RNA Sequencing

【字体：大中小】 时间：2026年05月20日 来源：ACS Chemical Biology 3.8

编辑推荐：

　　准确识别单核苷酸分辨率的RNA 5-甲基胞嘧啶（m5C）是纳米孔直接RNA测序（DRS）中的核心挑战。现有的全局扫描和修饰感知碱基识别方法可实现转录组范围的检测，但往往假阳性率高，缺乏位点特异性准确性。为此，研究人员将原本用于从头多修饰分类的工具ModiDeC

准确识别单核苷酸分辨率的RNA 5-甲基胞嘧啶（m5C）是纳米孔直接RNA测序（DRS）中的核心挑战。现有的全局扫描和修饰感知碱基识别方法可实现转录组范围的检测，但往往假阳性率高，缺乏位点特异性准确性。为此，研究人员将原本用于从头多修饰分类的工具ModiDeC改造为针对已有生化证据支持的RNA修饰位点的高精度靶向验证工具，并通过三步校准工作流实现：首先以酿酒酵母25S rRNA中已明确表征的m5C2278位点为基础，使用携带甲基化或未修饰C2278的短链合成RNA作为基准训练集，随后利用体外转录（IVT）衍生的信号进行校准，并在甲基转移酶敲除酵母中进行验证。基准模型可准确识别真实的m5C2278位点，但初期存在脱靶预测。通过反复加入未修饰IVT信号进行再训练，逐步减少并最终消除假阳性，同时保持真实位点的强信号。最终模型在野生型和敲除酵母中保留了酶依赖性检测能力，并能显式靶向检测到第二个rRNA位点C2870，该位点在初始分析中不可见。将该流程应用于人源前体rRNA加工中间体，解析出28S rRNA上的两种不同m5C沉积模式；推广至登革病毒基因组RNA则证实该校准逻辑可在多种RNA背景下迁移适用。该研究建立了一个可重复、可迁移的框架，将生化验证与神经网络迭代优化相结合，为纳米孔直接RNA测序中可靠的位点特异性m5C确认提供了可行路径。

本研究由研究人员发表于《ACS Chemical Biology》，聚焦于解决纳米孔直接RNA测序（DRS）中RNA 5-甲基胞嘧啶（m⁵C）检测的假阳性率高、位点特异性不足的问题。当前主流检测方法如亚硫酸氢盐测序存在化学处理导致的RNA降解与不完全转化之间的权衡，抗体富集法缺乏单核苷酸分辨率，现有计算工具在m⁵C检测中表现尤其不佳，难以区分真实修饰信号与背景变异。为此，研究人员基于已有的多修饰分类神经网络ModiDeC，构建了名为ModiCal的靶向校准工作流，通过基准训练、批量假阳性抑制、迭代单点校准三个环节，实现了在酵母25S rRNA中对两个已知m⁵C位点的精准检测与酶依赖性验证。该方法进一步在人类pre-rRNA加工过程中揭示出两个保守m⁵C位点具有不同的沉积动力学模式，并可推广至病毒RNA检测，为高精度位点特异性修饰验证提供了通用框架。

关键技术方法方面，研究人员采用三步校准策略：第一步，基于合成RNA构建甲基化与未修饰的基准训练集；第二步，引入体外转录（IVT）产生的未修饰信号进行批量假阳性抑制；第三步，针对剩余假阳性位点逐一迭代校准。实验样本包括酿酒酵母野生型及Rcm1、Nop2甲基转移酶敲除株系，人源pre-rRNA加工中间体，以及登革病毒基因组RNA。测序数据来自纳米孔DRS平台，使用RNA004化学试剂，并配合ModiDeC神经网络框架完成信号特征提取与分类。

研究结果部分，首先在基准模型性能评估中发现，仅依靠局部序列的合成基准训练虽可识别目标m⁵C2278位点，但假阳性数量高达35个，且无法检测到同分子上的第二个已知位点m⁵C2870，表明模型尚未形成对不同位点的泛化能力。随后，研究人员通过批量引入IVT来源的未修饰信号，成功将假阳性数减少90%以上，并将真实位点m⁵C2278的检测频率提升至约76%。在此基础上，通过三轮迭代单点校准，彻底清除残余假阳性，同时在合成滴定实验中验证了模型的定量准确性（相关系数r=0.99）。在双位点校准阶段，模型在野生型酵母中同时检测到C2278与C2870，且在对应甲基转移酶敲除株中分别丧失信号，显示出严格的酶依赖性。与通用修饰感知碱基识别工具Dorado相比，ModiCal在保持真实位点检测的同时显著降低了假阳性负荷。进一步在人类28S rRNA的应用中，研究人员发现m⁵C4447在最早的47S初级转录本中已接近完全修饰，并在后续加工中维持高水平；而m⁵C3782则从早期中等水平逐步上升至成熟28S的高水平，揭示了两种不同的沉积动力学模式。

在讨论部分，研究人员指出ModiCal的核心优势在于通过靶向再训练主动塑造神经网络行为，而非依赖固定阈值过滤假阳性。这种策略在计算机视觉领域被称为硬负样本挖掘（hard-negative mining），在纳米孔信号分类中同样有效。研究还强调，合成与天然训练数据的结合可兼顾序列背景的复杂性与可控性，避免单一数据来源的偏差。ModiCal目前已实现对长达约10 kb RNA的无背景检测，适用于“先图谱后验证”的两级策略：先用全转录组工具筛选候选位点，再用校准模型进行高精度验证。研究结论表明，该工作流在多种生物体系中均具备可迁移性和定量可靠性，是当前RNA004化学条件下实现可靠位点特异性m⁵C检测的可行方案。

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯