综述:纳米孔RNA测序中的先进深度学习策略

《RNA Biology》:Advanced deep learning strategies in nanopore RNA sequencing

【字体: 时间:2026年02月17日 来源:RNA Biology 3.4

编辑推荐:

  这篇综述聚焦于人工智能(AI)与纳米孔直接RNA测序在表征RNA表观转录组(epitranscriptome)方面的前沿交叉领域。文章系统总结了从传统CNN/RNN到多实例学习、迁移学习、集成学习等先进深度学习策略如何应对数据稀缺、噪声和生物学变异性等挑战,为在单分子分辨率上同时分析多种RNA修饰(如m6A、m5C)提供了强大的计算工具,并探讨了其在疾病生物标志物发现和治疗靶点开发中的应用前景。

  
综述:纳米孔RNA测序中的先进深度学习策略
1. 引言
表观转录组由超过170种化学修饰构成,它们在转录中及转录后调控RNA代谢的方方面面,包括稳定性、剪接、转运和翻译。当这些修饰失调时,会损害细胞功能并导致疾病的发生,例如癌症、代谢性疾病、心血管疾病和精神障碍。因此,它们作为新兴的诊断生物标志物和治疗靶点引起了广泛兴趣。
纳米孔直接RNA测序是第三代测序技术,它通过让天然RNA分子穿过纳米孔产生特征性离子电流信号,从而在单分子分辨率上同时分析多种RNA修饰。这些原始信号需要通过人工智能(AI)模型进行“碱基识别”(basecalling)来解读。由于化学修饰的核苷酸会产生与未修饰序列不同的电信号特征,RNA修饰可以从信号谱中推断出来。深度学习(DL)作为机器学习的一个子领域,使用多层神经网络直接从原始数据中自动学习分层表征,已发展成为解读复杂纳米孔信号的核心方法。
2. 深度学习流程与监督范式
大多数用于纳米孔信号分析的深度学习方法始于一个称为“重新弯曲”(resquiggling)或事件对齐的预处理步骤,它将原始离子电流信号在k-mer水平上对齐到参考序列,为各种信号分析(包括修饰检测)奠定了基础。
深度学习模型主要在监督半监督范式下训练。监督学习需要每个训练实例都有准确的真实标签,这些标签通常通过体外转录(IVT)、体内基因敲除/敲低(KO/KD)模型或正交的高通量测序(HTS)数据集获得。在完全标记的训练数据集稀缺的情况下,半监督训练则利用标记和未标记数据来提高模型的泛化能力和鲁棒性。
对于更复杂的生物研究,当真实标签常常无法获得时,弱监督策略被用来适应部分注释和噪声标签。例如,m6Anet利用从免疫沉淀实验获得的位点水平修饰标签来对读长水平信号进行建模。
3. 经典深度学习方法
经典的深度学习架构包括卷积神经网络(CNN)、循环神经网络(RNN)及其变体(如LSTM、GRU)、自编码器以及Transformer。其中,CNN和RNN架构在碱基识别后分析模型开发中应用最为广泛:CNN能有效捕获k-mer上下文中的局部电流波动,而RNN则擅长对离子电流迹线的序列依赖性进行建模。
与早期在体外合成RNA上训练的方法不同,DENA在野生型和m6A缺陷的体内转录RNA(来自拟南芥模型)上进行训练,使其能够捕捉自然修饰化学计量下的信号偏差。它采用双向长短期记忆网络(BiLSTM)来对候选位点上下游信号的上下文和序列依赖性进行建模。
深度学习模型也被开发用于识别非经典核苷酸类似物,例如用于追踪新生转录的5-乙炔基尿苷(5-EU)。RNAkinet是一个深度学习框架,采用混合CNN-RNN架构来区分5-EU标记的新生转录本和成熟的预先存在的分子,从而在单分子水平上量化异构体特异性的半衰期和代谢动力学。
4. 专业化学习框架
为了克服数据稀缺、部分标记数据以及跨不同修饰类型或物种的稳健泛化等挑战,多种专业化深度学习范式应运而生。
  • 多实例学习(MIL):m6Anet应用MIL框架来检测m6A修饰位点。在MIL中,标签被分配给实例组(“包”),而不是单个实例。这允许模型从弱的组水平监督中学习,即使在没有明确的单分子注释的情况下也能推断修饰,并估计修饰的化学计量。
  • 深度单类分类:NanoDoc2采用基于WaveNet的CNN来代表纳米孔测序的原始离子电流迹线。该模型专门在未修饰的信号数据上训练,将修饰检测构建为异常检测任务,通过量化与基线信号的偏差来标记候选修饰位点,适用于新修饰位点的从头发现。
  • 迁移学习:TandemMod应用迁移学习来实现对多种RNA修饰类型(包括m6A、m5C、m1A等)的检测。该策略首先在较大的体外转录m5C数据集上预训练模型,然后用其他修饰的较小数据集进行微调,显著减少了所需训练数据和计算资源。
5. 集成深度学习策略
集成学习方法通过整合多个模型来减少过拟合,从而提高准确性和泛化能力。这对于样本量小、类别分布不平衡、数据噪声大或异质性高的生物信息学问题特别有效。
在监督集成学习中,三种最常见的策略是:
  • 装袋法(Bagging):多个模型独立并行训练于数据的不同子集,其预测被聚合以得出最终预测。
  • 提升法(Boosting):模型按顺序训练,每个后续模型专注于前一个模型错误分类或预测不佳的数据。
  • 堆叠法(Stacking):不同的基模型在同一数据集上训练,它们的预测结果作为元学习器的输入特征,由元学习器产生最终预测。
在病毒RNA修饰检测等应用中,病毒RNA读长短且丰度低,产生的信号噪声大、覆盖率低。混合权重神经装袋法通过集成两个互补的分类器来解决这一挑战:一个是从纳米孔信号中提取工程化描述符的基于特征的LightGBM模型,另一个是捕捉原始电流迹线序列依赖性的LSTM模型。两者通过装袋法训练,并使用神经网络分配优化权重进行整合,从而提高了从低丰度病毒RNA(如SARS-CoV-2)中识别m6A修饰的鲁棒性和准确性。
6. 未来方向
未来利用纳米孔测序进行RNA修饰检测的进展将取决于应对几个突出的挑战:
  1. 1.
    多重分析与异构体区分:需要对170多种化学修饰(其中许多结构高度相似)实现更高分辨率的多重分析。更先进的集成方法和专业化学习策略有望帮助解决当前局限。
  2. 2.
    标准化基准测试:许多研究缺乏标准化的基准测试和跨平台验证,难以确定“最先进”技术。需要标准化评估指标,并进行系统的头对头基准测试。
  3. 3.
    可解释模型:开发可解释模型,将预测与有意义的生物学特征(如信号特征或序列基序)联系起来,可增强计算预测的可信度并揭示新的生物学机制。
  4. 4.
    探索其他专业化范式多任务学习元学习课程学习等范式值得探索,以应对数据稀缺和上下文依赖的挑战。
  5. 5.
    单细胞分辨率的多重分析:在单细胞分辨率上对RNA修饰进行多重分析是一个激动人心的前沿领域。当前基于cDNA的方案无法捕获天然RNA修饰,而直接RNA测序的多重技术(如WarpDemux)仍受限于读长、条形码数量等因素,需要进一步发展。
7. 结论
纳米孔RNA测序与人工智能(AI)的结合开启了表观转录组学研究的新纪元。从基础深度学习架构到专业化的学习框架和集成策略,这些计算方法正在克服数据稀缺、信号噪声和生物学变异性的挑战,实现对多种RNA修饰在单分子分辨率上的精准分析。展望未来,通过推动多重分析、开发可解释模型、建立共识标准以及持续提升模型精度,这一交叉领域将不断深化我们对RNA生物学在健康和疾病中调控机制的理解,并加速新型生物标志物和治疗靶点的发现。人工智能与纳米孔测序的协同作用,正以前所未有的方式解锁RNA调控和功能的新维度。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号