《Nature Communications》:Genomic language model mitigates chimera artifacts in nanopore direct RNA sequencing
在转录组学研究领域,长读长RNA测序技术正在带来革命性变革,尤其是牛津纳米孔技术(Oxford Nanopore Technologies, ONT)的直接RNA测序(direct RNA sequencing, dRNA-seq)能够直接对全长RNA分子进行测序,保留天然RNA修饰信息,为RNA生物学研究提供了更准确全面的分析手段。然而,这项技术面临着一个长期被忽视的挑战:嵌合体假象(chimera artifacts)的存在严重影响了数据的可靠性,限制了其在转录本注释、基因融合检测等关键应用中的价值。
这些嵌合体假象究竟从何而来?先前研究表明,dRNA-seq可能会产生嵌合体假象,导致多重比对读段,但其普遍性、形成机制以及在现代测序化学如RNA004中的持续存在情况,在同行评议的文献中仍缺乏系统表征。这些假象可能源于文库制备过程中的连接反应或软件遗漏开放孔信号而产生的嵌合读段,进而干扰下游分析如转录组组装、定量以及选择性剪接和基因融合事件的检测。
更为棘手的是,检测这些嵌合体假象极具挑战性,因为长读长比对工具通常会对这类假象产生嵌合比对,与真实基因融合事件产生的比对结果难以区分。值得注意的是,嵌合体假象常常包含内部接头序列,这表明这些接头桥接的嵌合体理论上可以通过检测内部接头的存在而与生物学的嵌合体区分开来。然而,ONT dRNA-seq碱基识别器(basecaller)在RNA模型下难以正确识别这些基于DNA的接头序列,导致现有的接头检测工具无法利用这一特征来消除这些接头桥接的嵌合体,使得问题一直未能解决。
为应对这一未满足的需求,西北大学Feinberg医学院的研究团队开发了DeepChopper,这是一种专门用于长读长序列分析的基因组语言模型(genomic language model, GLM)。该研究发表于《Nature Communications》,通过分析现有和新生成的dRNA-seq数据,包括使用最新RNA004化学试剂的数据,揭示了嵌合体假象的普遍性,这是长读长测序领域先前被忽视的关键问题。
DeepChopper的创新架构与核心技术
DeepChopper利用长上下文基因组语言模型(long-context genomic language model, LCGLM)HyenaDNA,该模型擅长捕捉长距离依赖关系。为处理测序碱基质量信息,DeepChopper通过整合专用的质量块(quality block)扩展了其框架,该质量块是一个包含多个具有残差连接(residual connections)的多层感知机(multilayer perceptrons, MLPs)的神经网络。这一添加使得模型能够有效利用测序碱基质量,这是提高预测准确性的关键特征,特别是对于区分真正的接头序列与读段中自然出现的类似模体或低质量区域。
DeepChopper的轻量级架构仅包含460万个参数,使其在计算上高效且可扩展用于大规模dRNA-seq分析。与需要数十亿参数和更多计算资源的模型如Evo相比,DeepChopper展现了显著优势。该模型支持高达32千碱基的输入长度,足以涵盖大多数完整的mRNA转录本。这一扩展的输入能力,结合单核苷酸标记化(tokenization),使DeepChopper能够以碱基对精度准确识别非参考元素如ONT接头序列,这是检测和恢复dRNA-seq数据中接头桥接嵌合体的关键能力。
为了进一步提高预测准确性,DeepChopper实施了使用滑动窗口(sliding window)和多数投票(majority vote)方法的后处理阶段。该模型以步长为1的滑动窗口应用于读段,分析每个窗口内预测的接头位置分布。这种细化过程独立地对每个位置的初始预测进行操作,确保每个碱基的最终分类反映局部上下文的聚合,而没有错误传播。通过保持单核苷酸分辨率的精确边界检测,该策略确保预测的接头序列对应于生物学上合理的边界,从而能够将嵌合读段准确分割成其组成的子读段,同时最小化虚假碎片。
卓越性能验证与广泛应用价值
研究人员对DeepChopper进行了全面基准测试,与现有的ONT接头修剪工具包括Pychopper、Porechop和Porechop_ABI进行比较。性能评估使用合成测试数据集进行,结果显示,现有工具在处理dRNA-seq接头序列时表现出可忽略的性能指标,表明与dRNA-seq协议存在基本不兼容性。相比之下,DeepChopper在识别末端和内部接头方面实现了卓越的准确性,召回率(precision)、精确率(recall)和F1分数 consistently超过0.99。
为了评估DeepChopper在真实数据中检测嵌合体假象的能力,研究人员生成了独立的前列腺癌VCaP细胞系dRNA-seq数据集,该数据集被排除在模型训练之外。应用DeepChopper处理完整的VCaP数据集使可用读段产量增加了3%,产生9,357,913个接头修剪的读段。它识别了7,990,102个读段中的8,218,172个接头序列(占总数的87%),大多数长度约为70碱基对,与ONT的SQK-RNA002 dRNA-seq试剂盒中使用的RMX接头的预期长度一致。
对接头位置的分析显示,7,777,624个读段在3'端有接头,而148,452个包含内部接头,表明嵌合体假象在VCaP dRNA-seq数据中很常见。进一步检查显示,嵌合体假象可能源于多个长读段的连接,最常见的模式涉及两个读段通过单个内部接头连接。值得注意的是,研究人员还评估了ONT的Dorado碱基识别器修剪功能是否能减轻这些假象。然而,他们发现,仅使用Dorado,无论是否修剪,都不足以消除虚假的嵌合比对。相比之下,DeepChopper将不受支持的嵌合比对减少了约95%,并将cDNA支持的嵌合事件的比例从5.8%增加到48.7%,无论是在Dorado修剪之前还是之后应用。
为了进一步验证内部接头的假象性质,研究人员分析了它们的碱基质量分数,并使用类BLAST比对工具(BLAST-like alignment tool, BLAT)将它们与人类参考基因组进行比对。在嵌合体假象中识别的接头区域表现出较低的碱基质量(平均Q分数:9.96)和与参考基因组的较差序列一致性(平均BLAT一致性:0.36),支持它们的非人类和非生物学起源。
跨平台与跨物种验证的普适性
为了进一步评估DeepChopper在VCaP数据集之外的性能,研究人员跨不同生物系统和测序平台进行了多样本验证。他们首先分析了SG-NEx项目的dRNA-seq数据,比较了DeepChopper修剪前后的嵌合比对。DeepChopper在这些数据集中检测到0.67-1.25%的读段中存在内部接头,代表每个样本15,690-57,122个受影响的读段。关键的是,内部接头占各细胞系所有嵌合读段的63-85%,将接头桥接的假象识别为假RNA重排的主要来源。内部接头在所有测试细胞系中的系统性出现表明,接头桥接的嵌合体并非VCaP特有,而是dRNA-seq数据的普遍特征。
研究人员接下来将DeepChopper应用于人类WTC11诱导多能干细胞系,使用长读长RNA-Seq基因组注释评估项目(Long-read RNA-Seq Genome Annotation Assessment Project, LRGASP)的数据。该数据集包括使用多种协议跨ONT和Pacific Biosciences(PacBio)平台生成的基于cDNA的长读长测序,提供了一个稳健的基准测试资源。DeepChopper选择性地仅消除了那些不受任何基于cDNA方法支持的嵌合比对,进一步证明了其在区分真实嵌合体与技术假象方面的精确性。
为评估跨物种的普适性,研究人员将分析扩展到F121-9小鼠胚胎干细胞系,同样来自LRGASP数据集。DeepChopper可靠地移除了不受正交基于cDNA的测序平台支持的嵌合读段,确认了其适用于人类和非人类转录组。
重要的是,在所有数据集中,DeepChopper consistently优于仅使用ONT的Dorado接头修剪,即使作为后处理步骤应用,也突出了其在嵌合体假象校正中的独特和附加效用。
RNA004化学试剂中嵌合体假象的持续存在
最近,ONT发布了新的SQK-RNA004化学试剂用于dRNA-seq,但尚不清楚嵌合体假象是否随着这一更新而持续存在。为进行调查,研究人员使用这种更新的化学试剂从VCaP细胞系生成了新数据。他们首先在零样本设置下应用DeepChopper以评估跨化学试剂的泛化能力,因为该模型仅针对RNA002接头模式进行训练。
在零样本应用中,DeepChopper在VCaP RNA004读段中检测到0.33%的内部接头(11,714,520个总读段中的38,878个),低于在VCaP RNA002中观察到的1.62%。与Dorado碱基识别和接头修剪的读段相比,DeepChopper将嵌合比对减少了21%,将cDNA支持的嵌合比对比例从约25%增加到30%。当在Dorado的接头修剪后应用DeepChopper时,观察到类似的结果,证明了与标准预处理管道的兼容性。DeepChopper识别的内部接头样序列表现出低碱基质量分数(平均Q分数:7.85)和与人类基因组的较差比对一致性(平均BLAT一致性:0.38),支持它们被分类为假象。
为优化RNA004数据的性能,研究人员使用从VCaP RNA004读段创建的包含300,000个读段的数据集对DeepChopper进行了微调。微调模型实现了边际额外改进,与Dorado处理的读段相比,将嵌合比对减少了23-25%,比零样本模型提高了3-4%。关键的是,原始RNA002训练模型和RNA004微调模型都保留了所有cDNA支持的嵌合比对,表明DeepChopper专门针对接头桥接的假象,而不是生物学的RNA重排。
虽然DeepChopper在RNA004中嵌合比对的减少(21-22%)低于在RNA002中(91%),但假象普遍性的降低(0.33%对1.62%)和较低的减少幅度是预期的,考虑到旨在减少假象形成的化学试剂改进。尽管如此,跨RNA002和RNA004化学试剂对内部接头的系统性检测证实,接头桥接的嵌合体仍然是当前dRNA-seq工作流程的固有特征,而DeepChopper无需重新训练即可跨化学试剂泛化的能力突出了其对于新兴平台的稳健性。
对下游转录组分析的深远影响
为调查导致嵌合体假象形成的因素,研究人员检查了与嵌合读段假象相关的基因表达水平和转录本长度。涉及这些假象的基因显示出比一般转录组更高的表达,同时表现出相似的基因长度分布。对跨基因组的嵌合连接的分析揭示了染色体间的不均匀分布,线粒体染色体显示每碱基对最高频率的嵌合连接,表明假象形成的潜在热点。这种模式在RNA004 dRNA-seq数据中持续存在,表明嵌合体假象仍然是dRNA-seq的基本限制,无论化学试剂改进如何。
研究人员接下来评估了DeepChopper校正如何影响下游转录组分析。使用IsoQuant注释来自VCaP dRNA-seq数据的转录本,他们发现与未校正数据相比,DeepChopper几乎使识别的转录本数量翻倍。在RNA004数据以及当DeepChopper在Dorado的接头修剪后应用时,观察到类似的结果。最大的增益在全长转录本(全剪接匹配类别)中观察到,另外在选择性剪接亚型(不完全剪接匹配、目录中新、目录外新类别)中增加。这些发现强调了DeepChopper在减轻嵌合体假象对转录本注释的不利影响方面的有效性。
为进一步评估假象去除的影响,研究人员检查了基因融合检测。DeepChopper校正的读段与Dorado修剪的数据相比,通过FusionSeeker产生的基因融合调用减少了89%。重要的是,这些减少的融合调用不受使用Arriba在匹配的短读长RNA-seq数据中检测到的融合的支持,表明它们是假阳性。在Dorado修剪后应用DeepChopper产生一致的结果,强化了其效用,无论先前的处理步骤如何。
对过滤的基因融合调用的仔细检查揭示了核糖体蛋白基因的强烈富集。VCaP和SG-NEx细胞系中的基因本体论(Gene Ontology, GO)富集分析证实了这一趋势,核糖体基因频繁出现在假象相关的融合中。这种富集也扩展到RNA004数据中的嵌合体假象。对识别为RPS29-COX8A融合的嵌合读段的手动审查显示,DeepChopper处理的区域,被解释为内部接头序列,与低强度原始电流信号对齐,这与ONT接头特征一致。该区域边界的polyA和开放孔信号的进一步存在支持了假象起源,而不是真实的融合事件。
关键技术方法概述
本研究主要采用了以下关键技术方法:基于六个人类细胞系(HEK293T、A549、HCT116、HepG2、K562和MCF-7)的dRNA-seq数据训练DeepChopper模型;使用前列腺癌VCaP细胞系进行独立验证;应用滑动窗口和多数投票方法进行预测后处理;通过BLAT比对和碱基质量分析验证内部接头序列;利用IsoQuant进行转录本注释和FusionSeeker进行基因融合检测;采用多种cDNA测序平台进行正交验证。
研究结论与重要意义
DeepChopper解决了ONT dRNA-seq中的一个关键空白:通过内部接头识别检测和恢复接头桥接的嵌合假象。跨多个细胞系、物种和化学试剂的验证表明内部接头系统性地出现在0.33-1.62%的读段中(每个实验数万至数十万),每个都将错误传播到转录本注释、基因融合检测和表达定量。没有先前的文献系统地表征dRNA-seq中接头桥接嵌合体形成机制;本研究解决了这一空白,同时提供了计算解决方案。
DeepChopper展示了GLM如何解决长读长测序挑战,这些挑战抵抗常规方法。长距离上下文、容错学习、单核苷酸精度和质量感知预测使得检测损坏的内部接头成为可能,这些接头逃避精确匹配、k-mer或比对方法。恢复而非去除代表了从过滤到校正的范式转变,在提高准确性的同时保留有价值的数据。未来的方向包括超长转录本的扩展上下文、缺乏内部接头的RT介导的cDNA-seq嵌合体的替代方法,以及扩展到其他平台。这一进展使得能够对dRNA-seq数据进行自信的生物学解释(从亚型发现到基因融合检测),加强了复杂生物系统中的转录组学研究,其中准确的转录本表征对于理解基因调控和细胞功能至关重要。