《Neurology Genetics》:Plasma isomiRs as Candidate Biomarkers for Amyotrophic Lateral Sclerosis
编辑推荐:
本文聚焦肌萎缩侧索硬化症(ALS)诊断生物标志物的探索盲区。研究发现,相比传统microRNA(miRNA)谱,分析其变异体isomiR的表达谱,在区分ALS患者与健康对照时展现出更高的准确性与特异性(AUC=0.87),提示深入解析个体isomiRs有望显著提升循环非编码RNA作为ALS诊断标志物的性能。
引言
尽管已从血液和脑脊液中探索了多个有前景的候选标志物,但目前临床上尚无可靠的肌萎缩侧索硬化症(ALS)诊断或预后生物标志物。微小RNA(miRNA)是一种短链非编码RNA,通过靶向降解信使RNA(mRNA)或抑制翻译来介导转录后调控。研究发现,特定的miRNA与ALS的发病机制相关,其机制包括不依赖于反式激活DNA反应结合蛋白43(TDP-43)的途径(例如作为氧化应激反应的介质)和TDP-43依赖性途径。鉴于miRNA在循环中具有固有的稳定性,它们已被探索作为循环预后和诊断生物标志物。然而,基于miRNA的ALS预后生物标志物在临床试验中的成功仍不明确。
miRNA成熟过程中的两步切割并不完美,可能导致产生具有不同5'和3'末端位点的miRNA变体,即“isomiR”。isomiR本质上可以拥有不同的种子序列(因为它们的5'起点可能不同),因此具有不同的mRNA靶标。isomiR的产生是保守的、非随机的,并且通常是刺激诱导的。TDP是miRNA生物发生中已知的辅助因子,但目前尚不清楚核内TDP错误定位到细胞质是否会影响isomiR的替代性切割,也基本未知isomiR是否可作为神经退行性疾病的可靠生物标志物。鉴于TDP错误定位可能影响isomiR的生成,研究人员假设,在ALS中核内TDP的缺失可能导致Drosha与初始miRNA(pri-miRNA)相互作用的稳定性降低,从而产生差异性的3'-isomiR切割;或者增加细胞质前体miRNA(pre-miRNA)的结合,导致5'-isomiR的产生差异。因此,探索isomiR谱可能揭示TDP错误定位背景下isomiR组成的差异,并提高基于miRNA的生物标志物的诊断能力。
方法
内部患者选择:研究纳入了14名经电生理检查、由获得委员会认证的神经肌肉神经科医师根据黄金海岸(Gold Coast)标准诊断为ALS的个体,以及14名年龄和性别匹配的健康对照。所有患者均为肢体发病(上或下运动神经元)。对照者在简易精神状态检查(MMSE)中得分高于参考标准,无显著认知或精神病史,神经系统检查无异常。
与公共数据集比较:研究从基因表达综合数据库(GEO)下载了多个公共RNA测序数据集用于比较分析,包括来自ALS患者和对照者血浆的GSE168714、来自ALS患者和对照者血清的GSE148097、来自阿尔茨海默病(AD)患者和对照者血浆的GSE215789,以及来自帕金森病(PD)患者和对照者全血的GSE180193。
总RNA提取和小RNA测序:从每位患者200μL血浆中提取总RNA。使用包含唯一分子标识符(UMI)的试剂盒制备测序文库,以帮助识别如聚合酶链式反应(qPCR)重复序列等技术假象。文库在NextSeq 2000上进行单端75-bp测序。通过定制分析流程处理数据,该流程包括使用UMItools进行接头修剪、质量过滤和UMI计数。从最新版miRBase 22.1中的前体miRNA(pre-miRNA)发夹结构,生成在其5'和3'末端上下游最多3个碱基范围内起始或结束的独特isomiR序列。仅完美匹配这些序列的读数被保留用于下游分析。
批量校正与差异表达:为尽可能解释技术偏差,原始读数首先标准化为每百万测序读数(RPM),然后使用limma包中的removeBatchEffect函数进行批量校正。使用DEseq2评估每个数据集中的差异表达(DE),将条件(对照 vs. ALS样本)和测序批次(如适用)作为设计因素。Wald检验错误发现率(FDR)≤0.1且|log2折叠变化| ≥ 1.0的单个RNA被视为差异表达。
分类模型:使用来自GSE168714的所有ALS和对照样本训练XGBoost分类器,特征包括在所有测序批次中RPM中位数大于或等于5的isomiR(模型1)和miRNA(模型2)。使用网格搜索和10折交叉验证来优化模型参数。然后在其余4个预留测试数据集上测试模型。还使用模型1中特征重要性最高的7个isomiR构建了第三个模型,并用上述方法进行验证。使用scikitlearn计算假阳性率、真阳性率(TPR)和受试者工作特征曲线下面积(AUC)。
替代切割指标:为了测试TDP相关的疾病活动是否改变了可用isomiR的总库(即产生可测量的前体miRNA替代切割的偏移),使用辛普森多样性指数和香农熵指数比较每个样本中独特isomiR的数量。在考虑到测序深度的预期影响下,使用R构建线性模型来比较不同数据集间的指数。
结果
人口统计学特征:内部研究样本包括14名ALS患者和14名健康对照。采样时的年龄和性别在组间具有可比性。症状出现时的平均年龄为51±12岁。采样时的ALS功能评定量表(ALS-FRS)评分为32±7。与年龄匹配参考值相比的坐位用力肺活量百分比为78±21,宾夕法尼亚大学上运动神经元评分为12±11(总分32分)。14名患者中有6名接受了全基因组测序,均未发现ALS相关基因(如SOD1、FUS)的致病性变异。14名患者均无致病性C9orf72重复序列。1名患者单个ATXN2等位基因有27次重复。
测序统计:内部样本中通过质量过滤的18-26个核苷酸序列的原始计数在对照和ALS样本间具有可比性。在公共数据中,除PD全血数据外,其他数据集的读长计数在组间同样无显著差异。在内部数据中,可归因于miRNA的原始读长百分比在ALS样本中更高,在公共血浆数据中则更低,在公共血清数据中具有可比性。AD和PD数据集的这一比例同样具有可比性。
独特isomiR谱的多样性:测序深度影响每个数据集中回收到的独特isomiR数量。在线性模型中,考虑到读长深度和测序批次,ALS与读长深度之间的交互作用显示出,与对照相比,识别出的独特isomiR数量显著减少。由于预期读长深度会影响miRNA覆盖度,研究人员还计算了已发表的多样性指标,以比较不同样本间的丰富度和丰度。在考虑批次的线性模型中,只有ALS样本的两个指数存在显著差异,表明isomiR组成的多样性更高。
isomiR和miRNA的差异表达:在内部血浆、公共ALS血清和公共ALS血浆的ALS样本与对照样本比较中,分别有14个(0.2%)、14个(0.7%)和355个(2.7%)独特isomiR差异表达。分别有1个(0.1%)、13个(2.4%)和94个(5.5%)的miRNA差异表达。其中,有3个isomiR在内部和公共ALS血浆中均差异表达,分别是hsa-miR-206|0|0|1、hsa-miR-206|0|-2|1和hsa-mir-30a-5p|0|1|1。
在内部样本中,与对照相比,多个isomiR在ALS样本中表达下调或上调。在公共血清数据中,与对照相比,多个isomiR在ALS样本中表达下调,只有hsa-mir-10b-5p|0|1|1表达上调。
鉴于内部血浆样本中多个差异表达的isomiR来源于已知对成肌细胞增殖重要的miRNA,研究测试了这14个差异表达的isomiR在上、下运动神经元为主的ALS患者间是否存在水平差异。将14个样本根据其宾夕法尼亚大学上运动神经元总分是否≤10进行二分,并使用Wilcoxon秩和检验查询这些isomiR的RPM计数在两组间是否存在差异,所有比较均不显著。
使用XGBoost进行样本分类:研究筛选出在所有测序批次中RPM中位数超过5.0的103个isomiR和70个miRNA,以确保分类器模型不会识别代表技术假象的批次特异性信号。其中,分别有0个、8个和52个isomiR在内部样本、GSE168714和GSE148097中差异表达。分别有0个、11个和28个miRNA在内部样本、GSE168714和GSE148097中差异表达。
首先使用limmaR包根据测序批次校正isomiR和miRNA计数,然后分别训练基于isomiR或miRNA的XGBoost模型。网格搜索找到了最优参数。isomiR模型能够准确分类内部血浆和公共血清样本(AUC = 0.87,阳性预测值(PPV) = 0.74,阴性预测值(NPV) = 1.0),并且由于在分类AD(AUC = 0.47)或PD(AUC = 0.55)时准确性差,表明该isomiR信号对ALS具有特异性。相比之下,miRNA模型在内部血浆上的表现相对较差(AUC = 0.49)。
作为最终测试,研究评估了isomiR模型的特征重要性分数,并手动选取了重要性排名前14的isomiR,以获得与差异表达分析中发现的数量相当的isomiR最小集合。随后,仅使用这些isomiR训练了一个新的第三XGBoost模型,以确定仅这些isomiR的表达水平是否足以将ALS样本与对照样本分类。其在内部血浆和公共血清上的性能具有可比性(AUC = 0.84)。
讨论
本研究测试了在ALS背景下miRNA谱是否存在可测量的变化。研究发现,与对照样本相比,ALS样本中的isomiR谱多样性更高,而AD和PD疾病参考组未显示出类似的可测量的多样性差异,这证明了研究结果对ALS的潜在特异性。此外,在基于树的机器学习模型中使用isomiR比使用miRNA提高了样本分类的准确性。与最近一项使用不同但部分重叠的计算流程重新分析相同公共ALS数据集的研究相比,本研究发现了疾病状态下isomiR在组水平上可比的差异。
高通量RNA测序方法只能识别输入RNA的一小部分。因此,可识别独特RNA序列的数量随测序深度增加而增加。TDP-43既能结合成熟miRNA,也能结合其前体。鉴于这一点,研究人员假设,特别是在ALS背景下TDP的病理性错误定位将导致前体miRNA切割的可测量差异,从而产生具有不同末端位点的成熟isomiR的不同组合。确实,在考虑测序批次的线性模型中,读长计数与条件之间存在显著的交互作用,表明总体上在任何读长深度下,ALS样本包含的独特isomiR更少。
为了解释与不同数据集间读长深度固有差异相关的潜在技术偏差,研究还测试了已建立的指数,这些指数允许比较样本间的丰富度和丰度。在考虑批次的线性模型中,只有ALS样本的两个指数存在显著差异,表明多样性更大。miRNA成熟依赖于核内Drosha复合物和细胞质Dicer的内切核酸酶切割。TDP-43可稳定Drosha复合物并与Dicer相互作用。TDP-43错误定位不仅导致广泛的替代性mRNA剪接,还导致miRNA的差异表达。综上所述,这些发现表明,在内部和公共数据中观察到的种类多样性差异可能反映了病理性TDP-43错误定位的后遗症。未来的工作将在体外使用人类细胞模型验证这一假设。
在内部血浆样本中,研究发现了几个差异表达的isomiR,它们来源于先前被讨论作为ALS诊断生物标志物的成熟miRNA序列,即miR-206、miR-133a-3p和miR-10b-5p。值得注意的是,经典的miR-206物种(表示为|0|0|1的isomiR)和缺少3'末端2个碱基的isomiR(|0|-2|1)在内部血浆样本和更大的公共队列样本中均存在差异表达。miR-206是一种肌肉特异性miRNA,在维持终板突触功能中发挥作用。miR-133a与miR-1/206家族来自一个双顺反子转录本,可促进成肌细胞增殖。虽然先前的资料认为miR-133a在ALS样本中表达下调,但本研究发现来源于该miRNA的一个isomiR表达上调,这可能反映了在ALS背景下RNA在isomiR水平的更新存在差异。miR-10b-5p同样调控成肌细胞增殖。在分类模型中,一个最优组合还包括来自miR-151a-3p、let-7b-5p、let-7g-5p、let-7i-5p、miR-103a-3p、miR-16-5p、miR-186-5p、miR-27b-3p、miR-30d-5p、miR-30e-5p、miR-744-5p、miR-423-5p和miR-148a-3p的isomiR。总而言之,这些结果表明这些isomiR与ALS相关,或许可以作为神经元丢失和骨骼肌更新之间复杂双向关系的生物标志。
已有几种循环ALS生物标志物被提出,用于诊断和指导预后。血液神经丝轻链(NfL)可能是一种非特异性的疾病标志物,因为其水平在其他神经系统疾病中也会发生类似改变。尽管在阐明由病理性TDP错误定位诱导的隐性外显子包含机制方面已进行了大量工作,但由于隐性外显子在循环中固有的稀有性和不稳定性,miRNA仍然是迄今为止探索的唯一基于循环RNA的生物标志物。先前的研究已证明使用miRNA生物标志物组合具有强大的性能,包括使用8个miRNA组合获得的最佳报告AUC为0.98。本研究报告了可比的性能,包括在预留测试数据集中完美的阴性预测值。未来的工作将在大型验证队列中测试该组合的性能,并在其他TDP相关疾病(例如边缘系统相关TDP-43脑病和额颞叶变性)的背景下进行测试。具有高阴性预测值的生物标志物可以作为NfL的理想补充。
本研究存在一些局限性。与许多小RNA测序实验一样,验证队列的样本量较小。尽管对照和ALS样本在年龄上无显著差异,但ALS样本的年龄有略高的趋势,这增加了RNA降解可能影响结果的可能性。先前的研究发现,长期在-80°C储存不会显著影响可回收miRNA的完整性。此外,几个公共数据集的测序批次信息有限,限制了下游分析中完全解释批次效应的能力。未来的工作将在汇集多个生物样本库样本的多中心研究中克服这一局限性。本研究未考虑非模板添加或内部变异,因为这些序列比末端变异更可能代表技术假象。
总之,本研究分析了几个小RNA测序数据集,以验证在个体isomiR水平探索miRNA谱是否能提高基于RNA的诊断生物标志物性能的假设。这项工作的动机是与野生型TDP-43潜在功能丧失以及病理蛋白质:RNA在细胞质中相互作用功能获得相关的机制假设。未来的工作将探索与miRNA代谢受损相关的潜在机制,并确定isomiR作为TDP相关疾病活动生物标志物的效用。未来对尸检确认样本的研究也将确定本结果对其他TDP-43蛋白病的普遍适用性。