综述:单细胞研究中的免疫细胞注释:技术、挑战与整合解决方案

《Immunologic Research》:Immune cell annotation in the single-cell studies: technologies, challenges, and integrative solutions

【字体: 时间:2026年05月03日 来源:Immunologic Research 3.1

编辑推荐:

  单细胞RNA测序(scRNA-seq)通过实现个体免疫细胞的分辨率转录组谱分析,彻底改变了免疫学研究。尽管其影响深远,但仅基于转录组数据注释免疫细胞仍面临挑战。这些困难源于生物因素,包括基因表达异质性和转录后调控,以及导致mRNA与蛋白表达不匹配的技术局限性。

  
单细胞RNA测序(scRNA-seq)通过实现个体免疫细胞的分辨率转录组谱分析,彻底改变了免疫学研究。尽管其影响深远,但仅基于转录组数据注释免疫细胞仍面临挑战。这些困难源于生物因素,包括基因表达异质性和转录后调控,以及导致mRNA与蛋白表达不匹配的技术局限性。这种差异可能导致细胞错误分类并掩盖功能见解,特别是在外周血单个核细胞(PBMCs)等异质性群体中。本综述通过详述mRNA-蛋白差异的潜在机制,审视驱动这种分歧的生物因素和技术伪影,并强调其对准确细胞分类的影响,重点阐述了免疫细胞注释的主要挑战。随后对当前的单细胞分析技术进行了批判性概述,评估了转录组学、蛋白质组学和模态方法的各自优势与局限性。具体而言,诸如通过测序对转录组和表位进行细胞索引(CITE-seq)等技术整合了转录组和蛋白质组数据,解决了单模态分析的缺陷。进一步的研究集中于免疫细胞注释的计算策略,重点介绍了针对多组学数据集定制的自动化方法和生物信息学框架。讨论了整合mRNA和蛋白质数据的独特计算挑战,以及提高注释准确性的解决方案。本综述整合了关键的挑战、技术和计算工具,强调了标准化免疫细胞多模态分析的必要性。这种整合增强了注释的可靠性,并推进了对疾病的理解和治疗发现。
引言
单细胞RNA测序(scRNA-seq)通过实现单细胞分辨率的详细转录组谱分析,彻底改变了免疫学领域。该技术使研究人员能够剖析免疫细胞异质性、追踪发育轨迹并研究健康和疾病中的动态免疫反应。然而,scRNA-seq的一个主要局限性是其仅依赖转录组数据进行细胞类型注释。这在PBMCs研究中提出了特别的挑战,因为密切相关的免疫亚群经常表现出重叠的基因表达谱。准确的注释对于识别免疫反应、发现疾病相关特征和指导治疗干预至关重要。一个关键的障碍是转录本与蛋白质丰度之间的不一致。由于免疫细胞身份和功能主要由蛋白质阶段通过转录后调控、翻译控制和蛋白质降解来支配,mRNA读数可能与相应的蛋白质表达显著偏离,导致细胞类型的错误分类。这种不一致性因scRNA-seq固有的技术局限性而变得更加复杂,例如由低捕获效率或随机基因表达引起的dropout事件,以及浅层测序深度,这些因素共同损害了编码关键表面蛋白(如CD25、CD69或PD-1)的mRNA的敏感性,而这些蛋白对于定义T细胞活化和免疫调节至关重要。传统上,免疫细胞注释基于表面蛋白表达,流式细胞术仍然是免疫表型分析的金标准。然而,这些方法缺乏转录组分辨率且多重检测能力有限。CITE-seq等多模态技术的发展弥合了这一差距,实现了单个细胞中基因表达和表面蛋白表达的同步测量。尽管如此,由于涉及的技术障碍和成本,此类技术的广泛采用仍然有限。
免疫细胞注释的重要性与关键挑战
准确的免疫细胞注释是单细胞转录组学的基石,对于揭示免疫学中的生物学见解至关重要。在癌症、感染和自身免疫性疾病的背景下,可靠地识别和表征免疫细胞类型和状态对于绘制细胞异质性图谱、追踪分化轨迹以及理解单细胞分辨率下的疾病进展至关重要。在实践中,免疫细胞注释遵循将生物学解释与技术预处理相结合的结构化分析流程。数据首先通过转录组、蛋白质组或多模态平台生成,随后进行严格的质量控制以消除低质量细胞和技术伪影。然后应用归一化和批次校正来减轻跨样本和实验条件之间的技术变异性。降维和聚类使得能够识别转录或表型相似的细胞群体,随后使用基于标记、基于参考或整合计算方法进行注释。在每个阶段,生物学调控和技术限制共同影响注释的准确性。细胞注释将原始测序数据转化为生物学可解释的信息,使研究人员能够解构复杂的免疫图谱并识别罕见或过渡性群体,如组织驻留记忆T细胞(Trm)、调节性树突状细胞和T外周辅助(Tph)细胞。如果没有准确的注释,这些群体可能会被错误分类或遗漏,从而掩盖其在免疫监视、调节或肿瘤抑制中的功能相关性。尽管其重要性,但由于显著的基因表达异质性、技术噪音和稀疏性,基于scRNA-seq数据的免疫细胞注释仍然具有固有的挑战性。这些问题在免疫群体中尤为明显,因为密切相关的细胞类型通常共享重叠的转录谱。例如,CD8+细胞毒性T细胞和自然杀伤(NK)细胞都表达颗粒酶(GZMB)和穿孔素(PRF1),这使得仅凭转录组数据难以区分它们。同样,B细胞和浆细胞之间的过渡阶段可能显示出模糊的表达模式。在激活、耗竭或组织驻留等动态状态下,常规标记物如PDCD1CD39表达水平较低或波动,使注释复杂化。最常见的注释策略涉及通过t-SNE或UMAP等降维技术进行无监督聚类,随后人工检查经典标记基因表达。虽然被广泛采用,但这种方法耗时、主观且缺乏大规模数据集的可扩展性。至关重要的是,它存在错误分类或遗漏稀有和功能独特群体的风险,特别是当标记基因缺失、下调或mRNA与蛋白质表达不一致时。这些局限性在疾病环境中尤为明显。转录本与蛋白质的不一致代表了准确细胞注释的主要障碍。mRNA水平并不总是与表面蛋白质丰度相关,这归因于转录后调控、蛋白质降解和翻译控制。例如,耗竭的T细胞经常表现出免疫检查点蛋白(如CTLA-4)的高表面表达,即使其对应的转录本CTLA-4在scRNA-seq数据中无法检测到。这种差异可能导致将这些细胞错误分类为效应群体。观察到的mRNA-蛋白不一致可能源于严格的转录后调控,其中编码检查点的转录本在翻译后经历快速降解,导致持续的蛋白质表达下mRNA可见性短暂。因此,通过CITE-seq和REAP-seq等多模态方法整合表面蛋白质数据已被证明有助于减轻mRNA-蛋白不一致。这些技术利用DNA条形码抗体同时量化单个细胞中的转录本和表面蛋白,即使在其同源mRNA缺失或降解的情况下,也能实现对稳定表面标记物的直接检测。
免疫细胞中mRNA-蛋白差异的潜在机制
mRNA丰度与蛋白质表达之间的相关性是分子生物学的核心原则,然而这种关系在免疫细胞中经常表现微弱或不一致,这对免疫学研究和临床应用具有重要意义。虽然mRNA提供了蛋白质合成的转录模板,但正是蛋白质本身介导了关键的免疫功能。鉴于免疫反应的动态性质及其严格调控,理解转录本与蛋白质水平之间的不一致对于准确的免疫细胞表征和功能注释至关重要。这种不一致源于相互关联的生物和技术因素,反映了从转录到功能性蛋白质生产的多层次调控。
影响mRNA-蛋白表达的生物因素
免疫细胞mRNA与蛋白质水平之间的差异主要由三个关键的生物过程决定:转录后调控、翻译效率和蛋白质降解。这些机制以细胞类型和背景特异性的方式运作,在免疫细胞中尤为重要,因为它们需要在免疫监视和激活期间快速转变功能。转录后机制显著影响转录本的稳定性和翻译能力。这一过程的中心是RNA结合蛋白(RBPs)和microRNAs(miRNAs),它们调节mRNA降解或抑制翻译,从而使转录本水平与蛋白质合成脱钩。在巨噬细胞和T细胞等免疫细胞中,炎症细胞因子mRNA如IL-6和TNF受到RBPs的严格控制。即使mRNA丰度高,其转化为蛋白质在很大程度上取决于翻译效率,这受核糖体结合位点(RBS)、密码子组成、tRNA可用性和核糖体动力学等因素的影响。此外,蛋白质丰度由独立于mRNA周转的降解途径动态调节,主要包括泛素-蛋白酶体系统、溶酶体自噬和非特异性蛋白水解。有趣的是,研究表明mRNA和蛋白质降解可以是脱钩的。在许多情况下,蛋白质表现出比其相应转录本更长的半衰期,允许在转录下调后持续发挥蛋白质功能。这种时间缓冲在中枢和效应记忆T细胞、巨噬细胞亚群和耗竭T细胞中尤为相关,因为这些细胞需要持续的蛋白质表达以维持信号传导或效应器功能。
影响mRNA-蛋白表达的技术因素
除了生物调控外,单细胞多组学平台固有的各种技术因素也显著影响观察到的mRNA与蛋白质表达之间的相关性。这些包括dropout事件、抗体相关局限性和背景噪音等问题。scRNA-seq的一个主要技术挑战是dropout事件的发生,即尽管mRNA存在于细胞中却未能被检测到。这些事件源于基因表达的随机性和技术限制,如低效的mRNA捕获和逆转录,特别是对于低丰度转录本。为了应对这一问题,已经开发了各种插补算法,每种算法都采用不同的计算策略。例如DrImpute利用基于聚类的方法聚合相似细胞以改善局部表达模式;scDoc实施概率模型以区分生物表达缺失与技术dropout;scHinter应用分层网络正则化以在插补过程中维持基因-细胞关系;I-Impute通过整合生物先验知识与表达数据来整合多种数据模态;而CCI则通过扩散模型捕捉复杂的全局表达模式。虽然这些工具显着提高了单细胞转录组分析的分辨率,但dropout相关的不准确性仍然影响下游解释。在多模态单细胞技术中,基于抗体的检测技术如CITE-seq、REAP-seq和AbSeq使得能够同时分析表面蛋白表达和转录组数据。然而,几个抗体相关问题可能会引入破坏mRNA-蛋白相关性的伪影。一个关键的局限性是抗体特异性,脱靶结合或未能区分密切相关的蛋白质亚型可能导致假阳性或模棱两可的信号。此外,抗体亲和力和饱和度进一步使蛋白质定量复杂化。另一个主要的技术挑战是背景噪音,特别是在基于液滴的平台中,如10x Genomics? Chromium系统。通过DNA条形码抗体进行的蛋白质测量容易受到未结合抗体残留、非特异性结合和空液滴中环境mRNA/蛋白质的污染。
免疫细胞分析技术
转录组和蛋白质组技术的进步从根本上重塑了我们对免疫细胞多样性、功能和调控的理解。早期的免疫分析主要依赖于微阵列,虽然在生物标志物发现和疾病分层方面发挥了重要作用,但受限于探针依赖性、杂交伪影、狭窄的动态范围和高的RNA输入要求,使其并非分析稀有或低产量免疫样本的最佳选择。批量RNA测序(RNA-seq)的出现克服了这些限制,实现了无探针依赖、具有增强灵敏度和动态范围的转录组范围检测。然而,批量RNA-seq平均了混合群体的基因表达,从而掩盖了细胞异质性。scRNA-seq的引入标志着一个变革性的步骤,实现了单细胞分辨率的转录组分析。与平均信号的批量RNA-seq不同,scRNA-seq通过微流控、基于液滴的封装或微孔板分离单个细胞,揭示了罕见的亚群、描绘了发育轨迹,并捕获了癌症、感染和自身免疫中否则会被掩盖的情境特异性免疫反应。尽管如此,scRNA-seq仍存在挑战,包括空间背景的丢失、可变的捕获效率和有限的转录本回收,特别是在小型免疫细胞中。空间转录组学技术如MERFISH和seqFISH通过保留组织架构同时原位绘制转录本图谱来解决这些局限性。MERFISH采用组合二元条形码和顺序成像来检测数百至数万个基因,具有纳米级的空间定位和稳健的错误校正;而seqFISH使用彩色编码条形码结合多个循环来实现超分辨率成像,擅长检测低拷贝转录本。这两种方法在空间映射和对目标基因的灵敏度方面均优于scRNA-seq,但仅限于预定义的基因集。与之互补的是,单细胞ATAC-seq(scATAC-seq)利用超活性Tn5转座酶在单细胞水平分析染色质可及性,揭示活性调控元件并推断转录因子结合,当与scRNA-seq整合时,提供了一个解码免疫反应潜在基因调控机制的多组学框架。虽然转录组学提供了有关基因活性的信息,但蛋白质组学技术对于功能性免疫分析至关重要。流式细胞术长期以来一直是免疫表型分析的基石,允许对表面和细胞内标记物、功能状态和细胞因子产生进行多参数量化。在临床上,它已广泛用于验证癌症、自身免疫性疾病和传染病(如COVID-19)中的免疫特征。然而,传统的流式细胞术受到光谱重叠的限制,通常将多重分析限制在约15-20个标记物。光谱流式细胞术通过捕获全发射光谱而非离散通道,部分克服了这些限制,能够同时检测30-50个标记物并减少补偿伪影。质谱流式细胞术(CyTOF)通过使用金属偶联抗体和时间飞行质谱进一步扩展了免疫分析能力,能够同时检测每个细胞超过40种蛋白质且无光谱干扰,但在空间分辨率方面存在不足。成像质谱流式细胞术(IMC)结合了高维蛋白质组学与组织成像,通过激光逐像素烧蚀用金属标记的抗体染色的组织切片,并通过质谱定量汽化的金属离子,从而在保留组织架构的同时实现对超过40个标记物的多重检测。因此,日益增长的免疫反应复杂性推动了多模态分析平台的创新。建立在解决mRNA-蛋白差异的能力之上,CITE-seq和REAP-seq已成为识别转录谱与蛋白质表达存在分歧的免疫亚群特别有价值的工具。例如,它们在检测CD103+组织驻留记忆T细胞和FCεRIα+肥大细胞方面非常可靠,这些细胞经常逃避转录组鉴定。此外,这些方法能够更准确地区分功能不同的状态,例如在肿瘤微环境中区分活化的(CD69+CD25+)与耗竭的(PD-1+TIM-3+)T细胞群体。ECCITE-seq作为原始CITE-seq的高级版本,通过整合四个关键模态显着扩展了单细胞分析能力:转录组范围的mRNA测序、通过抗体衍生标签(ADTs)进行的表面蛋白定量、用于免疫细胞克隆型追踪的配对T细胞受体/B细胞受体(TCR/BCR)测序,以及用于扰动筛选的检测CRISPR单引导RNA(sgRNAs)。与仅结合转录组学和蛋白质组学的常规CITE-seq或REAP-seq不同,ECCITE-seq的独特价值在于其能够同时保持免疫受体特异性来捕获遗传扰动,使其成为研究基因敲除对免疫细胞表型影响的强大工具。虽然ECCITE-seq等多模态方法提供了高维的mRNA-蛋白分析,但它们缺乏空间背景,而这对于组织中免疫细胞注释至关重要。CosMx?、Visium和Xenium等空间平台通过保留组织架构、细胞形态和空间共定位,从而提高了免疫细胞注释的准确性。其中,Visium支持通过与组织学背景整合的转录组范围空间映射进行发现驱动的注释,尽管是多细胞分辨率;而Xenium和CosMx?则实现了更高分辨率的靶向空间分析,并能够整合RNA和蛋白质信号。对于优先考虑通量而非空间背景的研究,Chromium GEM-X平台(10x Genomics?)利用微流控和优化的GEM-X化学实现高通量单细胞多组学。其凝胶珠乳液(GEM)系统支持同时进行的转录组范围RNA-seq、通过ADTs进行的表面蛋白检测以及每次运行多达128个样本的多重分析,使其非常适合大型队列研究。为了应对这些局限性,新兴技术如Evercode? Immune Profiling(Parse Biosciences)采用无微流控的组合索引方法,实现了每次实验高达100万个固定细胞的超高通量分析。最近,Beacon Discovery?(Bruker)推出了一种专为实时功能性单细胞分析设计的微流控平台,该系统利用光流体芯片上的光致电定位(OEP)将活细胞精确隔离在NanoPen腔室中进行动态分析,优先考虑功能性免疫指标,如在过继性T细胞治疗研究中量化单个细胞的细胞毒性。
整合mRNA和蛋白质数据集的生物信息学障碍
自CITE-seq和REAP-seq等开创性技术首次实现单个细胞内mRNA和蛋白质表达同步测量以来,单细胞多模态分析领域已取得显着进展。这些方法已在10x Genomics? Chromium和BD Rhapsody?等高通量平台上广泛实施。现代迭代产品现在支持更大规模的多模态分析,同时解决了早期在灵敏度和通量方面的局限性。尽管取得了这些技术进步,但由于mRNA和蛋白质数据结构的基本差异,计算整合仍然具有挑战性。有效整合的主要障碍之一是转录组和蛋白质组测量之间的数据稀疏性和分布差异。scRNA-seq生成具有高维计数矩阵的特点,由于转录随机性和技术dropout事件,每个细胞表现出极度的稀疏性(60-90%)。这与批量RNA-seq形成鲜明对比,后者零值比例通常在10%到40%之间,因此需要不同的统计建模方法。虽然scRNA-seq需要零膨胀或负二项分布来解释这种稀疏性,但基于ADT的蛋白质数据虽然不那么稀疏,但受限于较小的panel规模(通常30-200个标记物)以及非特异性结合、交叉反应和抗体饱和等技术伪影的困扰。因此,为转录组数据开发的归一化方法(如对数变换或文库大小缩放)通常不适用于蛋白质数据,后者可能需要不同的批次校正和缩放策略。另一个重大挑战在于计算可扩展性和基础设施要求。随着多模态平台现在常规分析数百万个细胞跨越数千个特征,传统的计算流程往往无法管理此类大数据集的内存和处理需求。单细胞数据固有的稀疏性需要优化的算法,能够在大规模和高内存效率的存储格式下执行高维分析。变分自动编码器(VAEs)、图神经网络和其他基于机器学习的技术通常需要高性能计算(HPC)环境或图形处理单元(GPU)加速。当RNA和蛋白质数据来自不同平台(如10x Genomics? Chromium, BD Rhapsody?, 或 Parse Bioscience?)或跨越不同的实验室批次或时间点时,会引入特定于平台的技术噪音和批次效应。这些变异性来源必须使用HarmonizR和Harmony等稳健的协调技术仔细处理,以去除不需要的技术噪音,同时保留真正的生物信号。一个关键的计算挑战是模态对齐,即尽管存在数据间隙,仍能准确地匹配每个细胞的RNA和蛋白质读数。dropout事件在两种模态中都很常见,通常由于生物或技术因素导致低丰度特征未被检测到。虽然插补方法如最近邻平均或基于深度学习的模型可以估计缺失值,但如果未经适当验证,可能会引入伪影并掩盖真正的生物变异。此外,mRNA-蛋白质关系通常是非线性和上下文依赖的,使得经典的线性方法(如典型相关分析(CCA))不足以捕捉复杂的调控机制。为了解决这些计算挑战,已经开发了越来越多的整合分析工具。例如,Seurat通过典型相关分析(CCA)结合互近邻(MNN)匹配来对齐模态,但其对线性模型的依赖存在局限性。多组学因子分析Plus(MOFA+)使用因子分析来识别共享的和特定模态的变异源,但在极度稀疏的数据集上表现欠佳。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号