单细胞RNA测序半监督整合方法的现实世界评估基准：揭示标注质量对整合性能的关键影响

《PLOS Computational Biology》：A benchmark of semi-supervised scRNA-seq integration methods in real-world scenarios

【字体：大中小】 时间：2026年03月17日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　这篇综述通过系统性地在现实场景中评估单细胞RNA测序（scRNA-seq）的半监督整合方法，挑战了“有标注总比没有好”的传统观念。研究发现，虽然scDREAMER等方法在标注完美时表现优异，但一旦标注存在现实中常见的结构缺陷，其优势会大幅下降甚至不如主流无监督方法。文章强调，目前最可靠的选择是在标注质量不确定时使用顶级的无监督方法（如scCRAFT），为单细胞数据分析实践提供了关键的决策指导。

在单细胞RNA测序（scRNA-seq）研究蓬勃发展的今天，整合来自不同批次、平台或研究的单细胞数据，以构建全面的细胞图谱，已成为一项核心挑战。其难点在于“批效应”的存在，即由技术差异引入的非生物变异。为了消除批效应、同时保留有意义的生物信号，数据整合方法应运而生。其中，半监督整合方法被认为前景广阔，因为它们可以利用部分已知的细胞类型标注来指导整合过程，理论上能获得比无监督方法更好的效果。然而，先前的研究大多在标注近乎完美的理想化场景下进行评估，这与现实世界中标注常不完整、不一致、有错误或来自自动化工具的情况相去甚远。一项题为《A benchmark of semi-supervised scRNA-seq integration methods in real-world scenarios》的研究，首次在现实条件下系统性地对主流半监督整合方法进行了基准测试，得出了颠覆性的结论。

2.1 基准测试设计概述

这项研究设计了全面而贴近现实的评估框架。它比较了五种主流的半监督整合方法（scANVI、scGEN、ssSTACAS、scDREAMER和ItClust）与五种广泛使用的无监督方法（Seurat RPCA、scVI、Harmony、Scanorama和scCRAFT）。评估使用了六个在细胞数量、批次数和细胞类型复杂度上各不相同的数据集，涵盖了从相对简单（如人类胰腺数据集）到极具挑战性（如跨物种的肺数据集）的各种整合难度。

研究的关键创新在于超越了常见的“随机缺失或错误标注”场景，引入了四种更贴近现实的标注缺陷场景：

1.
边界混合标注：模拟在转录谱相似的邻近细胞类型之间发生标注混淆的情况，这在实践中很常见。
2.
批次特异性部分标注：模拟只有部分批次有标注，而其他批次完全无标注的现实整合任务。
3.
自动化工具生成标注：使用三种流行工具（SingleR、CellAssign、Azimuth）自动生成的标注，评估其用于整合的可靠性。
4.
不同精细程度的标注：模拟整合标注粒度不一致的数据集（例如，一个数据集标注到“CD4⁺初始T细胞”，另一个只标注到“T细胞”）。

评估使用了9个公认的指标，从生物变异保存和批效应去除两个维度量化整合质量，并计算加权总体得分。

2.2 使用完美标注的基线设置

在拥有全部正确标注的理想情况下，半监督方法确实能展现出优势。scDREAMER是总体表现最佳的半监督方法，其批量校正能力尤其突出，平均比最强的无监督方法scCRAFT高出12.18%。ItClust则在生物信号保存方面表现最好。其他半监督方法，如scANVI和scGEN，在生物保守性上也优于其无监督基础版本（scVI）。然而，即使在此理想设定下，也并非所有半监督方法都全面优于顶尖的无监督方法。例如，ssSTACAS的表现与其无监督对应方法Seurat RPCA相似，而scANVI的批量校正得分甚至低于scVI。

2.3 场景I和II：随机缺失或错误标注

当标注随机缺失时，不同方法的稳健性差异显著。scANVI和ssSTACAS对标注缺失最具韧性，即使70%的标注缺失，其性能下降也很小，且始终优于其对应的无监督方法。相反，ItClust对标注缺失极为敏感，性能急剧下降。scDREAMER和scGEN的表现也随缺失比例增加而显著恶化。当标注被随机设置为错误时，挑战更大，半监督方法的优势进一步缩小。在70%标注错误的极端情况下，scDREAMER在某些数据集上性能大幅下滑，而scANVI成为最稳健的半监督方法，但其表现仍不及scCRAFT。

2.4 场景III：边界处缺失与混合

此场景模拟了在细胞类型边界处的标注模糊与错误，这是一种更真实的结构性错误。在标注混淆比例较低的数据集（如人类免疫数据集）上，半监督方法能保持与无监督方法相当或略优的表现。然而，在标注混淆比例很高的数据集（如肺图谱数据集，混淆率达24.96%）上，所有半监督方法的性能都出现严重下滑，甚至低于其对应的无监督基础方法。这表明现有半监督方法对边界处的标注错误容忍度很低，其性能优势在现实的结构性标注问题前很脆弱。

2.5 场景IV：批次特异性部分标注整合

当只有部分批次有标注时，scANVI和ssSTACAS是表现最好的半监督方法，它们性能稳定，与无监督方法的差距很小。但其他对标注依赖性强的方法（scDREAMER、ItClust、scGEN）表现迅速恶化，当缺失标注的批次比例达到30%时，其性能就已差于许多无监督方法。总体而言，在此场景下半监督方法并未展现出显著优于无监督方法的整合性能。

2.6 场景V：使用自动化标注的整合

自动化标注工具（如Azimuth、CellAssign、SingleR）提供的标注质量参差不齐。研究发现，当使用高质量的Azimuth标注时，scDREAMER能取得最好的半监督整合效果。然而，即使使用最好的自动化标注，半监督方法的整体表现也未能持续超越顶尖的无监督方法scCRAFT。scANVI和ssSTACAS对不同来源的自动化标注表现稳健，但提升有限。这提示，当前阶段的自动化标注尚不足以让半监督整合方法获得稳定优势。

2.7 场景VI：使用不同精细程度标注的整合

面对标注粒度不一致的数据集，研究测试了三种处理策略：直接使用混合粒度标注、将所有标注统一为粗粒度、或将粗粒度标注视为缺失。结果显示，对标注敏感的方法（如scDREAMER、scGEN）在统一使用粗粒度标注时表现最好，直接使用混合标注次之，将粗标注视为缺失（即无标注）时表现最差。这说明，对这类方法而言，不完美的层次化标注信息也比完全没有信息更有价值。而scANVI和ssSTACAS对此场景表现出高度的稳健性，对各种策略都不敏感。

3 结论

这项大规模的基准测试得出了明确且具有实践指导意义的结论，挑战了领域内的一些常见假设。

首先，研究颠覆了“半监督方法通常优于无监督方法且对标注缺陷稳健”的预期。现实表明，当前半监督整合方法的优势高度依赖于近乎完美的标注质量。一旦标注出现现实中常见的结构性缺陷（如批次标注缺失、边界混淆、自动化标注错误），大多数半监督方法（尤其是scDREAMER、ItClust、scGEN）的性能会急剧下降，不仅不如最强的无监督方法，甚至可能不如一些主流无监督基线。

其次，在众多方法中，scANVI和ssSTACAS是唯二在各类不完美标注场景下保持稳定表现的半监督方法。但它们带来的提升幅度有限，ssSTACAS很少能稳定超越Seurat RPCA，而scANVI相对于scVI的优势也很微小，且两者均无法 consistently 超越表现最强的无监督方法scCRAFT。

基于以上发现，研究为实践者提供了清晰的决策指南：

•
当拥有高质量的标注时（如全手动标注或一致的粗粒度标注），推荐使用scDREAMER，它能最大程度利用标注信息获得最佳整合效果。
•
当标注质量不确定、不完整或存在噪声时（这是更常见的现实情况），最可靠的选择是使用顶尖的无监督方法，特别是scCRAFT。如果用户倾向于scVI或Seurat RPCA的工作流，那么scANVI和ssSTACAS可以作为稳健的备选，它们虽无显著提升，但能避免其他半监督方法可能出现的灾难性失败。

这项研究揭示，当前大多数半监督整合算法在如何平衡信任标注与信任数据本身的内在拓扑结构方面存在局限。它们要么过于依赖标注而导致脆弱性，要么过于保守而无法充分利用高质量标注的潜力。未来的方法需要发展一种自适应机制，能够根据标注与转录组数据的一致性，动态调整对标注信息的信任权重。在此之前，对于大多数现实的、标注质量存疑的单细胞数据整合任务，无监督方法，尤其是像scCRAFT这样的先进算法，仍然是更为稳妥和可靠的选择。

热点排行

新闻专题