《Cancer Research》:CanSig Benchmarks Methods for Reproducible Cancer Cell State Discovery from Single-Cell Transcriptomic Data
Open Access
编辑推荐:
(本文推荐)本研究提出并系统验证了CanSig,一个用于评估从癌症单细胞RNA测序数据中识别共享转录特征的计算方法的基准测试工具。它综合评估了包括BBKNN、Harmony、fastMNN在内的13种早期与晚期数据整合方法在12个来自五种人类癌症的数据集上的表现。CanSig通过整合批次校正、生物信号保存、特征重现性及临床相关性等多个维度进行评分,为研究人员提供了一个标准化的框架,旨在解决现有方法在跨数据集比较和临床转化中面临的可重复性挑战,推动精准肿瘤学发展。
引言
单细胞RNA测序(scRNA-seq)已成为探索癌细胞转录异质性的重要工具。尽管研究揭示了显著的瘤内和瘤间异质性,但越来越多的证据表明,不同肿瘤内的癌细胞亚群表现出相似的转录程序。这导致了大量基因表达特征(即50至200个共表达基因的集合)的识别,这些特征定义了不同的共享细胞程序或状态。这些状态,包括癌症干细胞等罕见群体,反映了肿瘤生长、进展和耐药性背后的机制,使得相应的基因表达特征对于患者分层以及提出关于肿瘤发生和转移行为的假说具有重要价值。然而,癌症中共享转录状态的基因表达特征往往难以在不同研究间重现,这种不一致性限制了跨数据集的比较。准确且可重复地识别跨患者共享的恶性状态仍然是一个核心挑战,对指导治疗决策具有直接影响。计算方法学上的差异是导致这种难以重现的原因之一。
从scRNA-seq数据中发现基因表达特征的计算方法可大致分为早期整合和晚期整合方法。所有早期整合方法都需要先将所有患者的scRNA-seq数据合并到一个统一的数据集中,然后识别共享的转录特征,随后进行聚类并将细胞簇分配给不同的状态。早期整合方法包括BBKNN、CCA、Combat、Dhaka、Harmony、ldvae、fastMNN、MNC、rPCA、Scanorama和scVI。相比之下,晚期整合方法首先在个体患者水平识别转录特征,随后将这些患者特异性程序聚合为共享状态。例子包括scalop和非负矩阵分解(NMF)方法的变体GeneNMF。每种方法都有其独特的优势和权衡。早期整合增强了统计功效,可能有助于检测在单个样本中代表性不足的罕见转录状态,但也可能因过度校正患者特异性效应而引入伪影,从而损害可重复性。相反,晚期整合减轻了过度校正的风险,但可能在检测对癌症生物学至关重要的罕见细胞状态方面存在困难。
CanSig基准测试工具的设计
为了弥补这一空白,研究者引入了CanSig,这是一个用于评估旨在揭示癌细胞中共享转录状态的计算方法的综合性基准测试工具。CanSig利用了来自五种癌症类型(胶质母细胞瘤、乳腺癌、肺腺癌、横纹肌肉瘤和皮肤鳞状细胞癌)的12个scRNA-seq数据集,涵盖了185名患者和174,000个恶性细胞。该基准测试评估了13种整合方法在不同(预)处理条件下的性能,其目标是评估方法重新发现已确立的“金标准”特征的能力、识别具有潜在临床相关性的特征的能力,以及测量所发现特征在数据集间的可重复性。
材料与方法
研究使用了十二项已发表研究的数据集,包括五个胶质母细胞瘤数据集、三个肺腺癌数据集、一个皮肤鳞状细胞癌数据集、两个横纹肌肉瘤数据集和一个乳腺癌数据集。数据预处理遵循标准单细胞分析流程。对于早期整合方法(如BBKNN、Harmony、fastMNN等),评估了其在批次校正和生物信号保存方面的性能,使用了来自scIB基准测试的两类主要评分:批次校正分数和生物保守性分数。对于早期和晚期整合方法的评估,主要目标是评估每种方法重新发现预定义的“金标准”转录特征的能力。研究者引入了一个基因表达特征评分指标,该指标评估了被发现特征与金标准特征之间的相关性,并对与被多个金标准特征高度相关的被发现特征进行惩罚。
早期整合策略在人类癌症样本scRNA-seq数据集上表现出不同的性能
使用CanSig评估了11种早期整合策略在七个数据集上的表现。Combat和Dhaka在批次校正和生物保守方面持续表现不佳,而ldvae主要在批次整合方面表现较差。有趣的是,未整合的基线数据在保留生物信号方面通常优于Combat、Dhaka、CCA和Scanorama。相比之下,BBKNN、fastMNN和Harmony方法在不同数据集上表现出稳健的性能,其低维细胞嵌入显示清晰的细胞类型分离和来自不同患者的细胞间的良好混合。分析还显示,高变基因(HVG)的数量选择对早期整合方法的性能影响有限,选择2000到4000个HVG通常效果较好,且按患者特异性选择HVG通常能带来更好的性能。
早期和晚期整合方法在转录特征重新发现方面表现不一
研究者评估了早期和晚期整合策略在重新发现跨不同癌症类型和数据集的“金标准”特征方面的能力。BBKNN成为表现最佳的方法,其次是GeneNMF和fastMNN,它们在不同癌症类型和数据集中能持续重新发现特征,尽管在乳腺癌数据集中的准确性较低。值得注意的是,没有一种方法能成功重新发现Wu及其同事报道的乳腺癌特征,这与此前在基准测试第一阶段中评估数据集整合方法时观察到的所有测试方法性能低下相符。样本效率比较显示,早期整合方法BBKNN和fastMNN在所有样本量下均保持强劲性能,而晚期整合方法在样本量增加时表现显著提升。这表明确保方法识别出的特征不仅仅是计算产物,而是与临床结果有意义的关联。此外,对于数据稀疏性的模拟测试显示,除scalop外,大多数方法在不同稀疏度水平下都表现出显著的稳健性。
跨数据集发现评估
为了评估不同方法在新数据集中重新发现先前报道的特征的能力,研究测试了它们在三个外部胶质母细胞瘤数据集中识别Neftel等人“金标准”特征的性能,并在两个外部肺腺癌数据集中测试了Kim等人“金标准”特征的性能。研究还评估了方法的“跨数据集一致性”。结果表明,某些方法(如BBKNN)在不同数据集间表现出良好的一致性,而其他方法(如scalop)的表现则更具数据集特异性。这强调了方法选择需考虑具体的数据集特点和研究目标。
样本效率比较
为了探究早期整合策略是否更适合在低样本量情况下捕获“金标准”特征,研究者比较了三种早期整合方法(BBKNN、scVI、Harmony)与两种晚期整合方法(scalop和GeneNMF)的样本效率。结果表明,早期整合方法BBKNN和fastMNN在所有样本量下均保持强劲性能,而晚期整合方法在样本量增加时表现显著提升。
模拟稀疏性
为了模拟scRNA-seq数据中不同水平的稀疏性,研究使用了Neftel等人的SS2数据集作为参考。通过逻辑回归模型估计dropout概率,并随机将非零条目的一定比例(25%、50%、75%、90%)设为零,从而生成了稀疏度递增的数据集。结果表明,除scalop外,大多数方法在不同稀疏度水平下都表现出显著的稳健性。
所发现特征与生存及临床特征的关联
为了评估所发现特征与生存和临床特征的关联程度,研究者首先将单细胞数据中发现的特征在外部批量数据集中进行评分。他们选择了癌症基因组图谱(TCGA)中与原始癌症类型对应的批量数据集。对于每个特征,使用标志基因的平均Z分数对TCGA患者进行评分。为了将特征与批量队列中的生存联系起来,将评分作为单变量Cox比例风险模型的输入。对于与临床特征的关联,使用Mann-Whitney U检验比较了患者组间的特征分布。临床分类包括淋巴结转移状态和疾病进展。
结论
综上所述,CanSig基准测试工具提供了一个系统且标准化的框架,用于评估从癌症单细胞转录组数据中识别共享转录状态的计算方法。通过对13种方法在12个数据集上的全面评估,研究者确定了在批次校正、生物信号保存、特征重新发现及临床相关性方面表现优异的整合策略,特别是BBKNN、Harmony和fastMNN。该研究强调了方法选择需考虑数据特性(如样本量、稀疏度)和研究目标(如重现已知特征或发现新特征),并为未来开发更鲁棒、可解释且临床可转化的计算方法奠定了基础。CanSig框架及其附带的用户友好教程和应用程序接口(API),使研究人员能够评估新方法或为其特定的、用户定义的“金标准”特征识别最佳策略。