编辑推荐:
本文介绍了一种开源R工具CompensAID,它能够自动识别多色与光谱流式细胞数据中可能受参考误差(Reference Errors,因单染参考对照不准确导致的荧光渗漏系数估计错误)影响的标记物组合,从而显著减轻手动检查的负担,提升数据分析的可靠性。
1 引言
多色流式细胞术通过同时检测单个细胞上的多种荧光染料,为全面的细胞分析提供了可能。然而,由于光谱重叠,每种荧光团发出的光子通常会被多个检测器捕获。这意味着原始检测器输出值并不直接对应于特定荧光团的真实丰度。为了解析这一问题,需要对原始数据应用数学模型来估计导致观测信号的内在荧光团贡献。这一过程在历史上被称为补偿(compensation),它是真正光谱解混(spectral unmixing)的一种简化实现。无论是传统流式细胞术还是光谱流式细胞术系统,从根本上都依赖于相同的数学线性解混模型。
该线性解混模型的核心组成部分是混合矩阵(mixing matrix),其系数通常源自单染参考对照。如果这些单染参考对照不够亮或未能完全捕获技术或生物特征,就会导致混合矩阵系数估计不准确,这些不准确性被称为参考误差。参考误差的影响在解混后表现为种群分布的偏移(skewed populations),因此也被流式细胞学界称为“解混错误”、“补偿错误”、“过补偿”或“欠补偿”。
随着流式细胞术面板复杂性和数据集规模的增长,手动检查所有标记物组合以发现此类人工痕迹变得不切实际。为了应对这一挑战,研究团队开发了CompensAID。
2 方法论
2.1 流式细胞术数据
研究使用了三个独立的数据集来构建、验证和评估CompensAID工具。构建和验证使用的数据来自40例B细胞前体急性淋巴细胞白血病(BCP-ALL)患者的骨髓样本,使用8色EuroFlow BCP-ALL诊断面板在BD FACSLyric或BD FACSCanto II传统流式细胞仪上测量。工具的可扩展性测试则使用了急性髓系白血病(AML)患者骨髓样本(25色髓系面板,Cytek Northern Lights仪器)以及公开的人类外周血单个核细胞数据集(50色免疫面板,BD FACSDiscover S8仪器)。
2.2 模拟数据
为了说明原理并辅助开发,研究模拟了三个种群,每个包含30,000个事件,荧光强度从对数正态分布中采样。
2.3 CompensAID超参数
CompensAID工具需要以flowCore包格式的预处理流式帧作为输入。它包含两个超参数,均设有默认值:阳性种群内的分段数量(segment.value,默认4)以及每段所需的最小事件数(events.value,默认50)。
2.4 性能评估
工具的性能与来自多个机构的五位流式细胞术专家的共识进行了比较。专家们对每个标记物组合进行分类并打分,共识分大于或等于3(满分5)被认为存在参考误差,以此作为金标准。
2.5 性能指标
评估指标包括灵敏度(sensitivity)、精确度(precision)、特异性(specificity)、F1分数(F1 score)和平衡准确度(balanced accuracy),并使用受试者工作特征(ROC)曲线进行分析。
3 结果
3.1 CompensAID工具的开发
CompensAID基于二次染色指数(Secondary Stain Index, SSI)的概念,该指数通过量化主标记物(x轴)阳性与阴性种群中次标记物(y轴)的中位荧光强度(MFI)差异来检测参考误差。工具的工作流程如下:
- 1.
输入预处理(转换、解混、清洗)后的FCS文件。
- 2.
使用基于密度的截断检测方法自动圈定每个标记物的阳性和阴性种群,并增加一个额外边界以确保种群清晰分离。
- 3.
& 4. 应用自动圈门,获得阳性和阴性种群。
- 4.
将阳性种群等分为n个片段(默认n=4)。
- 5.
& 7. 为每个片段计算SSI值。SSI计算公式为:SSIn= (MFIpos, n- MFIneg) / (2 × SDneg),其中SDneg是次标记物阴性种群的荧光强度标准差。
- 6.
如果最后一个(最亮)片段的SSI值小于-1,则将该标记物组合标记为可能存在参考误差。
- 7.
所有SSI值被可视化在一个SSI矩阵中,以便快速识别需要进一步检查的标记物组合。
3.2 潜在参考误差的专家评估
五位专家评估了2240个传统流式细胞术的标记物组合,结果显示出显著的评估异质性。专家间达成完全一致(共识分0或≥3)的标记物组合占80%(1785/2240)。其中,1761个(79%)被所有专家一致认为无参考误差,24个(1%)获得共识分≥3,被认为存在参考误差。其余20%(455个)的标记物组合专家评分差异较大。
3.3 CompensAID工具的优化
研究测试了不同分段数量(1到6)对工具性能的影响。结果显示,引入两个或更多分段后,工具的灵敏度(识别真阳性的能力)有所提高。当分段数为4或5时达到最高灵敏度(0.96),其中4分段在精确度和F1分数上略优,因此选定4作为默认分段数。基于4分段的ROC曲线下面积(AUC)达到0.9592。关于最小事件数阈值,研究发现将事件数要求提高到50个可以在不影响真阳性检测的前提下减少假阳性,因此将events.value默认值设为50。
3.4 工具性能验证及与专家共识的比较
在40个传统流式细胞术文件的2240个标记物组合中,CompensAID成功识别了专家共识认定的24个存在参考误差组合中的23个,灵敏度达0.96。唯一漏检的一个案例涉及溢出扩散误差(spillover spread error, SSE),该误差产生的MFI模式与阴性种群相似,因此工具未将其标记为参考误差是合理的。同时,工具检测出73个假阳性(FP),这些通常与圈门不理想或片段内事件数较少有关。工具处理全部40个文件仅需约40秒。
3.5 可扩展性及在光谱面板中的应用
在光谱流式细胞术数据集(24色面板,1656个标记物组合)上,CompensAID处理一个文件约需50秒。与专家共识相比,工具成功标记了28个共识阳性组合中的21个,灵敏度为0.74。在7个漏检的组合中,有5个的SSI值接近-1的检测阈值,另外2个则由于阳性种群的MFI与阴性种群差异不足而未被检出。工具的精确度、特异性、F1分数和平衡准确度分别为0.33、0.97、0.46和0.86。这些结果表明CompensAID同样适用于光谱流式细胞术数据,但接近阈值的组合可能需要额外的目视检查。
4 讨论
CompensAID工具能够自动检测表现出可能由参考误差引起的种群偏移的标记物组合。该工具将SSI这一视觉启发式方法转化为定量分数,并在传统和光谱流式细胞术数据上都与流式细胞术专家的评估表现出高度一致性。通过标记出存在种群偏移的标记物组合,CompensAID可以引导用户重新评估和改进相应的参考对照,或在不可行时对标记的组合保持谨慎解读。
将阳性种群分段显著提升了工具性能,因为偏移通常在较高荧光强度区域更明显,分段计算能更局部、更稳健地量化这种偏移。专家评估中观察到的异质性反映了在解释由参考误差引起的种群偏移时存在主观差异。CompensAID的局限性包括:无法对不存在明确阴性或阳性种群的组合计算SSI;自动化圈门不理想会影响性能;目前主要针对引起种群向下偏移(即过补偿)的参考误差进行优化,对于引起向上偏移(欠补偿)的误差检测,需要用户基于对面板共表达模式的先验知识来解释SSI大于1的组合。此外,工具也可能标记出由参考误差的传播效应(tertiary propagating effects)引起的组合,因此需要专家解读来确定偏移的真正源头。
作者贡献
Rosan Olsman: 研究构思、设计、数据分析、数据解读、撰写、审阅、批准稿件。Sarah Bonte: 研究构思、数据标注、数据解读、审阅、批准稿件。Mattias Hofmans: 研究构思、设计、数据标注、数据解读、审阅、批准稿件。Malicorne Buysse: 数据标注、审阅、批准稿件。Katrien Van der Borght: 数据标注、审阅、批准稿件。Yvan Saeys: 审阅、批准稿件。Vincent H. J. van der Velden: 研究构思、设计、数据标注、数据解读、审阅、批准稿件。Sofie Van Gassen: 研究构思、设计、数据解读、审阅、批准稿件。
数据可用性声明
构建和验证CompensAID工具所用的数据集包括受限制数据和公开数据。来自Euroflow联盟和内部AML面板的数据不公开,但可根据合理请求并提供额外匿名化处理后提供。50色免疫面板的数据可在FlowRepository获取。