《Diagnostics》:A Comparative Study of the Clinical Laboratory Quality Control Performance of AI-PBRTQC and Traditional PBRTQC Model in Tumor Marker Testing
Bowen Su,
Yanpeng Zhang,
Xian Wu,
Yaping Jiang,
Yinan Song and
Xiaomin Shi
编辑推荐:
背景: 肿瘤标志物检测的准确性对临床决策至关重要。患者基实时质量控制(PBRTQC)作为传统室内质量控制(IQC)的补充方法,已广泛应用于临床实验室。近年来,随着自动化和人工智能(AI)的快速发展,大量基于AI的PBRTQC优化算法涌现。本研究比较了集成神经网
背景: 肿瘤标志物检测的准确性对临床决策至关重要。患者基实时质量控制(PBRTQC)作为传统室内质量控制(IQC)的补充方法,已广泛应用于临床实验室。近年来,随着自动化和人工智能(AI)的快速发展,大量基于AI的PBRTQC优化算法涌现。本研究比较了集成神经网络与联合概率分析的患者基实时质量控制(NN-PBRTQC)、患者基预分类实时质量控制(PCRTQC)和传统PBRTQC,以确定肿瘤标志物检测质控的最佳方法。方法: 研究利用了北京大学第一医院临床肿瘤标志物检测数据。选取了六种常见肿瘤标志物,引入恒定误差(CE)和比例误差(PE)作为分析误差指标。使用假阳性率(FAR)反映算法的特异性,使用修剪的平均患者结果受影响数(tANPed)反映其敏感性,以比较不同模型的临床性能。结果: 在相同的期望FAR(DFAR)为0.1%的条件下,NN-PBRTQC相比传统PBRTQC平均降低了62%的六种肿瘤标志物tANPed,同时保持了相同的FAR,显示出优越的错误检测敏感性。同时,尽管PCRTQC严格控制了FAR,但其tANPed平均值比传统PBRTQC高出23%,表明其错误检测敏感性不足。结论: NN-PBRTQC在六种常见肿瘤标志物的比较中表现出卓越的综合质量控制性能。在保证FAR不偏离DFAR的同时,显著降低了tANPed,能够满足临床检测的特异性和敏感性要求,有望实现更高效、准确的肿瘤标志物误差检测。
研究背景与意义
肿瘤标志物作为癌症诊断与治疗的关键生物分子,其血清检测结果的准确性直接关系到早期筛查、辅助诊断及预后评估等临床决策的有效性。然而,当前临床实验室使用的肿瘤标志物试剂面临校准品特性及批间差异带来的结果一致性与稳定性挑战。传统的室内质量控制(IQC)依赖于质控品,存在显著的基质效应、高昂的长期成本以及固定的监测周期等局限,难以满足实时、连续的质量监控需求。相比之下,患者基实时质量控制(PBRTQC)利用患者实时检测数据进行监控,成本低且无基质干扰,逐渐成为弥补传统质控缺陷的重要补充手段。尽管PBRTQC已建立了包括移动平均(MA)和指数加权移动平均(EWMA)在内的统计框架,但由于肿瘤标志物检测结果变异范围广且呈明显偏态分布,易导致假阳性率(FAR)过高或错误检测延迟等问题,阻碍了其在肿瘤标志物质控中的广泛应用。近年来,人工智能(AI)特别是机器学习(ML)的融入,催生了诸如回归调整实时质量控制(RARTQC)、患者基预分类实时质量控制(PCRTQC)、集成神经网络与联合概率分析的患者基实时质量控制(NN-PBRTQC)等多种优化算法,为肿瘤标志物质控提供了多元选择。然而,不同算法在敏感性、特异性及适用场景上存在显著差异,且缺乏基于同一数据库的系统比较研究,导致实验室在实际应用中难以抉择。鉴于生化领域已有较成熟的PBRTQC共识,而免疫学检测特别是肿瘤标志物领域的PBRTQC研究相对匮乏,且肿瘤标志物数据与常规分析物存在本质差异,开展针对性的模型性能比较研究迫在眉睫。因此,本研究首次利用大规模肿瘤标志物检测结果数据集,采用标准化评估体系,比较NN-PBRTQC、PCRTQC与传统PBRTQC的性能,旨在为临床实验室选择精准高效的肿瘤标志物PBRTQC方案提供依据,提升检测质量与临床效用。该研究成果发表于《Diagnostics》杂志。
关键技术方法
研究人员收集了北京大学第一医院2025年1月2日至11月5日的临床肿瘤标志物检测记录,聚焦于罗氏诊断E801仪器的数据,涵盖癌胚抗原(CEA)、甲胎蛋白(AFP)、糖类抗原19-9(CA19-9)、糖类抗原125(CA125)、细胞角蛋白19片段(CYFRA21-1)和胃泌素释放肽前体(PROGRP)六种标志物。数据集按时间分为训练验证集(1月至8月)和测试集(9月至11月)。研究依据行业标准设定总允许误差(TEa)为25%,并在测试集中引入恒定误差(CE)和比例误差(PE)两种类型的偏差,幅度为±1 TEa和±2 TEa。性能评估以假阳性率(FAR)衡量特异性,以修剪的平均患者结果受影响数(tANPed)衡量敏感性。研究对比了三种模型:传统PBRTQC直接采用原始结果进行EWMA统计;PCRTQC在PBRTQC前引入基于OPTICS和SVM的样本预分类步骤;NN-PBRTQC则融合深度神经网络(DNN)与统计过程控制(SPC),利用患者人口统计学特征拟合非线性映射关系,以残差替代原始数据进行监控。
研究结果
3.1. 不同算法模型特异性的比较
在DFAR为0.1%的条件下,比较了NN-PBRTQC、PCRTQC和传统PBRTQC的FAR值。结果显示,对于CEA、AFP、CA19-9、CA125和CYFRA21-1,NN-PBRTQC和传统PBRTQC的FAR值均接近DFAR,满足特异性要求。但对于PROGRP,两者均出现FAR不稳定现象,经调整控制阈值后达标。相比之下,PCRTQC对所有分析物的PE和CE均能将FAR严格控制在0.1%,未发生失控情况,确保了模型特异性满足应用需求。
3.2. 不同算法模型敏感性的比较
在相同DFAR下,比较了三种模型在±1 TEa和±2 TEa时的tANPed值。结果表明,尽管PCRTQC在特定条件下tANPed低于传统方法,但在大多数情况下其值显著高于传统PBRTQC,差异具有统计学意义(p < 0.05)。而NN-PBRTQC相比传统PBRTQC表现出更优的敏感性,其tANPed值普遍更低。具体而言,NN-PBRTQC使六种肿瘤标志物的tANPed平均降低了62%。以CEA为例,在不同幅度的CE和PE下,tANPed降低幅度从32%至81%不等。特别是对于CA19-9和CYFRA21-1,NN-PBRTQC在检测-1 TEa误差时,tANPed分别降低了48%(CE)和57%(PE),以及67%(CE)和51%(PE),显示出明显的临床改善趋势。虽然对于CA19-9的+1 TEa CE和CYFRA21-1的-1 TEa PE,部分模型出现未检出情况,但总体上NN-PBRTQC展现了卓越的误差检测能力。
结论与讨论
研究结论表明,在定义的分析物范围和单中心实验条件下,NN-PBRTQC在敏感性和特异性方面均表现出优于传统PBRTQC的性能,显示出在肿瘤标志物检测粗质控中应用的巨大潜力,能有效提高识别检测错误的效率和准确性。然而,研究也存在固有的局限性,如单中心样本来源和纳入的分析物数量有限,尚不宜断定模型的普遍最优性,需通过后续多中心研究和更大样本队列进一步验证其临床实用性。讨论部分指出,尽管NN-PBRTQC表现优异,但在面对PROGRP等高离散度标志物时FAR易失控,且对CA19-9和CYFRA21-1的微小误差检测仍有不足,未来需进一步优化模型。此外,研究采用的引入人工误差评估性能的方法虽为主流,但无法完全反映模型检测真实误差的能力,尽管已通过并行计算平台对神经元特异性烯醇化酶(NSE)进行了实际临床验证,发现NN-PBRTQC较传统方法早一天发出异常预警,但仍需更多真实世界数据支持。