常规实验室数据用于犬类癌症早期检测的可行性评估:机器学习在非平衡数据集上的性能极限研究

《Veterinary Oncology》:Assessing the feasibility of early cancer detection using routine laboratory data: an evaluation of machine learning approaches on an imbalanced dataset

【字体: 时间:2026年02月21日 来源:Veterinary Oncology

编辑推荐:

  本文通过金毛猎犬终身研究(GRLS)队列,系统评估了仅利用常规实验室数据(CBC/Chem)构建癌症风险分类模型的可行性。研究发现,尽管逻辑回归模型在患者风险排序上表现出统计显著性(AUROC=0.815),但因信号非特异性(主要基于年龄、炎症和贫血标志物)、数据严重不平衡(癌症阳性访问仅占6.3%)及治疗后混淆,模型临床分类表现不佳(F1-score=0.25, PPV=0.15)。该研究为此单一数据模态下的癌症检测设立了性能天花板,并指出未来有意义的进步需依靠多模态数据整合。

  
评估利用常规实验室数据进行犬类癌症早期检测的可行性:机器学习在非平衡数据集上的系统性研究
背景
癌症是伴侣犬的主要死亡原因,其发病率随年龄增长而升高。尽管早期癌症风险评估是亟待满足的关键需求,但目前存在显著的诊断缺口,例如,一项2025年的调查显示,美国兽医诊所中62%的犬只肿块未被确诊。常规实验室诊断数据,如全血细胞计数(CBC)和血清生化(Chem)面板,因其普及性、低成本及可产生大量纵向结构化数据,被视为开发筛查工具的重要潜在数据源。然而,其应用受到两个主要挑战的限制:一是生物标志物的非特异性,例如贫血等改变常见于多种非肿瘤性炎症或老年性疾病;二是筛查群体中癌症的低患病率,这为机器学习模型创建了严重的数据集不平衡问题。本研究的核心假设是,常规实验室数据中可能蕴藏着可被机器学习捕捉的微弱、多变量癌症信号。
方法
本研究数据来源于莫里斯动物基金会(MAF)金毛猎犬终身研究(GRLS)队列,这是一项包含3044只纯种金毛猎犬的大型前瞻性观察性研究。研究设计刻意反映了现实世界数据约束,包括合并多种癌症类型(如血管肉瘤、肥大细胞瘤、淋巴瘤等)以及纳入诊断后的访问数据,以评估“现实世界”条件下此类数据的效用。
数据管理
通过多步骤流程构建了最终分析数据集,包括:
  • 病例确认:整合“恶性肿瘤和死亡原因”与“疾病-肿瘤”两个数据源,最终确定了659名癌症受试者。
  • 数据集构建:将癌症队列与犬只人口统计学、临床实验室(CBC/Chem)数据合并。排除了缺失值超过70%的实验室参数。计算了每次访问时的年龄,并基于诊断日期对访问进行时间标记。只有发生在诊断日期当天或之后的访问,才被标记为癌症阳性(Tumor=1)。对于41.4%没有诊断后实验室数据的癌症受试者,将其最后一次诊断前的访问标记为阳性,以保留少数类样本。
  • 特征工程:初始特征集包括CBC和生化参数、年龄和性别。工程化构建了两个与系统性炎症相关的复合比率:中性粒细胞与淋巴细胞比率(NLR)和血小板与淋巴细胞比率(PLR)。缺失数据使用链式方程多重插补(MICE)进行处理,所有数值数据使用RobustScaler进行缩放。
最终的分析数据集包含来自3044只犬的22,460次临床实验室访问。癌症阳性访问仅占6.3%,体现了严重的类别不平衡。数据集在患者层面被分割为训练集(60%)、验证集(20%)和测试集(20%),以防止信息泄露。
模型开发与评估
研究采用了一个系统性的比较框架,以确定最佳建模流程:
  • 基础模型:评估了来自不同算法家族的六个基础模型,包括逻辑回归(LR)、随机森林分类器(RF)、XGBoost分类器、LightGBM分类器、多层感知机(神经网络)和朴素贝叶斯。
  • 特征选择:比较了三种特征集:1) 基于递归特征消除(RFE)和交叉验证确定最佳特征数量的多元特征集;2) 基于单变量选择的特征集(SelectKBest);3) 包含15个与常见副肿瘤综合征(如贫血、血小板减少、高钙血症)相关标志物的手动精选集。
  • 数据平衡技术:比较了六种重采样技术(如SMOTE, ADASYN)与基线(使用类别加权或无重采样)的效果。
共计126种(6模型×3特征集×7平衡技术)分析流程在训练集上进行了5折交叉验证的网格搜索(GridSearchCV),优化指标为马修斯相关系数(MCC)。最终根据模型在验证集上的表现(主要基于MCC和AUROC)选择单一最佳流程。
最终模型评估与解释
选定的流程在合并的训练和验证集上重新训练,并在测试集上进行一次性评估。使用MCC、ROC曲线下面积(AUROC)、精确度、召回率、F1-score、阳性/阴性预测值(PPV/NPV)等指标评估性能。使用SHapley可加性解释(SHAP)对最佳模型的预测进行解释,以了解特征贡献。
结果
最佳模型性能
在验证集上表现最佳的是结合了类别加权和递归特征消除(RFE)的逻辑回归模型。在测试集上,该模型在患者风险排序方面表现出中等能力,AUROC为0.815(95% CI: 0.793-0.836),显著优于随机猜测。然而,其作为临床分类工具是失败的:F1-score低至0.25,阳性预测值(PPV)仅为0.15。这意味着,在所有被模型标记为“高风险”的访问中,只有15%是真正的癌症病例,而85%是假阳性。尽管阴性预测值(NPV)高达0.98,但召回率(0.79)不足,即模型未能识别出21%的癌症犬,这使其无法安全地用作排除性检查。接收者操作特征(ROC)曲线与精确度-召回率(PR)曲线的对比,直观展示了这种统计可检测性与临床无效性之间的差距。
预测驱动因素:可解释人工智能分析
SHAP分析清晰地解释了模型性能的矛盾。预测主要受生物学上合理但高度非特异性特征的驱动。患者年龄是最具影响力的预测因子。紧随其后的是与贫血(如较低的血红蛋白)和炎症(如较高的杆状中性粒细胞、较高的NLR)相关的特征。这表明模型实际上学会了识别具有慢性疾病迹象的年老犬只,而非癌症的特异性信号。
讨论
性能矛盾的根源
研究结果揭示了机器学习在非平衡数据集上应用的常见不一致性:良好的ROC曲线与较差的PR曲线并存。这表明数据中存在微弱但真实的信号,但癌症与非癌症队列风险评分的分布存在严重重叠,导致无法选择一个能清晰区分两组的分类阈值。模型表现出的高阴性预测值(NPV)因其不足的召回率而无法支持其作为“排除工具”的临床应用,漏诊21%的癌症患者将导致严重后果。
关键局限性与混杂因素
模型性能受到多重限制:
  1. 1.
    信号非特异性:模型依赖的特征(年龄、炎症和贫血标志物)无法将癌症引起的改变与正常衰老或其他常见老年性疾病(如慢性肾病、炎症性肠病)引起的改变区分开来,这是高假阳性率的直接原因。
  2. 2.
    治疗导致的时变混杂:这是研究设计中最重大的限制之一。由于包含了诊断后的访问,模型很可能将治疗的医源性影响与癌症标签关联起来,而非疾病本身的信号。例如,接受CHOP方案化疗的淋巴瘤犬可能出现应激性白细胞像,而接受帕拉丁(Palladia?)治疗的肥大细胞瘤犬可能出现胃肠道毒性导致低白蛋白血症。因此,模型学到的可能是“癌症→诊断→治疗→血液变化”这一混杂路径,而非期望的“癌症→血液变化”路径,这使其不适用于治疗初筛前的无症状筛查。
  3. 3.
    多癌症方法:由于数据限制(GRLS数据集在访问时处于部分保密期),研究被迫将数十种组织学不同的恶性肿瘤合并分析。这迫使模型寻找不同癌症之间的共同信号,不可避免地偏向于检测系统性疾病的通用标志物(如炎症、贫血),从而限制了特异性。
  4. 4.
    研究人群单一:研究仅限于金毛猎犬这一对特定癌症有遗传易感性的品种,限制了结果的普适性。
  5. 5.
    数据模态单一:模型仅使用实验室数据、年龄和性别,缺乏关键的临床背景信息(如体格检查结果、合并症)。
临床意义与未来方向
本研究的模型,以及任何仅基于此单一数据模态的模型,都不适合临床应用。其低PPV会产生大量假阳性,导致不必要的诊断程序、饲主焦虑和兽医资源错配等潜在危害。
本研究的核心价值在于,为仅使用常规血液学数据进行癌症筛查建立了一个现实的、数据驱动的性能基准。它以方法学的严谨性证明,未来的前进方向并非更复杂的算法,而是向多模态数据整合的根本性转变。未来的模型必须整合更多维度的信息,如临床病史、体格检查、影像学(影像组学)、分子诊断等,以构建更接近专家临床医生诊断推理的整体患者表征。同时,需要在具有不同癌症易感性的犬种中进行大规模、多中心的外部验证。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号