常规实验室数据用于犬类癌症早期检测的可行性评估：机器学习在非平衡数据集上的性能极限研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Veterinary Oncology》：Assessing the feasibility of early cancer detection using routine laboratory data: an evaluation of machine learning approaches on an imbalanced dataset

【字体：大中小】 时间：2026年02月21日 来源：Veterinary Oncology

编辑推荐：

　　本文通过金毛猎犬终身研究（GRLS）队列，系统评估了仅利用常规实验室数据（CBC/Chem）构建癌症风险分类模型的可行性。研究发现，尽管逻辑回归模型在患者风险排序上表现出统计显著性（AUROC=0.815），但因信号非特异性（主要基于年龄、炎症和贫血标志物）、数据严重不平衡（癌症阳性访问仅占6.3%）及治疗后混淆，模型临床分类表现不佳（F1-score=0.25, PPV=0.15）。该研究为此单一数据模态下的癌症检测设立了性能天花板，并指出未来有意义的进步需依靠多模态数据整合。

评估利用常规实验室数据进行犬类癌症早期检测的可行性：机器学习在非平衡数据集上的系统性研究

背景

癌症是伴侣犬的主要死亡原因，其发病率随年龄增长而升高。尽管早期癌症风险评估是亟待满足的关键需求，但目前存在显著的诊断缺口，例如，一项2025年的调查显示，美国兽医诊所中62%的犬只肿块未被确诊。常规实验室诊断数据，如全血细胞计数（CBC）和血清生化（Chem）面板，因其普及性、低成本及可产生大量纵向结构化数据，被视为开发筛查工具的重要潜在数据源。然而，其应用受到两个主要挑战的限制：一是生物标志物的非特异性，例如贫血等改变常见于多种非肿瘤性炎症或老年性疾病；二是筛查群体中癌症的低患病率，这为机器学习模型创建了严重的数据集不平衡问题。本研究的核心假设是，常规实验室数据中可能蕴藏着可被机器学习捕捉的微弱、多变量癌症信号。

方法

本研究数据来源于莫里斯动物基金会（MAF）金毛猎犬终身研究（GRLS）队列，这是一项包含3044只纯种金毛猎犬的大型前瞻性观察性研究。研究设计刻意反映了现实世界数据约束，包括合并多种癌症类型（如血管肉瘤、肥大细胞瘤、淋巴瘤等）以及纳入诊断后的访问数据，以评估“现实世界”条件下此类数据的效用。

数据管理

通过多步骤流程构建了最终分析数据集，包括：

•
病例确认：整合“恶性肿瘤和死亡原因”与“疾病-肿瘤”两个数据源，最终确定了659名癌症受试者。
•
数据集构建：将癌症队列与犬只人口统计学、临床实验室（CBC/Chem）数据合并。排除了缺失值超过70%的实验室参数。计算了每次访问时的年龄，并基于诊断日期对访问进行时间标记。只有发生在诊断日期当天或之后的访问，才被标记为癌症阳性（Tumor=1）。对于41.4%没有诊断后实验室数据的癌症受试者，将其最后一次诊断前的访问标记为阳性，以保留少数类样本。
•
特征工程：初始特征集包括CBC和生化参数、年龄和性别。工程化构建了两个与系统性炎症相关的复合比率：中性粒细胞与淋巴细胞比率（NLR）和血小板与淋巴细胞比率（PLR）。缺失数据使用链式方程多重插补（MICE）进行处理，所有数值数据使用RobustScaler进行缩放。

最终的分析数据集包含来自3044只犬的22,460次临床实验室访问。癌症阳性访问仅占6.3%，体现了严重的类别不平衡。数据集在患者层面被分割为训练集（60%）、验证集（20%）和测试集（20%），以防止信息泄露。

模型开发与评估

研究采用了一个系统性的比较框架，以确定最佳建模流程：

•
基础模型：评估了来自不同算法家族的六个基础模型，包括逻辑回归（LR）、随机森林分类器（RF）、XGBoost分类器、LightGBM分类器、多层感知机（神经网络）和朴素贝叶斯。
•
特征选择：比较了三种特征集：1) 基于递归特征消除（RFE）和交叉验证确定最佳特征数量的多元特征集；2) 基于单变量选择的特征集（SelectKBest）；3) 包含15个与常见副肿瘤综合征（如贫血、血小板减少、高钙血症）相关标志物的手动精选集。
•
数据平衡技术：比较了六种重采样技术（如SMOTE, ADASYN）与基线（使用类别加权或无重采样）的效果。

共计126种（6模型×3特征集×7平衡技术）分析流程在训练集上进行了5折交叉验证的网格搜索（GridSearchCV），优化指标为马修斯相关系数（MCC）。最终根据模型在验证集上的表现（主要基于MCC和AUROC）选择单一最佳流程。

最终模型评估与解释

选定的流程在合并的训练和验证集上重新训练，并在测试集上进行一次性评估。使用MCC、ROC曲线下面积（AUROC）、精确度、召回率、F₁-score、阳性/阴性预测值（PPV/NPV）等指标评估性能。使用SHapley可加性解释（SHAP）对最佳模型的预测进行解释，以了解特征贡献。

结果

最佳模型性能

在验证集上表现最佳的是结合了类别加权和递归特征消除（RFE）的逻辑回归模型。在测试集上，该模型在患者风险排序方面表现出中等能力，AUROC为0.815（95% CI: 0.793-0.836），显著优于随机猜测。然而，其作为临床分类工具是失败的：F₁-score低至0.25，阳性预测值（PPV）仅为0.15。这意味着，在所有被模型标记为“高风险”的访问中，只有15%是真正的癌症病例，而85%是假阳性。尽管阴性预测值（NPV）高达0.98，但召回率（0.79）不足，即模型未能识别出21%的癌症犬，这使其无法安全地用作排除性检查。接收者操作特征（ROC）曲线与精确度-召回率（PR）曲线的对比，直观展示了这种统计可检测性与临床无效性之间的差距。

预测驱动因素：可解释人工智能分析

SHAP分析清晰地解释了模型性能的矛盾。预测主要受生物学上合理但高度非特异性特征的驱动。患者年龄是最具影响力的预测因子。紧随其后的是与贫血（如较低的血红蛋白）和炎症（如较高的杆状中性粒细胞、较高的NLR）相关的特征。这表明模型实际上学会了识别具有慢性疾病迹象的年老犬只，而非癌症的特异性信号。

讨论

性能矛盾的根源

研究结果揭示了机器学习在非平衡数据集上应用的常见不一致性：良好的ROC曲线与较差的PR曲线并存。这表明数据中存在微弱但真实的信号，但癌症与非癌症队列风险评分的分布存在严重重叠，导致无法选择一个能清晰区分两组的分类阈值。模型表现出的高阴性预测值（NPV）因其不足的召回率而无法支持其作为“排除工具”的临床应用，漏诊21%的癌症患者将导致严重后果。

关键局限性与混杂因素

模型性能受到多重限制：

1.
信号非特异性：模型依赖的特征（年龄、炎症和贫血标志物）无法将癌症引起的改变与正常衰老或其他常见老年性疾病（如慢性肾病、炎症性肠病）引起的改变区分开来，这是高假阳性率的直接原因。
2.
治疗导致的时变混杂：这是研究设计中最重大的限制之一。由于包含了诊断后的访问，模型很可能将治疗的医源性影响与癌症标签关联起来，而非疾病本身的信号。例如，接受CHOP方案化疗的淋巴瘤犬可能出现应激性白细胞像，而接受帕拉丁（Palladia^?）治疗的肥大细胞瘤犬可能出现胃肠道毒性导致低白蛋白血症。因此，模型学到的可能是“癌症→诊断→治疗→血液变化”这一混杂路径，而非期望的“癌症→血液变化”路径，这使其不适用于治疗初筛前的无症状筛查。
3.
多癌症方法：由于数据限制（GRLS数据集在访问时处于部分保密期），研究被迫将数十种组织学不同的恶性肿瘤合并分析。这迫使模型寻找不同癌症之间的共同信号，不可避免地偏向于检测系统性疾病的通用标志物（如炎症、贫血），从而限制了特异性。
4.
研究人群单一：研究仅限于金毛猎犬这一对特定癌症有遗传易感性的品种，限制了结果的普适性。
5.
数据模态单一：模型仅使用实验室数据、年龄和性别，缺乏关键的临床背景信息（如体格检查结果、合并症）。

临床意义与未来方向

本研究的模型，以及任何仅基于此单一数据模态的模型，都不适合临床应用。其低PPV会产生大量假阳性，导致不必要的诊断程序、饲主焦虑和兽医资源错配等潜在危害。

本研究的核心价值在于，为仅使用常规血液学数据进行癌症筛查建立了一个现实的、数据驱动的性能基准。它以方法学的严谨性证明，未来的前进方向并非更复杂的算法，而是向多模态数据整合的根本性转变。未来的模型必须整合更多维度的信息，如临床病史、体格检查、影像学（影像组学）、分子诊断等，以构建更接近专家临床医生诊断推理的整体患者表征。同时，需要在具有不同癌症易感性的犬种中进行大规模、多中心的外部验证。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号