基于残留粪便免疫化学检测样本的蛋白质组学与机器学习优化结肠镜筛查患者选择:一项中间性结直肠癌筛查技术的探索

《Molecular & Cellular Proteomics》:Exploring an Intermediate Colorectal Cancer Screening Test Based on Stool Proteomics and Machine Learning for Optimizing the Selection of Patients for Colonoscopy Identified from FIT

【字体: 时间:2026年02月22日 来源:Molecular & Cellular Proteomics 5.5

编辑推荐:

  本文研究旨在解决结直肠癌筛查中粪便免疫化学检测(FIT)假阳性率高导致大量不必要结肠镜检查的问题。研究者利用机器学习工具分析FIT阳性残留样本的蛋白质组学数据,发现该方法能以≥90%的特异性识别大部分FIT假阳性,并能准确预测真阳性CRC病例,为优化结肠镜筛查患者选择提供了高效策略,有望显著减少不必要的侵入性检查。

  
结直肠癌(CRC)是全球范围内致死率最高的癌症类型之一,但同时也是少数通过筛查可有效降低平均风险人群死亡率的癌症之一。早期发现是改善CRC生存率的关键。目前,结肠镜检查是检测CRC及其癌前病变——进展期腺瘤(AA)的金标准。然而,其侵入性、不适感、准备过程复杂、并发症风险、成本及可及性等因素,限制了其作为首步筛查的普适性。因此,非侵入性筛查方法应运而生,用于对无症状人群进行初筛,筛选出阳性者再进行结肠镜检查。
粪便免疫化学检测(FIT)是当前广泛应用的一种非侵入性筛查方法,通过检测粪便中的人血红蛋白来提示肠道出血。虽然FIT在CRC筛查项目中显示出一定效果,但其对AA的检出敏感性较低(10-28%),且会产生相当比例的假阳性结果,导致大量不必要的结肠镜检查。据统计,在FIT阳性结果中,有高达45-70%的结肠镜检查最终发现为非肿瘤性或阴性结果。这不仅造成了医疗资源的浪费和患者的经济负担,还可能因为不必要的侵入性检查及漫长的等待名单,降低患者对筛查后续步骤的依从性。因此,开发一种能在FIT阳性后、结肠镜检前进行有效分流的“中间检测”方法,精准识别出真正需要结肠镜的高风险患者,同时筛除假阳性者,成为优化CRC筛查流程、提升效率的迫切需求。
一篇发表于《Molecular & Cellular Proteomics》的研究论文,题为“Exploring an Intermediate Colorectal Cancer Screening Test Based on Stool Proteomics and Machine Learning for Optimizing the Selection of Patients for Colonoscopy Identified from FIT”,为我们带来了新的希望。该研究由David Gagné等人领导,探索了利用残留的FIT粪便样本进行蛋白质组学分析,结合机器学习工具,作为结肠镜检查前的分流步骤的可行性。
研究者主要采用了以下关键技术方法:他们从加拿大魁北克FIT筛查项目中获取了141份FIT阳性样本,包括50例无病变对照(G1)、45例进展期腺瘤(G2)和46例结直肠癌(G3)。使用高通量液相色谱-串联质谱(LC?MS/MS)技术,特别是数据非依赖性采集(DIA)模式的SWATH方法,对样本进行蛋白质组学分析。通过构建光谱库并进行无标记定量,获得了样本的蛋白质表达谱。随后,研究团队运用了包括主成分分析、随机森林、正则化随机森林、支持向量机递归特征消除、Boruta和Lasso在内的多种机器学习算法进行特征选择和模型构建。最终利用弹性网络正则化广义线性模型(glmnet)等分类器,基于筛选出的蛋白特征来区分假阳性FIT结果与真正的AA/CRC病例,并评估模型的预测性能。
研究结果
  • 主成分分析基准模型
    研究人员首先对334个蛋白质进行了差异丰度分析,通过Mann-Whitney U检验,并结合错误发现率校正和光谱质量验证,最终确定了13个在G2/G3组与G1对照组间表达存在显著差异的蛋白质。基于这13个蛋白(去除高度相关的血红蛋白同源蛋白后保留9个),他们构建了一个主成分分析结合逻辑回归的基准模型。该模型在区分所有样本时,达到了92%的敏感性(正确识别G2/G3)和74%的特异性(正确识别G1),平衡准确率为83%。尤为突出的是,该模型对CRC样本(G3)的识别敏感性达到了100%,对AA样本(G2)的敏感性为82%,表明蛋白质组数据中蕴含着强大的区分信号,尤其对癌症的识别能力很强。
  • 机器学习特征选择与稳定性
    为了挖掘更深层次的预测信息,研究采用监督式机器学习方法。研究将数据集按8:2的比例分为训练集和独立测试集。在训练集上,使用五种不同的机器学习算法进行特征选择,每种算法运行50次以增强稳定性,并通过Borda计数法整合排名,最终筛选出25个共识特征。稳定性分析显示,Lasso和SVM-RFE的特征选择最为稳定。经过后续光谱可靠性检查和方差膨胀因子分析以消除共线性后,最终得到一个包含16个蛋白质的特征面板用于后续建模。
  • 机器学习分类模型构建与评估
    研究使用包含16个蛋白特征的面板,在训练集上训练了六种监督机器学习分类模型。通过混合学习曲线分析评估模型在不同训练数据量下的表现,发现glmnet(弹性网络)和支持向量机(SVM)模型表现最优,学习曲线平稳且过拟合风险低。这两个模型在训练集和独立测试集上都表现出色且性能稳定。最终选择glmnet作为最终模型,因其具有更好的可解释性。在独立测试集上,glmnet模型在区分G2/G3与G1时,曲线下面积达到0.961,敏感性为88.9%,特异性为80%。模型对CRC(G3)的识别性能(AUC 0.989)再次优于对AA(G2)的识别(AUC 0.923)。
  • 模型特征贡献分析
    对最终glmnet模型进行SHAP(SHapley Additive exPlanations)分析,以量化每个特征对模型预测的贡献。结果显示,CD44抗原和转录起始因子TFIID亚基2(TAF2)是影响模型决策最重要的两个特征。血红蛋白亚基β(HBB)、PGAP2相互作用蛋白(PG2IP)和载脂蛋白D(APOD)也具有较高的重要性。而一些免疫球蛋白相关蛋白(如IGHA2)的贡献度相对较低。这一分析为理解模型决策提供了生物学见解。
研究结论与重要意义
本研究成功证明,利用残留FIT样本进行蛋白质组学分析,并结合机器学习建模,可以有效区分FIT阳性的CRC/AA患者与假阳性健康对照。所开发的模型,特别是基于弹性网络正则化的广义线性模型,在独立测试集上表现出优异的性能,尤其在识别CRC病例方面接近完美。
这项研究的意义重大且是多方面的。首先,它为解决当前CRC筛查中FIT假阳性率高这一核心痛点提供了创新的解决方案。通过引入基于粪便蛋白质组学的“中间检测”步骤,可以大幅减少不必要的结肠镜检查。研究数据显示,在固定特异性为80%的情况下(即允许20%的假阳性仍建议结肠镜),该模型对CRC的检测敏感性高达98%,对AA也达到82%。这意味着在保持较高CRC检出率的同时,能显著减少因假阳性导致的结肠镜资源浪费和患者负担。
其次,该策略具有很高的临床转化潜力。它直接利用现有的、标准化的FIT筛查流程中剩余的样本,无需患者重新采样,提高了便利性和可接受性。这有助于提升筛查项目的整体依从性,因为当患者得知二次检测能更精准判断是否需要结肠镜时,他们更可能同意进行后续检查。
再者,该技术不仅能“排除”假阳性,还能“优先”真阳性。模型对CRC病例近乎完美的识别能力,意味着可以优先安排这些高风险患者进行快速通道结肠镜检查,从而可能改善预后。同时,减少假阳性结肠镜的负担,使得医疗系统有可能将筛查年龄门槛降低至建议的45岁,或降低FIT的阳性阈值以捕获更多早期病变,从而惠及更广泛的人群。
最后,研究筛选出的关键蛋白特征(如CD44、TAF2、HBB等)及其涉及的生物学通路(如免疫炎症反应、血管稳态等),为理解结直肠癌及其癌前病变的粪便蛋白质组学特征提供了新线索,具有潜在的生物学研究价值。
总之,这项研究为优化结直肠癌筛查流程迈出了关键一步,展示了一种将蛋白质组学与人工智能相结合、实现精准、高效、非侵入性分流筛查的新范式,有望在未来显著提升CRC筛查的成本效益和临床效用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号