血清代谢指纹图谱的集成学习模型在肺腺癌早期检测中的应用与生物标志物发现

《npj Precision Oncology》：Ensemble learning on serum metabolic fingerprints for early detection of lung adenocarcinoma

【字体：大中小】 时间：2026年03月05日 来源：npj Precision Oncology 8

编辑推荐：

　　肺癌尤其是肺腺癌（LUAD）是导致癌症相关死亡的主要原因，亟需无创的早期检测策略。为应对此挑战，研究人员开展了基于机器学习辅助的代谢组学研究，旨在利用血清代谢指纹图谱实现LUAD的早期诊断。该工作对199份来自健康人、肺癌前病变患者及I期LUAD患者的血清样本进行了非靶向代谢组学分析，并开发了集成机器学习工作流。研究成功鉴定出两个具有高诊断准确性的代谢物组合：一个六代谢物组合用于准确检测早期LUAD，另一个四代谢物组合用于精确区分癌前病变与浸润性病变。该研究揭示了与LUAD发生发展相关的血清代谢组演变轨迹，为无创早期诊断提供了有前景的生物标志物。

在全球范围内，癌症是威胁人类健康的主要“杀手”，而肺癌在其中扮演了“头号角色”，其发病率和死亡率长期居高不下。肺腺癌（LUAD）作为非小细胞肺癌（NSCLC）中最常见的亚型，其早期症状隐匿，许多患者在确诊时已处于晚期，错过了最佳的治疗时机，这导致了高死亡率。因此，开发一种准确、便捷且无创的早期检测方法，成为临床和科研领域亟待攻克的重大难题。传统的影像学筛查（如低剂量CT）虽然提高了检出率，但也存在假阳性率高、辐射暴露及成本较高等局限性。液体活检，特别是基于血液的检测，因其无创、可重复性强，成为极具潜力的替代或补充方案。其中，代谢组学通过系统分析生物体内所有小分子代谢物的变化，能够灵敏地反映疾病状态下机体的病理生理状态，是发现新型生物标志物的强大工具。然而，如何从海量的代谢组数据中筛选出稳定、特异的标志物组合，并构建高精度的诊断模型，仍然是一个挑战。为了回答如何实现肺腺癌的早期精准诊断这一问题，一组研究人员在《npj Precision Oncology》上发表了一项研究，他们巧妙地将非靶向代谢组学与先进的集成机器学习算法相结合，深入探索了从健康到癌前病变，再到早期浸润癌这一连续过程中的血清代谢图谱演变规律，并成功筛选出具有高诊断效能的微小代谢物组合，为肺腺癌的早期“拦截”提供了新的可能路径。

研究人员开展此项研究主要运用了几个关键技术方法。首先，他们采集并构建了一个包含199份血清样本的队列，这些样本来自健康个体、肺腺癌前病变患者以及I期肺腺癌（LUAD）患者。其次，他们对所有样本进行了非靶向代谢组学（Untargeted Metabolomics）分析，以全面、无偏地捕获血清中的小分子代谢物信息。随后，为了从复杂的代谢组数据中挖掘出有效的诊断信号，他们开发并应用了一套集成机器学习（Ensemble Machine Learning）工作流。这套工作流整合了多种算法，旨在筛选出能够最佳区分不同临床状态的代谢物组合（即代谢物面板，Metabolite Panel），并评估其诊断性能。

研究结果

代谢图谱揭示了LUAD发生发展过程中的渐进性代谢重编程

通过对健康个体、癌前病变和I期LUAD患者血清的非靶向代谢组学分析，研究人员观察到，在肺腺癌的起始和逐步进展过程中，机体的代谢网络发生了系统性、渐进性的改变。这些变化并非孤立事件，而是涉及多个核心代谢通路的协同扰动。具体而言，胆汁酸代谢、脂质代谢、氨基酸代谢以及嘌呤代谢等通路均显示出与疾病状态显著相关的代谢物水平波动。这一发现表明，肺腺癌的早期发生伴随着深刻的代谢重编程，这为利用代谢指纹进行疾病分期和早期预警提供了理论基础。

集成学习鉴定出用于早期LUAD检测的六代谢物诊断面板

为了将观察到的代谢差异转化为实用的诊断工具，研究团队采用了集成机器学习策略来筛选最优的生物标志物组合。该分析成功鉴定出一个由六种代谢物构成的组合，包括12-羟基十二烷酸（12-hydroxydodecanoic acid）、次黄嘌呤（hypoxanthine）、黄嘌呤核苷（xanthosine）、胆酸（cholic acid）、胍基丁胺（agmatine）和副黄嘌呤（paraxanthine）。这个六代谢物面板在区分早期（I期）肺腺癌患者与健康对照及癌前病变个体时，展现出了优异的诊断准确性。其性能指标（如灵敏度、特异性等）在研究队列内部与现有的一些诊断方法相比具有竞争力。这个面板的发现意味着，仅通过检测血液中这六种特定代谢物的浓度，就有可能实现对早期肺腺癌的准确识别。

集成学习鉴定出用于区分癌前与浸润性病变的四代谢物诊断面板

除了早期检测，精确区分癌前病变（Precancerous Lesions）和已经发生浸润的早期癌（Invasive Cancer）对于临床决策（如是否需要进行干预性治疗）至关重要。研究人员的集成学习模型进一步识别出一个与此目的相关的独立代谢物组合。这个四代谢物面板包含7-α,27-二羟基胆固醇（7-α,27-dihydroxycholesterol）、11-十一烷二羧酸（11-undecanedicarboxylic acid）、胆绿素（biliverdin）以及脯氨酰-缬氨酸二肽（Prolyl-Valine）。该面板在区分肺腺癌前病变和I期浸润性肺腺癌方面表现出高精度。这提示，血清代谢谱的细微变化能够反映出病变从良性、癌前状态向恶性、侵袭性状态的转变，为风险分层和个性化监测提供了潜在的分子依据。

结论与讨论

本研究系统地描绘了与肺腺癌（LUAD）早期发生和逐步进展相关的血清代谢组演化轨迹。通过非靶向代谢组学分析，揭示了从健康到癌前病变，再到I期LUAD这一连续过程中，胆汁酸、脂质、氨基酸和嘌呤代谢通路发生的渐进性、特异性改变。更重要的是，研究团队通过创新的集成机器学习工作流，从复杂的代谢组数据中成功挖掘出两个具有高度临床应用潜力的微小代谢物诊断面板：一个六代谢物面板用于早期LUAD的检测，另一个四代谢物面板用于精确区分癌前病变与浸润性癌。这两个面板在研究队列中均显示出优于或可比拟现有部分方法的诊断性能。

这项研究的意义重大。首先，它从代谢视角深化了对肺腺癌早期发病机制的理解，所发现的代谢通路扰动为未来的机理研究提供了新方向。其次，也是最具转化价值的一点，该研究提出了一种全新的、无创的肺腺癌早期检测与风险分层策略。基于血清代谢指纹和机器学习模型的诊断方法，具有成本相对较低、样本易获取、可重复检测等优点，有望发展成为对现有肺癌筛查方法（如低剂量CT）的有效补充，特别是在降低假阳性率、鉴别肺结节的良恶性方面潜力巨大。最后，研究所采用的“代谢组学+集成学习”的研究范式，为其他癌症或疾病的早期生物标志物发现提供了可借鉴的蓝图。当然，该研究的结论需要在更大规模、多中心的前瞻性队列中进一步验证，以评估其真正的临床效用和普适性。尽管如此，这项工作无疑为攻克肺腺癌早期诊断难题贡献了重要的“代谢”维度解决方案，向着实现肺癌的早发现、早诊断、早治疗目标迈出了坚实的一步。

热点排行

新闻专题