《BJC Reports》:Machine learning and artificial intelligence in liquid biopsy-based early detection of pancreatic cancer: a scoping review
编辑推荐:
胰腺导管腺癌(pancreatic ductal adenocarcinoma, PDAC)预后极差,主要归因于早期诊断困难。液体活检已成为多种癌症筛查中具有前景的非侵入性方法,但其应用受限于生物样本的高度异质性,研究团队正尝试通过人工智能(artificia
胰腺导管腺癌(pancreatic ductal adenocarcinoma, PDAC)预后极差,主要归因于早期诊断困难。液体活检已成为多种癌症筛查中具有前景的非侵入性方法,但其应用受限于生物样本的高度异质性,研究团队正尝试通过人工智能(artificial intelligence, AI)与机器学习(machine learning, ML)策略应对这一挑战。借助ML算法从复杂数据集中提取最具区分性的特征,研究人员可识别对PDAC具有高预测价值的生物标志物。本综述探讨AI驱动的液体活检用于PDAC早期检测的研究现状,聚焦具体技术路径及其效能表现。研究遵循PRISMA-ScR(Preferred Reporting Items for Systematic Reviews and Meta-Analyses for Scoping Reviews)指南,从PubMed与Scopus数据库初筛85项研究,最终纳入18项。多数研究采用血液(n=15)作为液体活检来源,其余分析尿液、胆汁或囊肿液。随机森林(random forests, RF, n=9)与支持向量机(support vector machines, SVM, n=7)是最常用的ML模型,仅2项研究聚焦深度学习方法。当前局限性包括模型性能指标缺乏标准化报告、队列规模较小且标签粒度不足。
Introduction
胰腺导管腺癌(PDAC)因诊断延迟导致预后与生存率极低,位列致死率最高的常见恶性肿瘤之一。疾病早期症状无特异性,可表现为疲劳、腰腹疼痛、体重下降及黄疸,加之早期即可通过细胞重编程机制发生转移,进一步加剧筛查难度。美国PDAC发病率在所有族裔的男女性中均持续上升,少数族裔女性增幅最为显著,预计2030年将成癌症相关死亡的第二大原因。多数患者确诊时已处于转移或局部晚期,仅15–20%可行手术切除,即便接受最优治疗,美国5年生存率仍仅约10%。现有筛查手段有限,全球研究团队正利用AI/ML工具挖掘具有高诊断与预后价值的PDAC潜在生物标志物。本范围综述聚焦该领域最新进展,首先梳理核心PDAC生物标志物与液体活检来源,继而讨论当前AI技术路径及相关效能指标,最后分析局限性与未来潜力。
Background information
Pancreatic cancer
PDAC患者初诊时多已处于晚期,美国国家癌症研究所监测、流行病学与结局数据库显示约28%存在区域淋巴结转移,51%已发生远处转移。胰腺位于腹膜后,肿瘤生长至压迫周围导管前常无明显症状,导致检测滞后。PDAC具有高度侵袭性遗传学特征,>90%病例存在KRAS驱动突变,且伴随CDKN2A、TP53、SMAD4等关键抑癌基因失活,促使癌前病变快速进展为恶性表型,伴局部浸润与远处转移。鉴于发病率上升,亟需在高风险人群中开展早筛。现行指南推荐对有PDAC家族史、遗传易感综合征及胰腺囊肿(导管内乳头状黏液瘤或黏液性囊腺瘤)人群进行筛查,但胰腺囊肿并非必然恶变,明确需进一步监测的高危人群是提前干预的第一步。当前筛查依赖超声内镜(endoscopic ultrasound, EUS)或磁共振胰胆管造影(magnetic resonance cholangiopancreatography, MRCP),但二者成本高、半侵入性强,可能增加患者伤害风险。
Liquid biopsy
液体活检通过易获取的生物体液样本分析癌症生物标志物,具有非侵入或微创、成本较低的优势,可缓解影像学筛查的局限。糖类抗原19-9(carbohydrate antigen 19-9, CA19-9)是目前唯一获FDA批准的PDAC血液生物标志物,但单独诊断效能有限,汇总敏感性、特异性与AUC分别为72%、86%与0.8474。因此学界呼吁联合CA19-9构建多分析物panel以提升诊断潜力。液体活检可获取的分析物包括细胞外囊泡(extracellular vesicles, EVs)、微小RNA(microRNAs, miRNAs)、循环肿瘤DNA(circulating tumor DNA, ctDNA)与循环肿瘤细胞(circulating tumor cells, CTCs)。EVs是由所有细胞分泌至体液的脂质双层纳米颗粒,携带反映起源细胞的蛋白质、DNA与RNA(含miRNAs),肿瘤来源EVs富集致癌物质,表面标志物可辅助定位肿瘤来源。miRNAs是存在于EVs、结合蛋白或游离于体液中的非编码小RNA,通过降解靶mRNA或抑制翻译调控基因表达,在PDAC中呈特异性失调,稳定性高,是潜在的早期检测标志物。ctDNA是肿瘤细胞释放至体液中的循环游离DNA(circulating cell-free DNA, ccfDNA)亚群,可反映肿瘤特异性遗传与表观遗传改变,契合PDAC高度侵袭性的分子特征。CTCs是从原发或转移灶脱落进入循环的完整肿瘤细胞,除辅助诊断外,还可全面表征肿瘤的遗传与蛋白组学特征,提示疾病负荷与预后,二者在原发灶未转移时即可检出,已在早期PDAC检测中显现价值。
AI/ML use for liquid biopsy
液体活检样本具有高度异质性,EVs、miRNAs、ctDNA、CTCs等生物标志物的浓度与理化性质差异显著,适配AI的模式识别技术。AI可分为监督/标准机器学习(ML)与无监督/深度学习(deep learning, DL)两类。监督ML基于标记数据训练,将测试集输入特征映射至已知输出标签,可执行回归或分类任务,常用算法包括支持向量机(SVM)、逻辑回归(logistic regression, LR)、线性判别分析(linear discriminant analysis, LDA)与随机森林(RF)等决策树方法。RF由多棵决策树集成,单树处理部分数据集,结果融合后稳定性优于单树,可降低过拟合风险并量化特征重要性,但树数量增加时训练时间与内存消耗上升。SVM通过优化超平面实现多维空间数据点分层,可处理线性与非线性数据,适配非结构化信息,但大规模数据集计算资源需求较高。DL是ML的子集,通过多层隐藏层与非线性函数构成的神经网络从无标记多维数据中学习潜在模式,典型架构包括卷积神经网络、Transformer与循环神经网络,在大型复杂数据集上预测性能更优,但特征可解释性下降,难以直接关联生理与临床机制。AI还可支撑多分析物panel设计,提升检测速度与可靠性。产前唐氏综合征(Trisomy 21, T21)筛查是典型范例:1984年起陆续发现甲胎蛋白(alpha-fetoprotein, AFP)、妊娠相关血浆蛋白A(pregnancy associated plasma protein A, PAPP-A)、人绒毛膜促性腺激素(hCG)等异常表达标志物,直至2004年Wald团队通过单一队列比较不同标志物组合,确立整合筛查方案,在85%检出率下假阳性率仅0.9%,成为最广泛使用的T21筛查协议。该过程耗时二十余年且未使用AI,而ML的非直觉模式识别与多模态数据整合能力可大幅缩短癌症诊断标志物panel的优化周期,推动AI驱动的癌症进展预测模型发展,这正是本综述的核心关注方向。
Methods
本研究遵循PRISMA-ScR指南开展范围综述,检索PubMed与Scopus数据库2018年1月1日至2025年7月11日发表的文献。纳入标准为:聚焦AI/ML应用于PDAC液体活检早诊方法、同行评审英文期刊、使用人体生物体液样本并报道PDAC特异性生物标志物;排除标准为:未使用AI/ML、非胰腺来源肿瘤、主要阐述病理机制或PDAC治疗相关研究。检索策略由专业图书馆员起草并经团队讨论优化,最终检索结果导入Zotero去重。数据提取内容包括研究队列规模、生物样本来源与类型、AI/ML模型类型及报告的性能指标,采用主题合成法进行分析,使用Microsoft Excel管理合成数据,Zotero管理参考文献。
Results
初筛共获85项研究(PubMed 31项,Scopus 54项),去重后剩63项,经标题与摘要筛选剩20项,全文审查后最终纳入18项。纳入研究发表于2020至2025年,三分之二(n=12)集中于2024–2025年,病理类型涵盖胰腺及壶腹周围病变,部分研究同时纳入乳腺癌、结直肠癌等非胰腺肿瘤。液体活检样本以血液为主(n=15),尿液、胆汁与胰腺囊肿液各有1–2项研究采用。AI技术方面,15项使用监督ML,2项使用DL(全连接神经网络),1项结合规则推理与ML。监督ML的输出标签包括癌症与健康对照区分、多癌种鉴别、PDAC与良性胰腺病变区分,输入特征涵盖ccfDNA突变谱、miRNA表达、EV表面标志物等,验证多采用5折或10折交叉验证,或预留20–30%数据集作为独立验证集。两项DL研究分别以CA19-9水平、CTC计数及诊断类别为输入,使用独立队列验证,样本量分别为训练集102例(PDAC 66例,健康对照36例)、验证集70例(PDAC 33例,对照37例),以及训练集39例PDAC患者、验证集按70/30比例划分的CA19-9阴性PDAC队列。模型性能差异显著:部分研究构建的panel在PDAC与胰腺炎鉴别中AUC达0.9188,与健康对照鉴别AUC达0.9713,在PDAC与胰腺假性囊肿鉴别中准确率可达96%。miRNA基模型表现突出,准确率最高达99.3%(SVM)与97.6%(k近邻),AUC最高达0.956(SVM)与0.92(逻辑回归);而外泌体与CTCs基模型表现相对较弱,推测与miRNA稳定性高、易标准化分离有关,EVs与外泌体尚无统一分离纯化标准,CTCs稀有且脆弱,ctDNA碎片化且清除快,均需复杂富集流程,影响数据可靠性。联合CA19-9与其他生物标志物的多分析物panel,较单一CA19-9预测性能显著提升,印证了复合panel可提供更具生理代表性的诊断信息。
Discussion
PDAC风险分层是早筛协议开发的核心难点,各学会指南对高风险人群的界定与实施策略存在差异。2020年AGA指南指出,EUS可能导致组织损伤或麻醉/造影剂不良反应,MRCP虽无创但特异性有限,难以区分低级别与高级别异型增生,易导致假阳性与不必要的侵入性随访,且间期癌(常规筛查间隔期确诊的肿瘤)增殖快、预后差,现有筛查敏感性不足可能给高危人群带来虚假安全感,2025年ASGE指南已推荐遗传易感人群每年接受PDAC筛查。前瞻性监测项目证据显示,高危人群系统筛查可检出更早分期肿瘤并改善生存,CAPS5多中心研究显示,1461例接受年度EUS和/或MRI/MRCP筛查的高危人群中,77.8%的筛查检出PDAC为手术病理Ⅰ期,而筛查外确诊者仅14.3%为Ⅰ期。胰腺早诊联盟(PRECEDE)是全球最大规模的国际合作项目,已在多洲纳入超3000例高危个体,实施标准化数据采集、影像协议与生物样本库建设,为生物标志物发现提供基础设施支撑。基于精准医学原则的阶梯式筛查可优先覆盖吸烟、慢性胰腺炎、遗传与家族史等明确风险因素人群,同时需关注非白人女性发病率的异常上升,将社会人口学因素纳入公平筛查协议的制定。
Conclusion
液体活检提供的非侵入或微创PDAC筛查,可作为现有影像学筛查的有效补充,降低患者操作负担。鉴于PDAC长期无症状的特性,早诊未来需转向更主动的规律监测模式。AI/ML赋能的多分析物panel有望突破CA19-9单一标志物的局限,提供更稳健的诊断价值。随着技术迭代,PDAC检测panel或可常规应用于临床,改善患者预后,扭转PDAC作为美国最致命常见恶性肿瘤之一的现状。