《eBioMedicine》:Fusing data from CT deep learning, CT radiomics and peripheral blood immune profiles to diagnose lung cancer in a cohort of patients experiencing symptoms
编辑推荐:
推荐
本文针对肺癌早期诊断缺乏特异性强、微创低成本筛查手段的难题,研究人员通过联合CT影像组学(CTTA)、深度学习自编码器(DLA)和外周血流式细胞免疫图谱,构建了一种新型的多模态预测模型。结果显示,该融合模型诊断肺癌的ROC曲线下面积(AUC)达0.81,敏感性与特异性分别为0.72和0.77。这项研究为开发更精准、自动化的肺癌筛查方案提供了有力证据。
肺癌是全球癌症相关死亡的主要原因,其高死亡率很大程度上归因于诊断太晚。早期肺癌往往没有明显症状,即便出现症状也常缺乏特异性,导致患者常需多次就诊才能获得专科转诊。目前,低剂量计算机断层扫描(LDCT)是筛查高危人群的主要手段,但它存在假阳性率高、对非吸烟者和年轻人群不适用、且给放射科医生带来沉重工作负荷等局限。此外,虽然液体活检(如循环肿瘤DNA检测)在癌症早筛中展现潜力,但其对早期肺癌(尤其是I期)的敏感性仍然很低。因此,亟需开发一种兼具高敏感性与特异性、且可扩展的微创筛查策略,以覆盖更广泛的有症状人群。
在此背景下,一项发表于《eBioMedicine》的研究提出了一种创新解决方案:通过融合CT影像分析(包括传统影像组学与深度学习特征)与外周血免疫图谱数据,构建多模态预测模型,旨在提升有症状患者肺癌诊断的准确性。
研究团队从英国利斯特医院的肺科诊所招募了344名疑似肺癌的有症状患者,最终对其中170名患者的数据进行了分析。研究采用的关键技术方法包括:1) CT影像组学(CTTA),从CT图像中提取定量纹理特征;2) 深度学习自编码器(DLA),自动学习并压缩病灶图像特征以生成低维表征;3) 高深度流式细胞术,用于分析外周血免疫细胞亚群;4) 外泌体蛋白质斑点印迹分析(此项在后续分析中效果不佳,未用于最终融合模型);5) 贝叶斯多元回归(BMR),用于整合不同来源的特征并构建预测模型,该方法能自动进行特征选择并有效避免过拟合。
一、患者特征
纳入分析的170名患者中,79人(46.5%)最终被诊断为肺癌,其中I期患者占29.1%。癌症组与非癌症组在年龄、性别、吸烟状况及数据集分配(训练集/测试集)上均无显著差异,确保了队列的代表性。
二、从CTTA和DLA生成预测模型
单独使用CTTA或DLA从CT图像中生成预测特征。DLA模型在训练集和测试集上的表现(AUC范围分别为0.72–0.77和0.56–0.71)均优于CTTA模型(AUC范围分别为0.67–0.73和0.57–0.79)。分析发现,CTTA中稳定被选中的特征与肿瘤的CT密度(Mean_0)及精细纹理(mpp_3)相关。对DLA潜空间特征的人工干预解码则提示,其预测特征与病灶大小、形态(如毛刺、球形度)、肺内位置及胸膜附着程度有关。
三、从外周血生成预测模型
对外周血样本进行免疫分析和外泌体蛋白分析。流式细胞术生成的免疫特征表现远优于外泌体蛋白特征,其训练集AUC范围为0.66–0.70。该免疫特征主要由两个关键指标驱动:高比例的2型树突状细胞(cDC2)与非癌病理相关,而高比例表达KIR3DL1的CD8+T淋巴细胞则与肺癌相关。外泌体斑点印迹分析的结果则不一致,未被用于后续融合建模。
四、CT分析与外周血数据结合
研究将血液数据分别与CTTA和DLA在协变量层面进行早期融合。生成的融合模型均包含了免疫和影像学数据,其中KIR3DL1+CD8+T细胞的上调是预测肺癌的最强指标。免疫-DLA融合模型在训练集和测试集上表现优异(AUC范围分别为0.77–0.83和0.68–0.81),最终模型AUC为0.81。免疫-CTTA融合模型的最终AUC为0.71。
五、通过数据融合生成组合模型
研究尝试了在协变量(早期)、特征(中期)和特征签名(晚期)三个不同层次上融合所有CT和血液分析方法。中期和晚期融合模型的表现并未优于早期融合模型。研究也尝试使用弹性网络算法,但其在训练集上产生的模型存在过度拟合问题,在测试集上表现不佳,因此最终聚焦于贝叶斯回归的结果。
六、组合特征对不同分期肺癌的检测能力
排除分期信息后,最终的融合模型(免疫-DLA早期融合)在检测所有分期肺癌时,整体敏感性为72%,特异性为77%。值得注意的是,该模型对I期肺癌的敏感性高达78%。此外,对于11名非肺癌癌症(如乳腺癌)患者,单独使用免疫特征进行检测,其敏感性达到了82%。
结论与讨论
本研究成功开发并验证了一个结合CT影像深度学习、影像组学和外周血免疫谱的多模态模型,用于诊断有症状患者的肺癌。其关键发现是,外周血中KIR3DL1+CD8+T细胞比例升高和cDC2比例降低,与肺癌存在强关联。KIR3DL1+CD8+T细胞被认为是一种功能耗竭或受抑制的T细胞亚群,可能与肿瘤免疫监视和逃逸有关;而cDC2的减少可能反映了其在癌症环境中的系统性变化或向肿瘤部位的募集。
在方法学上,研究证明了深度学习和影像组学特征提取的有效性,并突出了贝叶斯回归在构建稳健、可解释模型方面的优势,能有效防止过拟合。最终融合模型达到0.81的AUC,以及72%的敏感性和77%的特异性,表明其具有临床应用的潜力,可作为现有筛查手段(如单独LDCT或某些血液检测)的有效补充。
这项研究的意义在于:首先,它提出了一种基于免疫反应(而非仅检测核酸)的血液检测新思路,可能更早地捕捉到肿瘤信号。其次,通过自动化CT图像分析减轻了放射科医生的工作负荷。最后,它展示了一种“白盒”式的、可解释的多模态数据融合框架,为未来开发更精准、普适的癌症早期诊断工具提供了重要范例和方向。研究团队指出,未来可通过扩大样本量、纳入更小的病灶以及结合代谢组学等更多维度数据,来进一步提升模型的性能。