《Annals of Biomedical Engineering》:Time-Driven Survival Analysis from FDG-PET/CT in Non-Small Cell Lung Cancer
编辑推荐:
目的:基于医学图像自动预测临床结局(如总生存期(Overall Survival, OS))在改善患者预后评估和个性化治疗规划方面具有巨大潜力。研究人员开发了一个深度回归框架,使用组织层面的FDG-PET/CT投影作为输入,以及一个代表标量时间范围(以天为单位
目的:基于医学图像自动预测临床结局(如总生存期(Overall Survival, OS))在改善患者预后评估和个性化治疗规划方面具有巨大潜力。研究人员开发了一个深度回归框架,使用组织层面的FDG-PET/CT投影作为输入,以及一个代表标量时间范围(以天为单位)的时间输入,以预测非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)患者的总生存期(OS)。
方法:所提出的框架采用ResNet-50骨干网络来处理输入图像并生成相应的图像嵌入(embeddings)。然后将这些嵌入与时间数据结合,以产生作为时间函数的OS概率,有效地基于时间对预测进行参数化。整体框架使用U-CAN队列(n = 556)进行开发,并通过在测试集(n = 292)上与基线方法进行比较来进行评估。基线方法利用ResNet-50架构,仅将图像作为输入处理,并在预先指定的时间间隔(如2年或5年)提供OS预测。
结果:时间数据与图像嵌入的结合在预测OS方面显示出优势,以AUC(Area Under the Curve)提高4.3%优于基线方法。所提出的使用临床 + IDP(Imaging-Derived Phenotypes,影像衍生表型)特征的模型取得了强劲的性能,并且成像与临床 + IDP模型的集成取得了最佳的整体性能(0.788),突出了多模态输入的互补价值。所提出的方法还能够将患者风险分层为不同的类别(高风险 vs 低风险)。来自显著性分析(saliency analysis)的热图突出显示肿瘤区域是预测的关键结构。
结论:该方法提供了一个自动化框架,用于将OS预测为时间的函数,并证明了结合影像和表格数据以改进生存预测的潜力。
论文解读:基于FDG-PET/CT的非小细胞肺癌时间驱动生存分析
研究背景与意义
非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)是全球癌症相关死亡的主要原因之一。尽管治疗方法不断创新,但其2年和5年总生存期(Overall Survival, OS)仍然较低。准确预测患者结局对于知情决策、患者预后评估和治疗方案优化具有重要价值。目前NSCLC患者结局评估的临床实践通常涉及整合临床、病理和影像数据,其中肿瘤-淋巴结-转移(Tumor-Node-Metastasis, TNM)分期是OS的关键决定因素。然而,传统的预后模型和评分系统存在局限性,可能无法充分利用医学图像中丰富的信息。例如,Cox比例风险(Cox Proportional Hazards, CPH)模型是一种用于生存分析的统计方法,但现有大多数方法将OS预测框定为固定时间间隔(如2年或5年生存)的二分类任务,这存在若干局限:失访或未完成整个随访期的患者以及死于无关原因的患者通常被排除,减少了样本量并限制了模型的泛化能力;此外,在传统生存分析中,在固定时间间隔之前死亡的患者被等同对待,无论死亡是发生在诊断后不久还是较晚,忽略了重要的时间动态,这种二分类未能捕捉生存概率随时间的渐变。
为了应对这些局限,研究人员提出了一种时间驱动深度学习(Deep Learning, DL)框架,直接将OS概率建模为时间的连续函数,整合了组织层面的FDG-PET/CT(氟脱氧葡萄糖-正电子发射断层扫描/计算机断层扫描)投影与定义为标量时间范围(以天为单位)的时间数据。与固定时间分类器不同,该方法动态适应演变的风险轨迹,为NSCLC中的生存结局预测提供了更细致且临床相关的预测。该研究发表在《Annals of Biomedical Engineering》(生物医学工程年鉴)。
主要关键技术方法
研究人员利用来自U-CAN队列(瑞典成人癌症患者前瞻性纵向生物材料和临床信息收集库)的NSCLC子集,包含848例患者的全身FDG-PET/CT图像,最终纳入至少90天随访且最大随访截断为5年的患者,其中交叉验证集n=556(含手动肿瘤分割),测试集n=292(含自动肿瘤分割)。技术流程包括:1)生成组织层面的FDG-PET/CT投影:根据CT亨氏单位(Hounsfield Unit)将PET和CT体积分为骨、瘦软组织、脂肪组织和空气等特定组织类型,计算冠状面和矢状面的最大强度投影(Maximum Intensity Projections, MIPs)和平均强度投影(Average Intensity Projections, AIPs),并生成仅肿瘤强度的对应投影,最终组合为12通道组织层面FDG-PET/CT投影;2)使用ResNet-50卷积神经网络(Convolutional Neural Network, CNN)骨干提取图像特征嵌入;3)使用前馈神经网络(Feed-Forward Neural Network, FNN)提取时间特征并将时间数据投影到图像嵌入的向量空间;4)通过逐元素乘法(element-wise multiplication)融合图像嵌入与时间数据,以预测特定时间的OS概率;5)通过全连接层分类器块处理组合嵌入,预测患者在给定时间点“存活”或“死亡”的概率,并聚合为生存曲线;6)训练策略上,对每例患者随机采样多个时间点(存活患者从扫描日期至最后随访日期Last Follow-up Date, LFD采样6个时间点,死亡患者从扫描日期至死亡日期的“存活阶段”采样6个、死亡日期至LFD的“死亡阶段”采样12个),使用焦点损失(focal loss)和生存一致性损失(survival consistency loss)组合的损失函数,以Adam优化器训练100个epoch;7)评估指标包括AUC、C-index和准确率,并与仅图像输入的ResNet-50基线(在0.5至5年预指定间隔训练10个独立模型)、DeepHit(离散时间单事件模型)和DeepSurv(CPH-based深度学习扩展)进行基准比较;8)风险分层上,计算每例患者生存概率曲线下面积(Area Under the Survival Probability Curve, AUSPC,概念上相关于限制平均生存时间Restricted Mean Survival Time, RMST),通过k-means聚类(k=2)将队列划分为高风险和低风险组,并进行Kaplan-Meier分析与log-rank检验。
研究结果
数据集(U-CAN):研究人员使用了U-CAN队列的NSCLC子集,包含848例全身FDG-PET/CT图像。FDG-PET/CT图像的体素大小被重采样为统一的(2.04 x 2.04 x 3.00) mm3间距。收集了年龄、性别、TNM分期、治疗类型和OS时间等临床变量。所有随访至少90天且最大随访截断为5年的患者被纳入。初始自动肿瘤分割提案使用先前在autoPET数据集上训练的基于UNet的方法生成(n=556),并由核医学与放射学专家(>10年经验)审核精炼以建立真值(Ground Truth, GT)肿瘤掩码;剩余病例(测试集n=292)的肿瘤分割提案使用该GT掩码微调UNet方法后生成。数据集分为交叉验证集(n=556,328例存活至LFD,228例在观察窗口内死亡)和测试集(n=292)。
提出的框架:研究人员提出了端到端深度回归框架,整合FDG-PET/CT投影与时间数据以预测作为时间函数的OS概率,包括:a)组织层面FDG-PET/CT投影:通过组织类型分解捕获生理上不同的区域,使模型能够学习异质的代谢和结构模式;b)使用CNN骨干(ResNet-50)进行影像特征提取:适应12通道输入图像,生成捕获输入投影空间、解剖和代谢特征的图像嵌入;c)使用FNN进行时间特征提取:时间数据(以天采样)归一化后输入FNN,投影到图像嵌入的向量空间;d)图像嵌入与时间数据的整合:通过逐元素乘法结合,实现基于时间输入调制图像嵌入的时间条件特征缩放,不引入额外可学习参数;e)分类器块:通过全连接层处理组合嵌入,预测给定时间点的“存活”或“死亡”概率,聚合为生存曲线以表示作为时间函数的OS概率。
提出框架的训练策略:框架被训练为通过在观察窗口内为每个患者采样各种时间点来预测任意选择时间点的OS概率。观察窗口为从扫描日期到LFD(最后临床数据提取日期,代表队列可用生存信息的最近时间点,定义存活患者观察期结束)。对于整个观察窗口内存活的患者,每epoch从观察窗口采样6个随机时间点,对应OS状态标记为“存活”;对于死亡患者,观察窗口分为“存活阶段”(扫描日期至死亡日期)和“死亡阶段”(死亡日期至LFD),每epoch从存活阶段采样6个、死亡阶段采样12个随机时间点,对应OS状态标记并据此更新网络权重,确保训练期间两阶段的平衡表示(每epoch约2500–2700个时间点)。随机采样时间点引入训练变异性,减少过拟合到特定时间间隔的风险;在验证/测试时,模型在扫描日期至LFD间30天固定间隔的时间点评估,基于预测OS概率计算评估指标。损失函数为焦点损失与生存一致性损失组合。
实验设计:为评估时间数据的影响,实施了仅使用ResNet-50骨干、在预指定间隔(0.5年至5年,6个月间隔,共10个独立模型)分类OS状态的基线方法;提出方法使用单一模型,在相同数据上训练但纳入指定时间间隔的时间点。两者均使用患者水平分层5折交叉验证(n=556)开发验证,并在保留测试集(n=292)测试。此外,研究人员将提出方法与Pycox库的两个既定生存分析模型基准比较:DeepHit(单事件离散时间模型)和DeepSurv(CPH-based深度学习扩展),两者均使用常规临床特征(年龄、性别、T和N分期)加明确影像衍生表型(Imaging-Derived Phenotypes, IDP,如TMTV总代谢肿瘤体积、Dmax、病灶计数)输入(记为DeepHit (clin + IDP)、DeepSurv (clin + IDP)),以及使用CNN骨干(如ResNet-50)生成的图像衍生嵌入输入(记为DeepHit (imaging)、DeepSurv (imaging)),在相同数据集与交叉验证划分下训练。性能在预指定时间间隔评估,报告AUC、C-index和准确率(5折交叉验证模型在测试集应用的平均性能)。仅对提出方法进行了消融实验(移除输入图像通道)以评估组织特异性FDG-PET/CT的效果,并使用Grad-CAM进行显著性分析可视化对预测有贡献的重要图像区域,生成测试集Kaplan-Meier曲线和每例患者作为时间函数的OS概率以进行定性评估。
风险分层:研究人员生成了作为时间函数的患者特定OS概率曲线。为量化风险,引入了生存概率曲线下面积(Area Under the Survival Probability Curve, AUSPC)度量,通过在5年时间范围内对预测生存概率曲线应用梯形数值积分方法计算,作为逆风险指标(较高AUSPC对应较好预后/较低风险,较低AUSPC对应较差预后/较高风险)。在测试集内为所有患者计算AUSPC,应用k-means聚类(k=2)将队列划分为两个不同风险类别,该无监督聚类直接基于AUSPC值自动将患者分离为高风险和低风险组,无需预定义阈值(如中位OS)。此外,在交叉验证队列的每个T分期类别(T1、T2、T3、T4)内进行风险分层(因测试集样本量有限,进一步分层会导致组过小而无法进行有意义统计分析),基于模型预测将患者分为高风险和低风险,生成Kaplan-Meier曲线,使用log-rank检验评估生存曲线间差异(p值 < 0.05认为 statistically significant)。
结果:提出方法(成像仅)实现了0.746的平均测试AUC,优于基线(0.703)及其他基准方法如DeepHit (clin + IDP)(0.693)、DeepSurv (clin + IDP)(0.717)、DeepHit (imaging)(0.683)和DeepSurv (imaging)(0.689)。临床与IDP特征模型单独也取得强劲性能,但成像与临床 + IDP模型的集成在所有时间点达到最佳性能(0.788 AUC),表明影像特征提供补充信息,增强与临床和IDP特征整合时的生存预测。消融实验显示,包含肿瘤投影通道实现了最高OS预测性能(总体AUC 0.826,C-index 0.733,准确率0.738),与先前研究显示TMTV与OS等临床结局强相关一致。作为时间函数的预测OS概率示例显示,预测与真实(Ground Truth, GT)OS紧密匹配(例如GT OS为0.53年、预测OS为0.50年的患者)。Kaplan-Meier曲线比较测试集GT与预测生存时间,预测曲线与GT曲线紧密相似,在较晚时间点略微低估OS概率,表明提出方法的有效性及长期生存估计的轻微偏差。风险分层将测试集NSCLC患者分为低风险(n=252)和高风险(n=40)组,低风险组生存显著更长(p < 0.05)。在各T分期内的风险分层显示,T2、T3和T4的高危与低风险组间生存存在显著差异(p < 0.05),而T1差异无统计学意义(p > 0.05),与早期肿瘤(T1)通常预后均匀有利、晚期(T2–T4)预后异质性更大且受治疗差异影响临床直觉一致。显著性分析热图显示网络预测OS时主要关注肿瘤区域,该模式在U-CAN队列中一致观察。
讨论与结论总结
讨论部分指出,使用2D投影是出于计算效率需求,并减轻由于有限数据和高维3D PET/CT输入导致的过拟合风险。结果显示,为不同时间间隔训练独立网络(如基线方法)不仅冗余且成本高,且未能充分利用数据集潜力;而提出方法采用单一网络、在多个时间点训练,有效地将OS概率建模为时间函数,并对未见时间点改进泛化。提出方法还比离散时间(DeepHit)或连续时间(DeepSurv)替代方案更好捕获生存预测中的时间依赖关系;在较短时间范围内,略低于DeepSurv的性能可能归因于早期事件数量有限,风险排序方法(如DeepSurv)可实现强区分度,未来工作将聚焦于改进早期时间范围的性能。性能优势在较长时间范围(1.5–5年)尤为显著,提出方法保持始终较高的AUC值(0.747?0.772)。集成成像与临床 + IDP模型在所有时间点最佳。
虽然临床与IDP特征取得强劲性能,但集成结果表明影像衍生特征提供这些变量未完全捕获的补充预后信息;组合模型始终优于两个单独模型,表明任一表示均不足以充分表征患者风险。肿瘤分割起重要作用,因为分割衍生通道提供肿瘤特异性信息,因此肿瘤勾画准确性会影响预测性能。基线方法预测预指定间隔的OS并严重依赖右删失,有时排除失访患者;还将未在固定时间标记内存活的患者等同对待,无论死亡时间早晚;这种二分类未能捕捉OS概率随时间的渐变,可能导致信息丢失、样本量减少及建模复杂性能力有限。相比之下,提出方法能够在任意选择时间点灵活预测OS,减少右删失需求,并有效基于时间对预测参数化;通过整合时间数据,框架可预测任何给定时间的OS概率,而非受限于预指定间隔。
时间数据整合确保模型可泛化不同生存模式,并更有效处理删失病例;通过在随机采样时间点训练,提出方法能够提供患者生存模式的稳健且全面表示。选择每epoch从存活阶段采样6个、死亡阶段采样12个时间点是为平衡两阶段表示,由于死亡患者数少于存活患者,导致死亡与存活时间点类不平衡,从死亡阶段过采样确保模型充分接触从存活到死亡状态的过渡;实验其他采样点数后确定6和12在计算可行性与模型性能间提供现实平衡。
风险分层结果显示,提出方法有潜力将NSCLC患者有效分层为临床相关风险类别(高 vs 低危),支持个性化治疗规划;尤其在按T分期分层时,T2至T4具有统计学显著差异性,而T1无,与临床直觉一致。显著性分析帮助可视化驱动模型预测最有影响的图像区域,提高透明度并帮助识别患者结局关键因素;热图源自ResNet-50骨干卷积层,在整合时间数据前生成(时间数据通过单独FNN处理并与图像嵌入结合),该过程基于时间依赖上下文细化OS预测但不直接影响热图中识别的空间区域,仅调制图像嵌入以考虑OS概率的时间依赖性;实验中生成的有无时间输入热图基于定性评估显示大体相似空间模式,但不应解释为严格独立证据,未来工作将更严格评估时间建模对显著性图的影响。
提出方法的一个局限是依赖在多个时间点训练以实现足够泛化,因此训练时间高于基线方法;基线方法提供简单高效框架但易过拟合,提出方法更复杂、需要更多计算资源但交付改进性能与更好泛化,当前实现产生更高计算成本,未来工作将聚焦于在整合时间方面到模型的同时降低计算需求,并探索更高级深度学习架构与混合框架以改进特征提取和多模态整合,进一步增强生存预测性能。此外,研究基于单中心数据集且无外部验证,可能限制对其他临床场景的泛化;未来工作将聚焦使用多机构数据集验证。部分临床变量也存在缺失值,可能影响表格特征表示的完整性。
结论:研究人员介绍了一种自动化框架,整合来自组织层面FDG-PET/CT投影的图像嵌入与时间数据,以预测NSCLC患者作为时间函数的OS。基于逐元素乘法的时域融合策略使得能够在不增加模型复杂性的情况下实现高效的时间条件生存预测。提出方法在预指定间隔(1.5–5年)以更高AUC优于基线方法和既定生存模型。此外,成像与临床 + IDP模型的集成实现了最佳整体性能,突出了这些特征表示互补性质。使用模型衍生生存概率的风险分层识别出具有显著不同结局的不同预后组。显著性分析突出肿瘤区域作为OS的关键预测因子。