《Biomedical Signal Processing and Control》:Hierarchically guided multimodal knowledge decomposition and adaptive fusion for prognosis prediction in ccRCC based on CT and whole-slide images
编辑推荐:
透明细胞肾细胞癌(clear cell renal cell carcinoma, ccRCC)是一种侵袭性强、异质性高且预后差的肿瘤。预后评估需要多模态数据。计算机断层扫描(computed tomography, CT)图像和全切片图像(whole-sli
透明细胞肾细胞癌(clear cell renal cell carcinoma, ccRCC)是一种侵袭性强、异质性高且预后差的肿瘤。预后评估需要多模态数据。计算机断层扫描(computed tomography, CT)图像和全切片图像(whole-slide images, WSI)为癌症诊断和评估提供了互补视角,整合这两种模态有望实现更精确的癌症计算机辅助诊断。然而,由于模态之间的显著异质性,包括WSI中的高分辨率冗余、空间和语义异质性以及模态贡献中的患者特异性变化,这种整合面临关键挑战。因此,研究人员提出了分层引导多模态知识分解与自适应融合(Hierarchically Guided Multimodal Knowledge Decomposition and Adaptive Fusion, MKDF)框架,该框架分解并整合互补的模态特定知识和跨模态知识,以实现稳健的多模态学习。MKDF首先利用自注意力机制从高维冗余数据中提取紧凑、具有代表性的模态内特征。随后,它通过分层方式将多模态信息分解为不同的知识组件——包括模态特定知识、共享知识和新兴知识——从而实现对互补信息的细粒度理解。最后,一种自适应融合策略根据任务相关性动态调整每个知识组件的贡献,增强了最终表示的表达能力。研究人员在ccRCC队列上严格评估了MKDF,展示了其在ccRCC风险分层中的直接临床价值和优越性能。此外,研究人员还纳入了一个独立的晚期肺癌(advanced lung cancer, ALC)数据集,纯粹作为方法学验证队列,确认了所提出融合机制稳健的跨癌症可迁移性。大量实验表明,MKDF优于最先进的基线方法,突显了其在复杂临床场景中提供可靠的人工智能驱动预后评估的潜力。
**论文解读:基于CT和全切片图像的分层引导多模态知识分解与自适应融合用于ccRCC预后预测**
**研究背景与问题**
透明细胞肾细胞癌(clear cell renal cell carcinoma, ccRCC)是肾癌的主要组织学亚型,以显著的瘤内异质性、多变的增强模式和复杂的肿瘤微环境为特征,这些因素使得术后风险分层和随访管理变得困难。传统临床评估依赖单一模态(如仅用计算机断层扫描(Computed Tomography, CT)进行宏观解剖评估,或仅用全切片图像(Whole-Slide Images, WSI)进行微观病理分级),往往无法捕捉肿瘤的全面预后特征。CT能提供肿瘤定位、形态特征和转移证据等宏观信息,而WSI能捕获肿瘤细胞和肿瘤微环境的微观细节。整合这两种模态有望实现更准确的预后预测。然而,CT与WSI在分辨率、尺度和语义表征上存在显著异质性,导致有效的特征整合面临巨大挑战。现有方法主要关注模态对齐或简单的动态融合,但未能充分解耦和利用不同模态间的互补知识,尤其是忽略了模态交互产生的新兴知识。因此,研究人员提出了一种分层引导多模态知识分解与自适应融合(MKDF)框架,以系统性地解决模态异质性和知识整合问题。该研究发表在《Biomedical Signal Processing and Control》。
**主要技术方法**
研究人员设计了MKDF框架,包含三个核心模块。首先,模态内信息整合(Intra-Modal Information Integration, IMII)模块采用Nystr?m自注意力机制,分别从CT和WSI中提取紧凑、低冗余的模态内特征表示。对于CT,使用预训练的ResNet-18提取图像嵌入;对于WSI,使用基于大规模病理语料库预训练的UNI编码器提取斑块嵌入。其次,分层引导知识分解(Hierarchical-Guided Knowledge Decomposition, HGKD)模块通过四个独立的编码器(两个模态特定编码器、一个共享知识编码器和一个新兴知识编码er)将多模态信息显式分解为四种知识组件:CT特定个人知识、病理特定个人知识、模态间共享知识和交互新兴知识。同时,该模块在个体层和队列层分别使用Wasserstein距离和基于对比学习的动态队列进行引导,以增强各知识组件的判别性。最后,多模态知识自适应融合(Multimodal Knowledge Adaptive Fusion, MKAF)模块基于注意力机制动态调整各知识组件的权重,生成融合特征,并采用稀疏贝叶斯极限学习机(Sparse Bayesian Extreme Learning Machine, SB-ELM)作为分类头进行最终预测。研究使用了三个数据集:内部ccRCC-CTPath数据集(274例,术后复发预测)、公开MMIST-ccRCC数据集(239例,12个月生存预测)以及独立晚期肺腺癌(ALC-CTPath)数据集(243例,EGFR突变状态预测)作为跨癌症方法学验证。
**研究结果**
* **定量评估**:在ccRCC-CTPath数据集上,MKDF的AUC达到0.8279,显著优于HMCAT(0.6952)和CMTA(0.7778)等基线方法。在MMIST-ccRCC数据集上,MKDF的AUC为0.8426,远超ResNet18(0.6134)和TransMIL(0.6713)。在ALC-CTPath数据集上,MKDF的AUC为0.8215,同样保持优势。决策曲线分析(DCA)表明,MKDF在多个临床相关风险阈值内提供了最高的净收益。
* **Kaplan-Meier分析**:基于风险评分的生存分析显示,MKDF将患者分为高风险和低风险组时,p值最低且显著低于0.05,表明其具有最强的预后分层能力。
* **t检验分析**:结合小提琴图,MKDF在三个数据集上均获得了最高的绝对t值和最显著的p值,表明其预测得分在阳性和阴性患者群体间具有最强的统计区分度。
* **跨任务结果**:在ccRCC-CTPath和ALC-CTPath之间的交叉任务实验中,经过直接迁移的模型仍保持了与单独训练模型相近的诊断性能,证明了MKDF跨癌症的泛化能力。
* **消融研究**:去除任何单一知识编码器(如病理个人知识或新兴知识编码器)均导致AUC显著下降(如ccRCC数据集上下降9.97%),验证了每种知识组件的必要性。去除分层引导机制(HGM)导致特异性下降6.76%;用简单拼接代替MKAF模块导致ALC数据集敏感性骤降12.5%,表明HGKD与MKAF的协同作用不可或缺。
* **知识组件可视化**:t-SNE可视化显示,四种知识组件在特征空间中呈现清晰可辨的分布:个人知识紧密聚集在各自模态区域,共享知识占据过渡区域,而新兴知识分布散乱且与其他组件重叠极少,验证了模态交互产生的独特高阶信息的客观存在。
**讨论与结论**
讨论部分总结了MKDF框架的优势:其通过显式知识分解(将知识分为模态特定、共享和新兴三类)避免了传统对齐驱动融合方法中可能丢失模态特有同质信息的问题,尤其优于HMCAT等依赖共注意力机制的模型。消融研究证实了各模块的必要性。DCA和t检验进一步证明了其临床净收益和统计显著性。跨任务实验验证了其跨癌症鲁棒性。未来研究需将框架扩展至更多模态,并探索在小样本或不平衡数据下的模型鲁棒性。
结论部分翻译如下:精确预测ccRCC的预后对于指导治疗决策和改善患者生存至关重要。在本研究中,研究人员开发并验证了一个名为MKDF的多模态融合框架,该框架基于CT和WSI图像来预测患者预后。为了严格评估框架的有效性和泛化能力,研究人员在三个不同任务上进行了广泛实验:ccRCC-CTPath数据集上的术后复发预测、公开MMIST-ccRCC数据集上的12个月生存预测以及ALC-CTPath数据集上的治疗决策。与现有单模态和多模态算法相比,所提出的MKDF框架在所有评估数据集上均表现出卓越的诊断性能。具体而言,在自建的ccRCC-CTPath数据集上,MKDF的AUC达到0.8279,显著优于HMCAT(AUC 0.6952)和CMTA(AUC 0.7778)。值得注意的是,在公开MMIST-ccRCC数据集上,MKDF取得了0.8426的优异AUC,与基线方法如ResNet18(AUC 0.6134)和TransMIL(AUC 0.6713)相比,展示了其在12个月生存预测中稳健的泛化能力。此外,MKDF在ALC-CTPath数据集(AUC 0.8215)上保持了显著优势,强调了其跨癌症鲁棒性。