结合孪生双向差异网络(Siamese Bilateral Difference Network)和文本引导的图像特征增强技术的视觉语言模型,用于CT血管造影中急性缺血性脑卒中预后的预测
《Information Fusion》:Vision-Language Model with Siamese Bilateral Difference Network and Text-Guided Image Feature Enhancement for Acute Ischemic Stroke Outcome Prediction on CT Angiography
编辑推荐:
AIS预后预测方法基于LVM-Med模型,结合Siamese网络与文本引导特征增强模块,通过CTA影像分析及临床笔记多模态融合,实现90天mRS评分高精度预测(准确率81.11%-83.05%,AUC80.06%-85.48%),并验证其在青光眼进展预测中的适用性。
黄树林|胡斌|杨帅|王东翠|罗光华|廖卫华|邱武|刘树林|王建新
中国中南大学计算机科学与工程学院生物信息学湖南省重点实验室,长沙,410083
摘要
急性缺血性中风(AIS)的预后预测对于治疗决策至关重要。然而,由于病变特征、血管状况和其他健康状况的综合作用,AIS的预后预测具有挑战性。在这项研究中,我们引入了一个结合了孪生双边差异网络和文本引导的图像特征增强模块的视觉-语言模型,用于预测CT血管造影中的AIS预后(例如,改良Rankin量表,mRS)。在孪生双边差异网络中,我们基于基础模型LVM-Med进行微调,设计了一个交互式Transformer微调编码器和一个视觉问答引导的双边差异感知模块,通过图像-文本对问答生成双边差异文本作为提示,以增强提取的脑部血管差异特征。此外,在文本引导的图像特征增强模块中,我们提出了一个文本特征提取模块,从临床记录中提取患者短语级和短语间的嵌入,并使用多尺度图像-文本交互模块获得细粒度的短语增强图像注意力特征和粗粒度的短语上下文感知图像注意力特征。我们在公共的ISLES2024数据集、一个私有数据集A和一个外部AIS数据集上验证了我们的模型。该模型在三个数据集上的90天mRS预测准确率分别为81.11%、83.05%和80.00%,AUC分别为80.06%、85.48%和82.62%,优于几种最先进的方法,并展示了其泛化能力。此外,所提出的方法还可以有效扩展到青光眼视野进展预测,这也与血管差异和临床记录相关。
引言
中风是全球导致死亡和残疾的主要原因之一,其发病率和死亡率都很高,而急性缺血性中风(AIS)占所有中风病例的87% [1]。改良Rankin量表(mRS)常用于临床评估中风的治疗效果 [2]。该分数范围从0(无症状)到6(死亡),分数越高表示AIS患者的功能预后越差。其中,90天的mRS分数(90-day mRS)通常被用作长期恢复的可靠预测指标 [3]。由于中风的复杂性和数据的严重不平衡性,许多研究通过将90天的mRS分数分为“有利”(0-2)和“不利”(3-6)结果来简化分析 [4]。然而,AIS患者存在显著的个体差异,许多因素会影响中风预后。确定最佳治疗方案需要整合全面的患者信息(影像和临床记录)[5],这既耗时又受到临床医生间差异的影响。因此,本研究旨在开发一种自动化且准确的方法来预测90天的mRS分数。
计算机断层扫描血管造影(CTA)是一种适用于急性状况紧急评估的快速成像技术。它可以清晰地显示血管结构,并反映患者的侧支循环、血管阻塞和其他影响AIS患者预后的因素 [6]。因此,CTA常用于90天mRS的预测 [7]。除了影像数据外,临床记录还提供了关于患者基线状况的宝贵信息,这对中风预后预测非常重要。这些记录包括人口统计学信息、中风预后评估、影像评分、时间指标和实验室结果 [8]、[9]。然而,单独使用影像数据或临床记录无法完整地反映患者的状况,从而限制了中风预后预测的准确性和鲁棒性。因此,许多研究结合了神经影像和临床记录进行更全面的分析,以提高90天mRS分数的准确性 [10]、[11]、[12]、[13]。然而,大多数现有方法在数据融合过程中缺乏对复杂图像-文本关系的有效建模。虽然Amador等人 [13] 使用跨模态注意力来建模图像-文本交互,但他们的方法缺乏多尺度对齐,限制了其捕捉层次语义关系的能力。因此,本研究旨在提高对多尺度交互下图像-文本关系的全面理解。
现有关于AIS患者90天mRS预测的研究通常依赖于相对较小的数据集,这限制了模型的泛化能力,并阻碍了其在不同临床环境中的应用。最近的医学基础模型显示出强大的特征提取能力和显著的零样本泛化能力 [14]、[15]、[16]。受这些进展的启发,本研究对LVM-Med [14] 基础模型进行了微调,以提高AIS患者90天mRS预后的泛化和预测准确性。
临床先验知识表明,大脑的双侧对称性与中风预后密切相关 [17],不对称性长期以来一直是识别病理状况的重要指标。现有研究 [18]、[19] 利用组织不对称性进行中风诊断、病变分割和出血检测等任务,但它们主要关注大脑的双侧差异,可能忽略了关键的血管信息。此外,患者记录通常缺乏对血管不对称性的描述。然而,使用图像生成的文本作为提示可以引导模型关注血管特征,从而提高不对称性的检测能力。因此,本研究引入了一种视觉描述文本提示,以更准确地捕捉血管不对称性。
为了解决上述问题,我们提出了一种新的视觉-语言方法,用于CTA上的AIS预后预测。主要贡献如下:
•我们引入了一种基于基础模型LVM-Med微调的视觉-语言模型,结合了孪生双边差异网络和文本引导的图像特征增强模块(TG-IFE),用于CTA上的AIS预后预测。
•与现有研究 [18]、[19] 不同,这些研究主要依赖简单的特征差异操作来提取双侧组织差异,忽略血管级信息,并且不利用血管描述文本来指导模型,我们提出了一种视觉问答引导的双边差异感知模块(VQA-BDAM),在视觉描述的指导下有效捕获大脑的双侧血管差异特征。
•与现有研究 [10]、[11]、[12]、[13] 不同,这些研究仅使用简单的嵌入来编码临床记录,缺乏对复杂图像-文本关系的有效建模,也不进行多尺度语义对齐,我们的方法引入了一个基于大型语言模型的文本特征提取模块(TFEM),生成短语级和短语间的嵌入。这些文本表示通过多尺度图像-文本交互模块指导细粒度和粗粒度的图像特征,从而增强跨模态表示学习。
具体方法
AIS预后的具体方法
先前的研究开发了结合神经影像和临床记录的深度学习方法来预测AIS患者的恢复情况,证明了多源数据融合在提高预测性能方面的价值。其中,卷积神经网络(CNN)已被广泛用于90天mRS分数的预测 [10]、[11]。例如,Samak等人 [10] 使用带有通道注意力和空间注意力的CNN来提取3D非对比CT图像特征
概述
我们提出的方法流程如图1所示。首先,我们通过一系列预处理操作将原始的3D CTA图像重建为2D图像。然后,我们将其与左右翻转的图像一起输入到基于基础模型LVM-Med微调的孪生双边差异网络中。该网络的每个阶段都包含一个VQA-BDAM来提取双侧血管差异。除了图像特征外,我们还提出了一个TG-IFE模块来提取临床
数据集收集
为了评估我们提出方法的性能,我们在三个90天mRS评分数据集上进行了实验。每个数据集包括影像数据和全面的临床记录,涵盖人口统计学信息、中风预后评估、影像评分、时间指标、实验室结果和其他相关指标。详细的临床信息见表1。
ISLES2024数据集:公共的缺血性中风数据集ISLES2024 [39] 包含多模态数据(脑图像和临床记录)
在ISLES2024和私有数据集A上的结果
表2定量比较了我们提出的方法和16种最先进(SOTA)方法在ISLES2024数据集和私有数据集A上的表现。我们将比较的方法分为四类,从上到下排列:视觉-语言对齐方法、自然图像分类方法、医学图像分类方法和AIS特定方法。可以看出,我们提出的方法在90天mRS预测上的准确率分别为81.11±2.85%和83.05±2.56%,敏感性分别为74.89±10.51%和67.19±7.32%
我们提出方法和比较方法的可解释性分析
为了确保公平比较,我们在ISLES2024数据集上重新实现了所有基线方法,并使用Grad-CAM算法 [40] 进行了可视化实验。对于基于Transformer的方法,我们通过上采样特征图并将其叠加在原始图像上来获得注意力热图。其他卷积方法则通过Grad-CAM算法进行可视化。从图4中可以看出,其他方法要么由于高对比度像素图像而更多地关注大脑边缘
结论
在这项工作中,我们提出了一种基于基础模型LVM-Med微调的视觉-语言模型,结合了孪生双边差异网络和文本引导的图像特征增强模块,用于CTA上的AIS预后预测。在两个数据集上的评估结果表明,我们提出的方法实现了准确的90天mRS预测,优于16种SOTA方法。此外,外部验证结果和青光眼视野进展预测任务的结果也证明了
CRediT作者贡献声明
黄树林:写作——审稿与编辑,撰写——初稿,监督,资源,方法论,研究调查,资金获取,形式分析,数据管理,概念化。胡斌:写作——审稿与编辑,撰写——初稿,可视化,验证,软件,方法论,研究调查,形式分析,数据管理,概念化。杨帅:写作——审稿与编辑,可视化,验证,软件,方法论,数据管理,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。