《Biomedical Signal Processing and Control》:Multi-label chest X-ray image classification based on graph convolutional networks and multi-modal fusion
编辑推荐:
多标签胸部X光影像分类模型GCF-Net通过图卷积网络建模标签共现关系,结合多模态特征融合模块提升诊断效果。实验表明其在ChestX-ray14和CheXpert数据集上显著优于现有方法。
Junding Sun|Jiayao Hu|Xiaosheng Wu|Zhaozhao Xu|Yuwen Wang|Yudong Zhang
河南工业大学计算机科学与技术学院,中国焦作市454000
摘要
胸部X光(CXR)成像在胸部疾病诊断中具有重要意义,深度学习在支持临床决策方面展现了强大的潜力。然而,现有方法在模拟标签依赖性和有效整合图像特征与标签嵌入方面仍存在局限性。为了解决这些问题,我们提出了一种基于图卷积和多模态融合的增强型CXR诊断框架GCF-Net。该框架包括三个核心模块:(i)图像特征嵌入(IFE)模块,用于从CXR图像中提取高级语义表示;(ii)标签共现嵌入(LCE)模块,通过阈值过滤和高斯核映射引入高斯平滑门(GSG)机制来细化标签共现关系,从而增强标签图的鲁棒性和表达能力;(iii)MLSI融合(MF)模块,采用多模态条件共享投影交互池化(MLSI)技术高效融合图像特征与标签嵌入,提高表示能力和端到端训练效果。在ChestX-ray14和CheXpert数据集上的广泛实验表明,GCF-Net在多标签疾病分类任务中优于现有的最先进方法(SOTA),验证了该框架的有效性和优越性。
引言
胸部疾病是全球重要的健康负担,影响着大量人口。CXR是最常用的评估这些疾病的诊断方法[1],它提供了全面的视觉信息,在临床工作中占据核心地位。计算机视觉的进步推动了深度神经网络在CXR图像分类中的应用。尽管每年的胸部成像数据量巨大,但专家放射科医生的短缺阻碍了及时分析[2],延长了筛查时间。此外,许多胸部疾病的放射学表现相似,使得准确诊断变得复杂。因此,自动化CXR分析已成为关键的辅助工具,使临床医生能够更有效地解读结果,快速识别病理图像,从而提高疾病检测的准确性和效率。
CXR图像通常表现出微妙的病理结构变化,这使得深度学习在改进分类和识别方面具有巨大潜力。尽管基于深度学习的方法在医学图像分类中取得了优异性能,但大多数现有方法都是在单标签监督下训练的。实际上,一次扫描往往包含多个病变(例如胸腔积液、浸润和胸膜增厚),因此胸部疾病诊断本质上是一个多标签分类问题。
与单标签任务相比,多标签图像分类更为复杂[3],模型不仅需要识别单个图像中的多个标签,还需要解决由于标签数量众多而产生的类别不平衡问题。尽管许多研究提出了改进CXR图像多标签分类性能的增强框架并取得了显著成果,但目前主流方法主要集中在处理、分析和识别图像内容上,往往忽略了胸部疾病之间的共现关系。近年来,标签共现[4]已成为多标签学习的研究热点;通过挖掘疾病标签之间的依赖关系,不仅可以提高分类性能,还可以有效推断缺失或噪声标签,为放射科医生提供更有价值的辅助信息。
在多标签分类任务中,传统的卷积神经网络(CNN)在模拟标签间关系方面存在局限性。一种有前景的方法是模拟标签之间的依赖性,从而更准确地反映现实世界中某些疾病或病变更可能同时出现在同一图像中的情况。Li等人[5]使用循环神经网络(RNN)解码器将多标签分类视为序列生成问题,通过顺序预测每个疾病标签来明确建模标签依赖性。然而,这种方法依赖于隐藏状态来传递上下文信息,这增加了训练和推理的计算复杂性。此外,它对标签顺序敏感,限制了其捕捉复杂标签共现模式的能力。
此外,一些研究[6]、[7]采用了注意力机制来引导模型关注图像中的疾病相关区域,从而增强多标签CXR图像中的特征表示和分类区分度。这种机制有助于识别潜在的病变。通过采用迭代注意力挖掘或类别残差注意力,可以进一步定位多个区域中的异常模式以及与类别相关的特征,从而提高局部区分度和模型可解释性。然而,这些方法主要捕捉单个图像内的局部相关性,而忽略了标签分布的全局共现结构。
为了解决这一局限性,Chen等人[8]提出了一种多标签CXR图像分类方法,该方法结合了图卷积网络(GCN)。通过在疾病标签之间构建共现图并通过GCN进行语义传播,该方法明确模拟了标签间的依赖性,从而提高了分类准确性并增强了模型对共病模式的理解。类似地,Lu等人[9]提出了一种多标签CXR图像分类框架,将卷积视觉变换器(CvT)与GCN结合。CvT从图像中提取病理特征,而GCN模拟疾病标签之间的共现关系,实现图像信息和语义结构的联合学习。然而,这两种方法都是使用点积操作融合图像特征嵌入模块和GCN标签共现嵌入的双模态向量。这种直接的融合策略在模拟图像语义和标签依赖性方面的表现力有限,难以充分捕捉它们的深层交互作用。因此,它限制了收敛速度和表示学习能力,从而阻碍了多标签CXR图像分类性能的进一步提高。
在本文中,我们提出了一种新颖的多标签CXR图像分类模型GCF-Net,该模型通过结合GCN有效模拟了标签间依赖性,并通过MLSI实现了高效的跨模态特征融合。具体而言,GCF-Net将从CXR图像中提取的病理特征与全局上下文信息相结合,生成更具诊断价值的视觉表示。本文的主要贡献总结如下:
我们在LCE模块中引入了高斯平滑门(GSG)机制,结合阈值过滤和连续高斯核映射,生成比二进制阈值分割更具区分性的标签共现矩阵。
我们在MF模块中设计了MLSI,利用共享投影交互和标签条件融合来捕获图像特征与标签共现嵌入之间的类别特定跨模态交互,提高了多标签分类性能。
在两个标准的多标签CXR数据集(ChestX-ray14和CheXpert)上的实验表明,GCF-Net在多个评估指标上均优于现有最先进方法(SOTA),验证了其有效性和优越性。
本文的其余结构如下:第2节回顾了与本研究相关的工作。第3节详细描述了所提出的方法。第4节介绍了进行的实验。最后,第5节总结了全文的发现。
相关研究
相关工作
在本节中,我们首先回顾了CXR图像多标签分类任务的关键研究成果。然后,我们重点分析了GCN在该领域的应用价值和发展趋势。最后,我们介绍了近年来关于多模态特征融合的代表性研究。
方法
在本节中,我们提出了一种多标签分类模型GCF-Net,该模型将标签关联建模与多模态融合相结合。模型的整体架构如图1所示。我们首先概述了所提出网络结构的总体情况,然后在后续小节中详细描述了每个关键模块的设计和功能。
实验
在本节中,我们评估了GCF-Net的性能,并将其与现有的SOTA方法进行了比较。我们首先描述了使用的数据集,然后介绍了评估指标和实现细节。最后,我们展示了GCF-Net的实验结果并进行了分析。
结论
本文提出了一种基于GCN和多模态融合的多标签分类模型GCF-Net。该模型首先利用CNN提取图像特征,而GCN捕获标签之间的共现关系以生成标签共现嵌入。为了提高标签图结构的质量,我们引入了GSG机制,在构建共现矩阵时结合了阈值过滤和高斯平滑,有效抑制了噪声
CRediT作者贡献声明
Junding Sun:撰写 – 审稿与编辑、资金获取、数据整理、概念化。Jiayao Hu:撰写 – 原始草稿、可视化、验证、方法论。Xiaosheng Wu:撰写 – 审稿与编辑、验证、监督、数据整理、概念化。Zhaozhao Xu:撰写 – 审稿与编辑、验证、监督、数据整理、概念化。Yuwen Wang:撰写 – 审稿与编辑、资源获取、数据整理、概念化。Yudong Zhang:撰写 – 审稿与
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(编号:62276092、62303167)和河南省研究生教育改革与质量提升项目(编号:YJS2026YBGZZ11)的支持。