基于稀疏性引导的多模态自监督学习在专家级多任务胸部X光诊断中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Sparsity-Guided Multimodal Self-Supervised Learning for Expert-Level Multi-Task Chest X-ray Diagnosis

【字体：大中小】 时间：2026年03月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出ChestX-GPT，一种针对胸部X光片的统一多模态基础模型。通过四阶段渐进训练，有效解决标注稀缺、长尾分布及跨数据集泛化问题。在7个基准数据集上，模型在疾病诊断（F1提升2%）、病灶定位（AUC提升4.6%）和报告生成（BLEU、CIDEr均提升）任务中显著优于现有方法，并建立可扩展的多模态学习范式，提升诊断准确性和降低标注成本。

李思琪|程振|李白强|赵俊刚|黄景山

中国辽宁省沈阳市辽宁大学生命科学学院，邮编110036

摘要

胸部X光是临床诊断中最广泛使用的成像方式之一。然而，其诊断应用常常受到有限标注、长尾标签分布以及跨数据集泛化能力差的限制。这些挑战迫切需要可扩展且适应性强的多模态模型，以便在多样化的胸部X光数据集中实现稳健的理解和推理。为此，我们开发了ChestX-GPT，这是一个统一的胸部X光多模态基础模型。该模型通过四个阶段的渐进式框架进行训练：（1）弱监督对齐，以学习图像与医学概念之间的基本关联；（2）使用教师模型和语义丰富的标签进行自我监督蒸馏；（3）多粒度标签生成，以增强细粒度的图像-语义对齐；（4）任务级微调，以实现下游优化。我们在7个大型公共基准数据集上评估了该模型，涵盖了疾病诊断、病变定位和报告生成任务。结果表明，ChestX-GPT在所有任务上的表现均显著优于现有的医学图像-文本预训练模型。例如，在CheXpert疾病诊断数据集上，ChestX-GPT的F1分数比第二佳模型提高了2%，并且在F1分数上超过了三位认证放射科医生的平均表现4.7%。在ChestX-Det10病变定位数据集上，模型的AUC提高了4.6%。在报告生成方面，ChestX-GPT在MIMIC-CXR数据集上表现出明显优势，BLEU-1得分提高了2%，BLEU-3得分提高了2.9%，CIDEr得分提高了3.9%。ChestX-GPT为胸部X光建立了一种可扩展且泛化能力强的多模态学习范式。通过集成多阶段训练和跨模态表示学习，它有效解决了标注稀缺、长尾标签不平衡和领域迁移等问题。我们的代码将发布在https://github.com/SiqiLi960/ChestX-GPT。

引言

近年来，医学人工智能在生物医学领域取得了显著进展（Chen, Huang, Tian, Zhang, Zhou, Gao, Zhang, 2026, Dai, Chen, Yi, Zhao, Zhang, He, Liu, Zheng, Shi, 2024, Guo, Guo, Chen, Liu, He, Li, Zhang, Dai, 2023, Li, Zhang, Dai, 2025b, Li, You, Chen, Zhang, Du, 2024a, Li, Liu, Li, You, You, Yuan, Mi, 2026）。在各种临床应用中，胸部X光成像（Chao, Sage, McInnis, Ma, Grubert Van Iderstine, Zhou, Valero, Cypel, Liu, Wang, et al., 2024, Liu, Li, Yin, Huang, Luo, Thakur, Branson, Schwab, Yin, Wu, et al., 2025, Medeiros, Machado, de Freitas, da Silva, de Souza, 2024, Vats, Sharma, Singh, Singh, Bajuri, Taniar, Innab, Mouldi, Ahmadian, 2024）因其易于获取、辐射暴露低且成本效益高而被广泛用于胸部疾病的早期筛查和辅助诊断。它在初级医疗保健环境和资源有限的环境中尤其有价值。胸部X光诊断通常包括两个完整阶段：疾病诊断和诊断报告生成。这两个阶段共同构成了完整的诊断工作流程，并直接指导治疗决策和疾病管理。然而，现有方法往往无法在单一系统中同时处理这两个任务。临床报告通常是非结构化的、语言多样化的且标注稀疏的，这限制了成像信息的系统化使用。同时，尽管当前的自动化诊断模型（Okolo, Katsigiannis, Ramzan, 2025, Zhong, Wang, Wu, Hsu, Somasundaram, Bi, Kulkarni, Ma, Collins, Baird, et al., 2025）在某些识别任务上已接近专家水平，但它们的泛化能力有限。它们通常需要针对不同的疾病或任务重新训练，无法同时满足诊断和报告生成的双重需求。因此，充分利用胸部X光中的潜在信息并开发一个能够完成疾病诊断（Wang, Wu, Gao, Yu, Cheng, 2025a, Yi, Qin, She, Shao, 2025）和报告生成（Hou, Li, Wang, Lu, Lin, Zhang, 2025, Zeiser, da Costa, de Oliveira Ramos, Maier, da Rosa Righi, 2024）的集成模型，并具备强大的泛化能力，已成为医学人工智能中的一个重要研究方向（Xiong, Chen, Zhou, Zeng, Dai, 2025, Xu, Tao, Gao, Zhang, Tan, Xu, Jiang, 2025a, Yang, Yi, Tao, Liu, Zhang, Chen, Dai, 2022）。

近年来，多模态大型语言模型（MLLMs）在医学成像的感知和推理方面表现出强大的能力（Li, Huang, Shen, Wang, Lin, Lin, You, Zhang, Li, Sun, et al., Thirunavukarasu, Ting, Elangovan, Gutierrez, Tan, Ting, 2023, Zhang, Zhou, Adhikarla, Yan, Liu, Yu, Liu, Chen, Davison, Ren, et al., 2024），为克服现有挑战创造了新的可能性。与依赖结构化标签的传统监督学习方法不同，像GPT-4o这样的先进MLLMs可以同时处理图像和文本。凭借在医学和语言方面的丰富先验知识，它们可以从非结构化的放射学报告中提取弱监督信号（Lai, Vong, Yan, Wong, & Liang, 2025），支持医学术语的解释、模糊表达和诊断推理。然而，GPT-4o不是开源的，其使用仅限于官方平台或API，这限制了针对特定任务的适应性，并引发了关于遵守医学数据隐私标准的担忧。

开源MLLMs，如DeepSeek-VL2（Wu et al., 2024），具有高可访问性和可控性。它们支持本地部署和针对特定任务的微调（Cai, Zhang, He, He, Tong, Gan, Wang, Xue, Liu, & Bai, Xiao, Li, He, Fang, Yan, Xie, 2025, Xu, Chen, Hu, Li, 2025b），这满足了医学应用中对数据隐私和法规合规性的严格要求。然而，它们在关键医学任务上的表现仍然有限。具体来说，这些模型主要是在自然图像-文本对上训练的，缺乏对医学术语、诊断语言和放射学报告结构的充分建模。因此，它们在从非结构化的胸部放射学报告中自动提取潜在监督信号方面的表现较差。此外，它们的训练数据很少涵盖胸部疾病的分布和知识库，导致在实际临床场景应用时存在显著的领域差距。这极大地限制了它们在胸部疾病诊断任务中的迁移和泛化能力。此外，当前的开源模型通常是为单一任务设计的，如疾病分类（Wang, Wu, Gao, Yu, Cheng, 2025a, Yi, Qin, She, Shao, 2025）或报告生成（Hou, Li, Wang, Lu, Lin, Zhang, 2025, Zeiser, da Costa, de Oliveira Ramos, Maier, da Rosa Righi, 2024），很少集成多种诊断功能。这种多功能性的缺乏限制了它们的临床适用性，因为现实世界的诊断工作流程不仅需要准确的疾病识别，还需要病变定位（Hussain, Shouno, Mohammed, Marhoon, Alam, 2025, Tagnamas, Ramadan, Yahyaouy, Tairi, 2025, Zheng, Huang, Liu, Cai, 2024）和全面的报告生成。

为此，我们提出了一种新的训练范式，称为稀疏引导的自我增强训练（SGSET）。在这种范式下，我们基于DeepSeek-VL2构建了一个名为ChestX-GPT的多任务医学多模态模型。该范式遵循从粗到细的课程学习原则，将训练过程分解为四个相互依赖的阶段。这些阶段逐步提高监督粒度、语义复杂性和任务专业化：第一阶段建立基本的医学图像-文本对齐；第二阶段通过教师模型注入放射学语言和医学知识；第三阶段使用模型自生成的细粒度标签巩固跨模态语义空间；第四阶段进一步针对具体临床任务对模型进行专业化。这种分阶段设计使模型能够在弱监督下从一般感知稳健地过渡到细粒度推理和临床决策。具体来说：

第1阶段：弱监督的医学概念特征对齐。由于开源多模态模型主要在自然图像和通用领域文本上训练，它们无法直接适应胸部X光图像和放射学语言的分布。因此，我们首先使用胸部X光图像及其原始的稀疏放射学报告对DeepSeek-VL2进行弱监督微调，以弥合医学领域的领域差距并建立基本的图像-文本对齐。这使模型能够初步学习胸部图像表示和基本的医学描述能力，为后续的语义增强阶段奠定基础。

第2阶段：由稀疏标签引导的自我监督蒸馏。由于初始诊断报告在语义上较为稀疏，无法支持复杂放射学语言结构和诊断推理模式的学习，我们进一步引入了开源医学多模态大型模型Lingshu作为教师模型。基于稀疏报告，并结合检索增强生成（RAG）和外部专家模型，我们对文本标签进行语义丰富和细化。这一阶段的目标是将通用医学知识和放射学表达能力注入学生模型，使其能够构建结构化和细粒度的诊断描述，而不是直接优化下游任务，如疾病分类、病变定位或报告生成。

第3阶段：自我监督的医学概念特征对齐。在获得生成细粒度诊断报告的能力后，DeepSeek-VL2进一步利用其自身的多粒度标签进行端到端的自我监督对齐训练，以增强模型的内部医学语义建模能力，并减少对教师模型的长期依赖，使跨模态表示更加一致和稳健。

第4阶段：下游任务驱动的自我监督微调。在完成渐进式语义增强和跨模态对齐后，我们通过面向任务的下游训练将DeepSeek-VL2适应实际的临床应用场景，包括疾病分类、病变定位和诊断报告生成。通过引入特定任务的监督信号，这一阶段使模型能够从一般的医学理解过渡到具体的临床决策任务，从而在统一的多任务诊断框架下实现高性能结果。

部分片段

胸部X光自动诊断

使用胸部X光（CXR）进行自动诊断一直是医学图像分析的主要研究焦点。这一研究的动机源于临床对可靠、高效和可扩展筛查工具的需求。早期研究主要依赖于卷积神经网络（CNNs）（Hira, Bai, Hira, 2021, Pathan, Siddalingaswamy, Ali, 2021, Thakur, Kumar, 2021），这些模型在ChestX-ray14和CheXpert等大规模数据集上进行了训练。这些模型仅使用

数据集

我们模型的下游评估任务包括疾病诊断（涵盖疾病分类和病变定位）和自动放射学报告生成。使用的数据集及其实现细节如下所述。

Chest X-ray 14（外部验证）。Chest X-ray 14数据集包含来自30,805名独特患者的112,120张标记的胸部X光图像。疾病标签是通过自然语言处理工具从相应的放射学报告中提取的。

评估指标

对于疾病诊断分类任务，常用的评估指标包括Matthews相关系数（MCC）、F1分数（F1）和准确率（ACC），每个指标都有其独特的作用。MCC特别适用于不平衡数据，因为它考虑了真阳性、真阴性、假阳性和假阴性来评估整体模型性能，其值范围从-1到+1。与准确率相比，它更为全面，尤其是在类别分布不均匀时。

讨论与结论

在这项研究中，我们提出了ChestX-GPT，这是一个用于理解胸部X光的多模态基础模型，并在多个诊断和生成任务上进行了广泛的评估。实验结果一致表明，我们的方法优于现有的医学图像-文本预训练模型和强大的基线。下面，我们将讨论主要发现、见解和局限性。

1. 跨外部数据集的泛化能力。ChestX-GPT的一个关键优势是

附录

以下补充表格提供了正文中关键数据的原始数据：表A1对应于图2，表A2对应于图3a和图3b，表A3对应于图4。

资助

本工作得到了辽宁省自然科学基金（项目编号2025-BS-0546，黄景山）的资助。我们感谢辽宁大学生命科学学院和中国医科大学盛京医院的财政支持。

作者贡献

所有作者都参与了这项工作的构思或设计。具体来说，SL和CZ参与了算法实现。BL和CZ参与了数据收集和处理。JZ和JH参与了基线实现。所有作者都参与了手稿的起草和修订。

ORCID信息

黄景山（orcid: 0009-0006-1977-303X）

作者声明

所有作者都参与了这项工作的构思或设计。具体来说，SL和CZ参与了算法实现。BL和CZ参与了数据收集和处理。JZ和JH参与了基线实现。所有作者都参与了手稿的起草和修订。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号