近年来,医学人工智能在生物医学领域取得了显著进展(Chen, Huang, Tian, Zhang, Zhou, Gao, Zhang, 2026, Dai, Chen, Yi, Zhao, Zhang, He, Liu, Zheng, Shi, 2024, Guo, Guo, Chen, Liu, He, Li, Zhang, Dai, 2023, Li, Zhang, Dai, 2025b, Li, You, Chen, Zhang, Du, 2024a, Li, Liu, Li, You, You, Yuan, Mi, 2026)。在各种临床应用中,胸部X光成像(Chao, Sage, McInnis, Ma, Grubert Van Iderstine, Zhou, Valero, Cypel, Liu, Wang, et al., 2024, Liu, Li, Yin, Huang, Luo, Thakur, Branson, Schwab, Yin, Wu, et al., 2025, Medeiros, Machado, de Freitas, da Silva, de Souza, 2024, Vats, Sharma, Singh, Singh, Bajuri, Taniar, Innab, Mouldi, Ahmadian, 2024)因其易于获取、辐射暴露低且成本效益高而被广泛用于胸部疾病的早期筛查和辅助诊断。它在初级医疗保健环境和资源有限的环境中尤其有价值。胸部X光诊断通常包括两个完整阶段:疾病诊断和诊断报告生成。这两个阶段共同构成了完整的诊断工作流程,并直接指导治疗决策和疾病管理。然而,现有方法往往无法在单一系统中同时处理这两个任务。临床报告通常是非结构化的、语言多样化的且标注稀疏的,这限制了成像信息的系统化使用。同时,尽管当前的自动化诊断模型(Okolo, Katsigiannis, Ramzan, 2025, Zhong, Wang, Wu, Hsu, Somasundaram, Bi, Kulkarni, Ma, Collins, Baird, et al., 2025)在某些识别任务上已接近专家水平,但它们的泛化能力有限。它们通常需要针对不同的疾病或任务重新训练,无法同时满足诊断和报告生成的双重需求。因此,充分利用胸部X光中的潜在信息并开发一个能够完成疾病诊断(Wang, Wu, Gao, Yu, Cheng, 2025a, Yi, Qin, She, Shao, 2025)和报告生成(Hou, Li, Wang, Lu, Lin, Zhang, 2025, Zeiser, da Costa, de Oliveira Ramos, Maier, da Rosa Righi, 2024)的集成模型,并具备强大的泛化能力,已成为医学人工智能中的一个重要研究方向(Xiong, Chen, Zhou, Zeng, Dai, 2025, Xu, Tao, Gao, Zhang, Tan, Xu, Jiang, 2025a, Yang, Yi, Tao, Liu, Zhang, Chen, Dai, 2022)。
近年来,多模态大型语言模型(MLLMs)在医学成像的感知和推理方面表现出强大的能力(Li, Huang, Shen, Wang, Lin, Lin, You, Zhang, Li, Sun, et al., Thirunavukarasu, Ting, Elangovan, Gutierrez, Tan, Ting, 2023, Zhang, Zhou, Adhikarla, Yan, Liu, Yu, Liu, Chen, Davison, Ren, et al., 2024),为克服现有挑战创造了新的可能性。与依赖结构化标签的传统监督学习方法不同,像GPT-4o这样的先进MLLMs可以同时处理图像和文本。凭借在医学和语言方面的丰富先验知识,它们可以从非结构化的放射学报告中提取弱监督信号(Lai, Vong, Yan, Wong, & Liang, 2025),支持医学术语的解释、模糊表达和诊断推理。然而,GPT-4o不是开源的,其使用仅限于官方平台或API,这限制了针对特定任务的适应性,并引发了关于遵守医学数据隐私标准的担忧。
开源MLLMs,如DeepSeek-VL2(Wu et al., 2024),具有高可访问性和可控性。它们支持本地部署和针对特定任务的微调(Cai, Zhang, He, He, Tong, Gan, Wang, Xue, Liu, & Bai, Xiao, Li, He, Fang, Yan, Xie, 2025, Xu, Chen, Hu, Li, 2025b),这满足了医学应用中对数据隐私和法规合规性的严格要求。然而,它们在关键医学任务上的表现仍然有限。具体来说,这些模型主要是在自然图像-文本对上训练的,缺乏对医学术语、诊断语言和放射学报告结构的充分建模。因此,它们在从非结构化的胸部放射学报告中自动提取潜在监督信号方面的表现较差。此外,它们的训练数据很少涵盖胸部疾病的分布和知识库,导致在实际临床场景应用时存在显著的领域差距。这极大地限制了它们在胸部疾病诊断任务中的迁移和泛化能力。此外,当前的开源模型通常是为单一任务设计的,如疾病分类(Wang, Wu, Gao, Yu, Cheng, 2025a, Yi, Qin, She, Shao, 2025)或报告生成(Hou, Li, Wang, Lu, Lin, Zhang, 2025, Zeiser, da Costa, de Oliveira Ramos, Maier, da Rosa Righi, 2024),很少集成多种诊断功能。这种多功能性的缺乏限制了它们的临床适用性,因为现实世界的诊断工作流程不仅需要准确的疾病识别,还需要病变定位(Hussain, Shouno, Mohammed, Marhoon, Alam, 2025, Tagnamas, Ramadan, Yahyaouy, Tairi, 2025, Zheng, Huang, Liu, Cai, 2024)和全面的报告生成。
为此,我们提出了一种新的训练范式,称为稀疏引导的自我增强训练(SGSET)。在这种范式下,我们基于DeepSeek-VL2构建了一个名为ChestX-GPT的多任务医学多模态模型。该范式遵循从粗到细的课程学习原则,将训练过程分解为四个相互依赖的阶段。这些阶段逐步提高监督粒度、语义复杂性和任务专业化:第一阶段建立基本的医学图像-文本对齐;第二阶段通过教师模型注入放射学语言和医学知识;第三阶段使用模型自生成的细粒度标签巩固跨模态语义空间;第四阶段进一步针对具体临床任务对模型进行专业化。这种分阶段设计使模型能够在弱监督下从一般感知稳健地过渡到细粒度推理和临床决策。具体来说:
第1阶段:弱监督的医学概念特征对齐。由于开源多模态模型主要在自然图像和通用领域文本上训练,它们无法直接适应胸部X光图像和放射学语言的分布。因此,我们首先使用胸部X光图像及其原始的稀疏放射学报告对DeepSeek-VL2进行弱监督微调,以弥合医学领域的领域差距并建立基本的图像-文本对齐。这使模型能够初步学习胸部图像表示和基本的医学描述能力,为后续的语义增强阶段奠定基础。
第2阶段:由稀疏标签引导的自我监督蒸馏。由于初始诊断报告在语义上较为稀疏,无法支持复杂放射学语言结构和诊断推理模式的学习,我们进一步引入了开源医学多模态大型模型Lingshu作为教师模型。基于稀疏报告,并结合检索增强生成(RAG)和外部专家模型,我们对文本标签进行语义丰富和细化。这一阶段的目标是将通用医学知识和放射学表达能力注入学生模型,使其能够构建结构化和细粒度的诊断描述,而不是直接优化下游任务,如疾病分类、病变定位或报告生成。
第3阶段:自我监督的医学概念特征对齐。在获得生成细粒度诊断报告的能力后,DeepSeek-VL2进一步利用其自身的多粒度标签进行端到端的自我监督对齐训练,以增强模型的内部医学语义建模能力,并减少对教师模型的长期依赖,使跨模态表示更加一致和稳健。
第4阶段:下游任务驱动的自我监督微调。在完成渐进式语义增强和跨模态对齐后,我们通过面向任务的下游训练将DeepSeek-VL2适应实际的临床应用场景,包括疾病分类、病变定位和诊断报告生成。通过引入特定任务的监督信号,这一阶段使模型能够从一般的医学理解过渡到具体的临床决策任务,从而在统一的多任务诊断框架下实现高性能结果。