通过多视图掩码对比学习增强放射成像报告基础模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Enhancing Radiography-Report Foundation Model via Multi-View Masked Contrastive Learning

【字体：大中小】 时间：2026年02月23日 来源：Pattern Recognition 7.6

编辑推荐：

　　多视角掩码对比学习框架MMCL通过整合掩码图像建模、掩码语言建模及多视角对齐，抑制跨视角冗余信息，建立视觉片段与文本术语的精细对应，提升医学影像报告的语义对齐与诊断任务泛化能力。在公开数据集和儿科肺炎私有数据集上验证，分类、分割及零样本诊断性能均优于基线方法，尤其在年龄相关疾病中展现强迁移特性。

重庆大学生物工程学院，中国重庆，400044

摘要

在临床场景中，医学图像通常从多个角度生成，需要保持高度的语义一致性。然而，当前的多模态视觉-语言基础模型主要关注单视图数据，忽视了多视图信息的潜力。这种多视图互信息可以显著增强基础模型中对领域特定知识的语义理解，但由于多视图图像与相应文本报告之间的复杂跨模态关系，这些模型的实际临床应用受到限制。为了解决这些问题，本文提出了一种新的跨模态基础模型MMCL，该模型采用掩码对比学习在多视图条件下实现细粒度对齐，支持多种医学成像任务，包括零样本学习。同时，引入了一种掩码语义重要性评估策略来处理多视图输入中的特征冗余，并改进跨模态特征对齐。此外，还采用基于特征交换的模态融合方法在文本重建过程中完全整合视觉特征。在几个著名的开源X射线数据集上进行了全面评估，并补充了一个私有的儿科肺炎数据集。结果表明，MMCL在分类、分割和零样本实验中始终优于现有方法。此外，该模型在应用于儿科数据时表现出强大的泛化能力，有效处理了与年龄相关的领域差异。我们的代码将在github.com/GUESSZERO4/MMCL上提供。

引言

随着深度学习的快速发展，人工智能（AI）已成为辅助放射诊断和临床决策的重要工具。AI系统现在被常规用于检测胸部异常、评估疾病严重程度并生成初步诊断报告[1]。然而，从头开始开发特定任务的模型在计算上非常昂贵，并且严重依赖手动注释，这限制了其在临床实践中的可扩展性[2]。这些挑战促使人们开发了能够学习通用视觉-文本表示并通过统一预训练支持多种放射学任务的放射学-报告基础模型。

在放射学工作流程中，大规模的成对图像-报告数据为这类模型提供了自然的监督来源。通过利用放射学报告作为弱对齐的文本描述，这些模型可以在不需要像素级标签的情况下学习跨模态关联[3]。学习到的特征可以适应分类、分割和报告重建等不同任务，使用轻量级的任务特定头部[4]、[5]。这一范式大大减轻了放射科医生的注释负担，提高了实际临床应用的可行性[6]。然而，胸部区域的复杂解剖结构和放射学语言的多样性仍然对视觉和文本模态之间的精确语义对齐构成挑战。

当前放射学-报告基础模型主要采用两种学习策略。第一种是掩码建模，它随机隐藏图像或文本片段并重新构建它们以学习上下文依赖性[7]。第二种是多模态对比学习，通过最大化跨模态相似性来对齐图像-报告对[8]。尽管这两种方法都提升了表示学习能力，但它们通常只处理单视图输入，忽略了多视图研究中存在的互补信息[9]。许多胸部检查包括正面和侧面投影，这些投影共同提供了更完整的解剖结构描述。忽略这种多视图关系会限制模型的泛化能力和诊断解释能力。

当有多视图数据时，常见的策略是连接不同视图的特征或融合全局嵌入，而不显式建模视图间的依赖性[10]。这种简化可能会引入冗余的背景信息和投影伪影，同时错过对全面表示和可靠诊断泛化至关重要的视图特定线索。一些近期工作试图解决这个问题。CheXFusion[11]使用基于注意力的融合，但依赖于固定的主干网络，限制了适应性。LIMITR[12]在检索任务中使用视图门控，而REFERS[13]使用报告监督进行研究级融合，但缺乏对解剖对应关系的细粒度建模。这些方法表明需要一个更具适应性和冗余意识的框架，能够联合建模不同视图之间的互补视觉线索。

为了解决上述问题，本文开发了一个多视图掩码对比学习（MMCL）框架，该框架明确利用了多个成像视图之间的互补信息，同时减轻了视图间的冗余。该框架将掩码建模与对比目标结合起来，增强了生成和判别能力，引入了语义重要性机制来适应性地加权视图和补丁级别的贡献，并引入了基于交换的跨模态融合策略，以建立视觉标记和文本术语之间的细粒度对应关系。通过将这些组件整合到一个连贯的预训练范式中，MMCL提高了表示质量，改善了报告重建，并在异构数据集和临床场景中实现了强大的泛化能力。主要贡献如下：

•
多视图掩码对比学习。 提出了一种统一框架，用于在将多个视图与文本描述对齐的同时捕获细粒度语义，从而提高下游任务的表示质量。
•
冗余感知的语义重要性。
一种掩码语义重要性机制定量估计视图/补丁级别的相关性，以抑制视图间的冗余并在解剖变异情况下实现动态跨模态对齐。

•

基于交换的跨模态融合。

一种细粒度的交换策略将语言线索嵌入视觉标记中，建立了精确的视图-文本对应关系，提高了报告重建的准确性。

•

全面验证和泛化。

在四个公共数据集和一个私有的儿科数据集上进行了广泛实验，显示在分类和分割方面取得了持续改进；零样本儿科肺部疾病识别进一步证明了其在不同年龄组的鲁棒性。

本文的其余部分组织如下：第2节回顾相关研究；第3节详细介绍MMCL框架和训练目标；第4节展示实验和消融分析；第5节总结关键发现和未来方向。

部分摘录

医学视觉-语言对齐

早期的医学视觉-语言预训练侧重于通过对比目标学习判别性跨模态表示。ConVIRT[14]采用双编码器架构，其中CNN或Vision Transformer处理图像，Transformer编码文本，模型使用全局InfoNCE损失进行训练，使匹配的图像-报告对在共享嵌入空间中更接近，不匹配的对则被分开，尽管这种设计主要捕获全局信息

方法论

开发了一种基于掩码对比学习的多视图放射图像基础模型，以利用正面和侧面视图之间的互补解剖线索，并通过多模态重建提高鲁棒性。如图1所示，该框架整合了三个预训练目标——掩码图像建模、掩码语言建模和多视图对齐——旨在在成对视图放射学设置下共同改进视觉-文本表示学习。

实施细节

所有实验都在配备8个NVIDIA RTX 3090 GPU（每个24 GB）的工作站上进行，使用PyTorch 2.1.0和CUDA 12.1环境。我们采用ViT-B/16作为图像编码器，BERT-base作为文本编码器，两者分别使用ImageNet-21K和MIMIC-CXR预训练权重进行初始化。输入分辨率固定为224×224。我们采用AdamW优化器，初始学习率为

4.5 \times 10^{? 4} （余弦衰减），权重衰减为0.05，动量参数为

结论

本文提出了MMCL，这是一种多视图掩码对比学习框架，通过明确利用成对视图之间的互补解剖线索来推进放射学视觉-语言预训练。通过将掩码语义重要性估计与基于特征交换的跨模态融合相结合，MMCL抑制了冗余信号，加强了视觉补丁和文本标记之间的细粒度对齐，实现了更具解剖学基础的表示学习。

广泛

CRediT作者贡献声明

Xiaoyu Li：撰写——原始草案、可视化、软件、方法论、概念化。 Daidi Zhong：撰写——审阅与编辑、监督、资源管理、项目协调。 Zhiyong Huang：撰写——审阅与编辑、监督、方法论、资金获取、概念化。 Shiwei Wang：验证、软件、调查、数据管理。 Zhipeng Liu：可视化、验证、调查、数据管理。 Zhi Yu：可视化、验证、资源管理。 Mingyang Hou：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号