面向心脏磁共振图像嵌入的对比语言-图像预训练及其零样本能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Communications》：Contrastive language image pretraining for a cardiac magnetic resonance image embedding with zero-shot capabilities

【字体：大中小】 时间：2026年05月22日 来源：Nature Communications 15.7

编辑推荐：

　　采用自监督学习的视觉-语言模型对降低大规模标注数据依赖至关重要。然而，传统依赖精确图文配对的自监督方法，因心脏磁共振成像（Cardiac Magnetic Resonance Imaging，CMR）可在单次检查中同时呈现心脏解剖、生理及微结构特征，在心血管磁

采用自监督学习的视觉-语言模型对降低大规模标注数据依赖至关重要。然而，传统依赖精确图文配对的自监督方法，因心脏磁共振成像（Cardiac Magnetic Resonance Imaging，CMR）可在单次检查中同时呈现心脏解剖、生理及微结构特征，在心血管磁共振领域并不总是适用。研究人员提出CMR-对比语言-图像预训练（CMR-CLIP），一种将CMR图像视为视频序列的视觉-语言模型，用于联合学习同次检查的图像与对应报告的嵌入表征。该模型基于单中心11028例检查的大数据集完成训练，并在内部测试集（N=2758）与外部测试集（N=428）上进行评估。结果显示，CMR-CLIP在真实临床任务中表现优异，对非缺血性心肌病、缺血性心肌病、心脏淀粉样变及肥厚型心肌病的分类准确率分别达到88.5%、88.0%、96.2%与98.6%，有望提升心血管疾病诊断的一致性。

心脏磁共振成像（CMR）是兼具形态、功能、组织特征评估的高级心脏影像模态，也是多种心脏疾病确诊的核心手段，但其单次检查信息量大，判读与报告撰写常耗时超过40分钟，且需要额外1至2年的专科培训，临床负担沉重。现有CMR人工智能工具多为针对单一任务的窄模型，依赖精细标注的小样本数据，开发与应用受限。自监督学习与视觉-语言预训练已在自然图像与部分医学影像领域取得进展，但CMR包含上千帧二维图像，具有时间与容积关联，报告描述通常对应多帧综合信息，单图-单句配对策略难以奏效，因此亟需适配CMR特性的基础模型。在此背景下，研究人员开发了CMR-对比语言-图像预训练（CMR-CLIP），相关成果发表于《Nature Communications》。

为开展研究，研究人员基于克利夫兰诊所2008年至2023年间收集的14214例成对CMR检查与报告构建数据集，涵盖12500例患者，包括多种扫描设备与场强。模型以Frozen-In-Time视频-语言框架为基础，将一次检查内的不同心脏视图与图像类型拼接为视频序列，由视觉编码器处理图像序列，文本编码器处理报告中“印象”部分，通过对比损失实现跨模态嵌入对齐。视觉编码器采用时空Transformer结构，文本编码器采用Bio+ClinicalBERT，训练中使用统一的64帧固定长度输入，并对文本进行去标识化处理。评估阶段分别在内部测试集与外部独立测试集上开展零样本、少样本、迁移学习、跨模态检索及报告生成等任务，并与OpenAI CLIP、BiomedCLIP及VideoMAE-CLIP等基线模型进行比较。

研究结果分为多个部分。在零样本分类方面，CMR-CLIP在左心室功能障碍、右心室功能障碍、左心室扩张、右心室扩张、左心室肥厚、晚期钆增强及主动脉扩张等7项常见CMR征象的平均曲线下面积（AUC）达0.764；在肥厚型心肌病（HCM）、心脏淀粉样变（CA）、非缺血性心肌病（NICM）及缺血性心肌病（ICM）四类疾病的识别中平均AUC为0.794，显著优于通用域与生物医学域基线模型，且在外部数据集上表现出更强的泛化性。在少样本分类方面，采用原型学习方法，CMR-CLIP在仅1个示例时即可达到其他模型32个示例的性能水平，随示例数增加AUC稳步上升，在内部与外部数据集上均优于VideoMAE-CLIP。在跨模态检索方面，CMR-CLIP在文本到视频与视频到文本任务中，前5命中率分别为20.7%与20.2%，显著高于基线模型，且在外部数据集上仍保持稳定性能。在迁移学习方面，冻结预训练视觉嵌入后仅训练全连接层，对四类心肌病的分类AUC平均达0.961，其中NICM、ICM、CA与HCM的准确率分别为88.5%、88.0%、96.2%与98.6%，在公开ACDC数据集上也取得优异表现，并在与人工阅片比较中显示出更高的诊断一致性。在生成任务方面，基于检索的报告生成ROUGE-L得分为0.215，BLEU-4为0.072；而结合CMR-CLIP嵌入训练的CMR-TARGET自回归报告生成器，ROUGE-L提升至0.39，BLEU-4提升至0.236，可生成连贯且临床相关的印象文本。在模态与视图组合分析中，联合使用Cine与晚期钆增强（LGE）图像比单独使用任一类图像的检索性能提升至少16%；纳入二腔心、三腔心等视图进一步提高了特定疾病的区分能力。在模型优化与稳定性分析中，64帧配置在分类与检索任务中表现最优；扰动实验显示CMR-CLIP对帧顺序变化与数据缺失的敏感性显著低于其他模型，嵌入更稳定。在不同厂商与场强亚组分析中，CMR-CLIP在Philips与Siemens设备、1.5 T与3.0 T场强下均保持稳健的零样本性能。

讨论部分指出，CMR-CLIP通过大尺度自监督预训练，构建了适用于CMR的长时空语境嵌入，显著降低了下游任务对标注数据的需求，在检索、分类与生成等任务中均优于既有模型。该模型有望支持结构化报告生成、辅助诊断与临床决策，缓解CMR阅片资源不足的问题。研究人员同时指出当前局限，包括输入序列未覆盖完整协议、缺乏灌注与参数映射等序列、公开数据集有限且视角单一、LGE验证依赖文本描述而非直接图像标注等。综上，CMR-CLIP为心血管磁共振的人工智能应用提供了通用的视觉-语言基础模型，为后续多模态学习与临床转化奠定了基础。

联系信箱：

粤ICP备09063491号

热点排行