面向心脏磁共振图像嵌入的对比语言-图像预训练及其零样本能力

《Nature Communications》:Contrastive language image pretraining for a cardiac magnetic resonance image embedding with zero-shot capabilities

【字体: 时间:2026年05月22日 来源:Nature Communications 15.7

编辑推荐:

  采用自监督学习的视觉-语言模型对降低大规模标注数据依赖至关重要。然而,传统依赖精确图文配对的自监督方法,因心脏磁共振成像(Cardiac Magnetic Resonance Imaging,CMR)可在单次检查中同时呈现心脏解剖、生理及微结构特征,在心血管磁

  
采用自监督学习的视觉-语言模型对降低大规模标注数据依赖至关重要。然而,传统依赖精确图文配对的自监督方法,因心脏磁共振成像(Cardiac Magnetic Resonance Imaging,CMR)可在单次检查中同时呈现心脏解剖、生理及微结构特征,在心血管磁共振领域并不总是适用。研究人员提出CMR-对比语言-图像预训练(CMR-CLIP),一种将CMR图像视为视频序列的视觉-语言模型,用于联合学习同次检查的图像与对应报告的嵌入表征。该模型基于单中心11028例检查的大数据集完成训练,并在内部测试集(N=2758)与外部测试集(N=428)上进行评估。结果显示,CMR-CLIP在真实临床任务中表现优异,对非缺血性心肌病、缺血性心肌病、心脏淀粉样变及肥厚型心肌病的分类准确率分别达到88.5%、88.0%、96.2%与98.6%,有望提升心血管疾病诊断的一致性。
心脏磁共振成像(CMR)是兼具形态、功能、组织特征评估的高级心脏影像模态,也是多种心脏疾病确诊的核心手段,但其单次检查信息量大,判读与报告撰写常耗时超过40分钟,且需要额外1至2年的专科培训,临床负担沉重。现有CMR人工智能工具多为针对单一任务的窄模型,依赖精细标注的小样本数据,开发与应用受限。自监督学习与视觉-语言预训练已在自然图像与部分医学影像领域取得进展,但CMR包含上千帧二维图像,具有时间与容积关联,报告描述通常对应多帧综合信息,单图-单句配对策略难以奏效,因此亟需适配CMR特性的基础模型。在此背景下,研究人员开发了CMR-对比语言-图像预训练(CMR-CLIP),相关成果发表于《Nature Communications》。
为开展研究,研究人员基于克利夫兰诊所2008年至2023年间收集的14214例成对CMR检查与报告构建数据集,涵盖12500例患者,包括多种扫描设备与场强。模型以Frozen-In-Time视频-语言框架为基础,将一次检查内的不同心脏视图与图像类型拼接为视频序列,由视觉编码器处理图像序列,文本编码器处理报告中“印象”部分,通过对比损失实现跨模态嵌入对齐。视觉编码器采用时空Transformer结构,文本编码器采用Bio+ClinicalBERT,训练中使用统一的64帧固定长度输入,并对文本进行去标识化处理。评估阶段分别在内部测试集与外部独立测试集上开展零样本、少样本、迁移学习、跨模态检索及报告生成等任务,并与OpenAI CLIP、BiomedCLIP及VideoMAE-CLIP等基线模型进行比较。
研究结果分为多个部分。在零样本分类方面,CMR-CLIP在左心室功能障碍、右心室功能障碍、左心室扩张、右心室扩张、左心室肥厚、晚期钆增强及主动脉扩张等7项常见CMR征象的平均曲线下面积(AUC)达0.764;在肥厚型心肌病(HCM)、心脏淀粉样变(CA)、非缺血性心肌病(NICM)及缺血性心肌病(ICM)四类疾病的识别中平均AUC为0.794,显著优于通用域与生物医学域基线模型,且在外部数据集上表现出更强的泛化性。在少样本分类方面,采用原型学习方法,CMR-CLIP在仅1个示例时即可达到其他模型32个示例的性能水平,随示例数增加AUC稳步上升,在内部与外部数据集上均优于VideoMAE-CLIP。在跨模态检索方面,CMR-CLIP在文本到视频与视频到文本任务中,前5命中率分别为20.7%与20.2%,显著高于基线模型,且在外部数据集上仍保持稳定性能。在迁移学习方面,冻结预训练视觉嵌入后仅训练全连接层,对四类心肌病的分类AUC平均达0.961,其中NICM、ICM、CA与HCM的准确率分别为88.5%、88.0%、96.2%与98.6%,在公开ACDC数据集上也取得优异表现,并在与人工阅片比较中显示出更高的诊断一致性。在生成任务方面,基于检索的报告生成ROUGE-L得分为0.215,BLEU-4为0.072;而结合CMR-CLIP嵌入训练的CMR-TARGET自回归报告生成器,ROUGE-L提升至0.39,BLEU-4提升至0.236,可生成连贯且临床相关的印象文本。在模态与视图组合分析中,联合使用Cine与晚期钆增强(LGE)图像比单独使用任一类图像的检索性能提升至少16%;纳入二腔心、三腔心等视图进一步提高了特定疾病的区分能力。在模型优化与稳定性分析中,64帧配置在分类与检索任务中表现最优;扰动实验显示CMR-CLIP对帧顺序变化与数据缺失的敏感性显著低于其他模型,嵌入更稳定。在不同厂商与场强亚组分析中,CMR-CLIP在Philips与Siemens设备、1.5 T与3.0 T场强下均保持稳健的零样本性能。
讨论部分指出,CMR-CLIP通过大尺度自监督预训练,构建了适用于CMR的长时空语境嵌入,显著降低了下游任务对标注数据的需求,在检索、分类与生成等任务中均优于既有模型。该模型有望支持结构化报告生成、辅助诊断与临床决策,缓解CMR阅片资源不足的问题。研究人员同时指出当前局限,包括输入序列未覆盖完整协议、缺乏灌注与参数映射等序列、公开数据集有限且视角单一、LGE验证依赖文本描述而非直接图像标注等。综上,CMR-CLIP为心血管磁共振的人工智能应用提供了通用的视觉-语言基础模型,为后续多模态学习与临床转化奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号