基于Transformer与对比学习的通用心脏磁共振成像深度学习系统：揭示心血管疾病的复杂性

《Nature Biomedical Engineering》：A generalizable deep learning system for cardiac MRI

【字体：大中小】 时间：2026年03月26日 来源：Nature Biomedical Engineering 26.6

编辑推荐：

　　本研究针对传统有监督深度学习模型在心脏磁共振成像（CMR）诊断中泛化性差、需要大量标注数据且难以应对复杂疾病表征的问题，开发了一种基于Transformer架构的、通过自监督对比学习进行预训练的视觉-语言基础模型。该系统利用配对的心脏MRI动态序列和放射学报告文本，学习高质量、通用的心脏疾病表征，能够在多种下游任务（如左心室射血分数[LVEF]回归、39种心血管疾病的诊断）上实现高精度、临床级别的性能，且显著降低了微调所需的数据量，为构建可泛化、数据高效的心脏影像AI系统奠定了基础。

心脏磁共振成像（Cardiac magnetic resonance imaging, CMR）是评估心脏结构和功能的“金标准”，能够全面无创地评估心肌的结构、功能和组织特性。然而，尽管这项技术能提供丰富的数据，但当前基于深度学习的系统在学习人类心脏疾病的高质量表征方面仍存在明显局限。传统的监督学习模型通常被训练来检测少数预先定义的、经过筛选的“疾病”类别，它们在面对真实世界临床数据时往往表现不佳，因为这些数据通常混杂着多种不同的异常表现。例如，患有遗传性心肌病的患者可能同时伴有严重的瓣膜疾病；存在心室血栓证据的患者，其心力衰竭可能源于远期的缺血性损伤。这种疾病的多样性使得模型难以从CMR扫描中进行情境化理解，为某一问题学习的参数很少能推广到其他任务。因此，这些系统每遇到一个新的临床任务，几乎都需要成千上万的训练样本从头开始重新训练，极大地限制了其临床应用的范围和效率。

为了克服这些挑战，一项发表在《Nature Biomedical Engineering》上的研究提出了一种全新的Transformer基础视觉系统。该系统通过自监督对比学习，从一个包含19,041例CMR扫描的大型、多机构数据集中学习复杂的心脏病理生理学视觉表征，其学习过程由每项CMR研究附带的放射学报告文本进行自然语言监督。研究团队使用了一个大型语言模型来“教导”视觉网络，通过展示放射科医生在撰写报告时如何描述所见，从而生成有意义的CMR研究低维表征。这个深度学习系统不仅能够理解人类心血管疾病的惊人复杂性，还可以被引导至感兴趣的临床问题，在通常所需训练数据量的一小部分情况下，就能实现令人印象深刻的、临床级别的诊断准确性。

研究人员开展这项研究，主要应用了以下几项关键技术方法：首先，他们构建了一个多中心、大规模的CMR数据集，数据来源于美国的斯坦福大学、加州大学旧金山分校、MedStar等多家大型学术临床机构，以及英国生物银行（UK BioBank）和另外两个公开的外部数据集，用于模型的预训练、微调和验证。其次，在模型架构上，他们采用了基于多尺度视觉变换器（multiscale vision transformer, mViT）的CMR视觉编码器和基于双向编码器表示变换器（bidirectional encoder representations from transformers, BERT）的文本编码器，通过对比学习目标进行联合预训练，最大化来自同一扫描的视频和文本配对（正样本）之间的一致性，同时最小化不同扫描配对（负样本）之间的一致性。最后，在下游任务微调阶段，他们设计了一个基于自注意力的多实例学习（multi-instance learning）模块，用于聚合来自不同MRI切面（如两腔心[2CH]、三腔心[3CH]、四腔心[4CH]、短轴[SAX]）的信息，生成患者级别的预测，从而实现对左心室射血分数（left-ventricular ejection fraction, LVEF）的回归预测以及对39种不同心血管疾病的分类诊断。

研究结果

CMR成像数据

研究的输入是稳态自由进动（steady-state free precession, SSFP）动态序列，这些序列沿多个不同的心脏切面采集。数据来源于异质性人群，在采集方式和扫描设备供应商方面存在显著差异。研究主要关注短轴堆栈、四腔心、三腔心和两腔心视图，因为这些视图与查询的病理学最相关。

预训练框架与低维表征评估

研究摒弃了传统上为每个影像扫描手动分配标签的做法，采用了自监督对比学习框架。在该框架中，CMR动态序列视频和配对的放射学报告文本分别输入到并行的视频变换器网络和文本变换器网络中。网络通过优化对比目标来匹配真实的文本报告和MRI扫描对。训练完成后，视觉编码器被冻结，其生成的嵌入（embedding）在验证集上通过降维算法可视化，结果显示随着训练的进行，这些嵌入的二维投影中逐渐出现了局部和全局结构。在一个公开的外部数据集（ACDC数据集）上的测试表明，该系统能够在没有任何定向监督的情况下，以惊人的一致性分离不同的疾病状况，如肥厚型心肌病与扩张型心肌病。

在英国生物银行上的验证

研究从英国生物银行获取了45,623名参与者的CMR扫描，评估了对比预训练在代表相对健康人群的数据集上的表现。通过使用冻结的、对比预训练的网络生成低维嵌入，并利用t分布随机邻域嵌入（t-distributed stochastic neighbor embedding, t-SNE）算法进行降维可视化，研究发现预训练网络学到的表征能够清晰地区分出射血分数<35%的患者、性别和年龄，而基线模型（在Kinetics-400动作识别数据集上预训练）则无法捕获这些信息。这表明对比预训练使网络能够学习到人口统计学和病理生理学的表征。

基于自注意力的多CMR视图嵌入聚合

为了模拟临床医生报告心脏MRI扫描的方式，研究使用了一个次级神经网络来聚合每个视图切面的有用信息，以生成最终的扫描级别输出。该自注意力模块被训练来识别不同可用视图切面的相关特征，与视图的实际数量无关，从而为不同的病理特征分配不同的重要性权重。

左心室射血分数的自动化估计

研究评估了对比预训练对预测左心室射血分数这一任务的影响。在冻结预训练的视觉编码器（仅最后一层线性层可训练）的情况下，使用英国生物银行的数据对网络进行微调。模型利用所有可用视图的动态序列，通过多实例自注意力回归头进行预测。在英国生物银行测试子集上，模型的平均绝对误差（mean absolute error, MAE）为3.344，Bland-Altman一致性界限为-9.91%至+9.61%，性能与基于分割的手工深度学习系统相当，并且在仅使用1%训练数据（344次扫描）进行微调时，其性能就远超基线模型。此外，在另一个公开的外部数据集（Kaggle）上验证也显示了模型的泛化能力，虽然存在系统性低估偏差，但经过校正后性能显著提升。模型预测的LVEF值用于识别射血分数降低的心力衰竭（heart failure with reduced ejection fraction, HFrEF, LVEF<40%）患者时，在UK BioBank和Kaggle测试集上分别取得了0.880和0.949的曲线下面积（area under the curve, AUC），显著优于基线。

基于心脏MRI的数据高效疾病诊断

研究创建了一个包含4,301名独特患者的标记数据集，涵盖39种心血管疾病。在冻结预训练视觉编码器的基础上，使用多实例自注意力分类头对网络进行微调，以预测每种疾病的二元分类标签。模型在内部测试集上对多种心肌病表现出优异的诊断性能，例如心脏淀粉样变性的AUC为0.921，肥厚型心肌病为0.91，扩张型心肌病为0.867。注意力图显示，对于不同的临床任务，模型会对不同视图的嵌入赋予不同的权重。与基线相比，对比预训练模型在大多数临床任务上都取得了显著的性能提升。

在宾夕法尼亚大学心脏MRI数据集上的外部验证

研究使用上述实验获得的最终模型检查点，在宾夕法尼亚大学的数据集上进行了测试，未进行任何额外的微调。模型在淀粉样变性、肥厚型心肌病、法洛四联症等疾病上表现出稳健的性能，但对于室间隔缺损、结节病等标签的诊断性能有所下降。值得注意的是，宾夕法尼亚大学的扫描协议是在注射对比剂后采集所有动态序列，这与预训练数据的采集顺序不同，但模型在多项任务上的鲁棒性表明其依赖于结构和动态运动特征，而非对对比剂注射时机敏感的像素强度模式。

诊断性能的优势与局限

尽管模型输入中不含对比增强图像，但其在检测多种心肌病方面表现优异。然而，在检测心内血栓、某些心脏肿瘤、准确分级瓣膜性心脏病以及诊断心肌炎、致心律失常性右室心肌病（arrhythmogenic right ventricular cardiomyopathy, ARVC）等任务上性能有限，因为这些疾病的临床诊断通常需要对比增强序列、特定序列或超出影像学本身的综合评估。模型性能与疾病本身的患病率无关，在患病率很低的疾病（如淀粉样变性，约1%）上也能取得优秀表现。

临床应用与未来方向

该核心视觉系统框架保持不变，只需一个预训练的视觉网络，就能通过最少的额外微调数据，快速适应各种临床任务。其临床应用前景广泛，包括实现罕见复杂心肌病的快速、专家级诊断，作为专家级分诊工具，自动化测量心脏结构和功能指标，以及用于大规模人群数据的心血管疾病表型分析和遗传学发现。该模型在推理模式下，可在400毫秒内处理完整个CMR研究，具备临床部署的潜力。

结论与讨论

该研究提出的基础性深度学习CMR模型，通过对比预训练在联合嵌入空间中学习视觉和文本特征。与传统监督学习方法不同，该方法缓解了“捷径学习”问题，并使得为一个狭窄临床任务学习的参数能够有效地迁移到新任务上。通过预训练和后续微调，研究证明该网络在众多不相关的任务上，能够以少得多的数据（可达两个数量级）实现卓越性能。这种数据效率对于开发诊断和表征复杂遗传性心肌病的微调模型至关重要，因为这类疾病的专家标注注册数据仍然稀缺。尽管预训练本身计算成本高昂，但对每个任务进行微调只需在消费级GPU上花费数小时即可完成。当前工作的一个局限是仅依赖于动态SSFP序列，未来的研究将纳入非标准视图以及T1、T2、晚期钆增强（late gadolinium-enhanced, LGE）和灌注扫描。这项工作是心脏MRI深度学习发展的重要一步，为疾病诊断的前瞻性临床级应用奠定了基础，并立即在利用心脏MRI进行心血管疾病的表型分析和遗传学发现方面具有研究应用价值。

热点排行