综述：深度学习在心脏图像分析中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

综述：深度学习在心脏图像分析中的应用

《JACC: Cardiovascular Imaging》：Deep Learning for Cardiac Image Analysis

【字体：大中小】 时间：2026年05月04日 来源：JACC: Cardiovascular Imaging 15.2

编辑推荐：

　　Joske L. van der Zande | Laura Alvarez-Florez | Rick H.J.A. Volleberg | Carolina Brás | Dimitrios Karkalousos | Robin Nijveldt | Niels van Royen | Tim Leiner | Nadieh Khalili | Geert Litjens | Jos Thannhauser | Ivana I?gum
荷兰奈梅亨拉德布德大学医学中心心脏病学系

**摘要**
深度学习（DL）通过日益复杂的方法不断推动心脏影像分析的发展。尽管卷积神经网络（CNN）为深度学习奠定了基础，但新兴方法如图神经网络（GNNs）、变换器（transformers）、隐式神经表示（implicit neural representations）、生成对抗网络（generative adversarial networks）和基础模型（foundation models）使得解剖结构和功能建模、图像生成以及多模态整合变得更加高效。图神经网络能够实现非欧几里得数据表示，同时保持解剖结构的完整性；变换器提升了动态成像中的序列建模能力；隐式神经表示则提供了连续的空间表示，从而实现更精确的重建。生成对抗网络增强了图像生成、噪声减少和跨模态合成适应能力，而基础模型则提供了一个统一、可泛化的框架，能够适应多种成像任务。本文讨论了深度学习在心脏成像领域的这些关键创新及其影响，同时也指出了该领域面临的挑战以及未来的发展方向，例如临床验证试验。

近年来，深度学习经历了显著的发展。深度学习通过称为神经网络的分层数学模型，使模型能够从大型数据集中学习复杂模式。心脏成像领域的第一个重大突破来自卷积神经网络（CNN），它们特别擅长识别图像中的视觉模式。基于CNN的方法一直是心脏成像分析的核心，并构成了大多数深度学习工具的基础。这些方法被应用于多种心脏成像分析任务，如计算机断层扫描（CT）血管造影中的冠状动脉分割、CT中的全自动冠状动脉钙化评分、光学相干断层扫描（OCT）中的斑块特征分析以及心脏磁共振（CMR）中的心脏形态分析。在此基础上，出现了自动调整的分割框架（如nnU-Net），能够在无需手动调整的情况下适应多种医学成像任务，成为许多分割应用中的先进技术。

尽管取得了这些进展，但CNN架构本身存在局部感受野的限制，难以准确建模心脏解剖结构和功能的复杂时空依赖性。因此，新的架构应运而生，以解决传统CNN模型的局限性，捕捉心脏图像中更复杂的空间和时间关系。许多这些方法仍在研究阶段，但已显示出良好的效果，并为临床应用铺平了道路。同时，该领域正迅速向更具泛化和适应性的模型发展，这些模型可能很快会重新定义心脏成像任务的研究和实际应用方式。图神经网络（GNNs）成为捕捉数据中几何关系的强大工具，而变换器在序列建模方面取得了突破，通过自注意力机制实现了长距离上下文的相关性识别。这些进展促使心脏成像分析从特定任务的解决方案逐渐向更灵活、更通用的系统转变。研究人员将这些新技术应用于心脏成像分析，旨在提升现有解决方案的性能并拓展新的应用范围。本文重点介绍深度学习中的新兴模型架构趋势及其对临床应用的影响，而非单独介绍具体应用。以往的综述已经提供了关于早期深度学习及其在不同成像模式中应用的宝贵见解。相比之下，本文更侧重于架构本身，详细探讨了深度学习的最新发展及其在心脏成像中的应用。

为了确保全面覆盖，我们在PubMed（2019-2024年）中使用了“深度学习”和“心脏”等关键词结合特定成像模式的关键词（如CT、CMR、超声心动图、血管造影、冠状动脉成像和核成像）进行了结构化搜索。初步搜索发现了超过5,000篇相关论文，并通过标题和摘要进行了筛选。其中100多篇论文经过全文审查，最终确定了5种新兴模型架构：GNNs、变换器、隐式神经表示（INRs）、生成对抗网络（GANs）和基础模型。这些架构成为后续在Scopus、Web of Science和IEEE Xplore等数据库中进行进一步搜索的基础。搜索策略和选择过程的详细信息见补充方法部分。

我们假设读者熟悉深度学习及其在图像分析中的广泛应用相关概念。我们参考了我们团队之前发布的综述，其中介绍了深度学习的基础知识，包括早期深度学习方法在心脏成像分析中的应用，例如心脏解剖结构的分割和疾病检测。本文的结构如下：每个部分（GNNs、变换器、INRs、GANs和基础模型）分别介绍了这些新兴领域中的最新进展，并概述了其中一些最重要的研究。为了支持这一讨论，表1总结了所讨论深度学习架构的主要优势、局限性及典型应用。表2通过详细列出相关研究，进一步补充了这些信息，包括成像模式、任务、数据集、验证方法和关键性能指标。有关本文中使用的技术术语定义，请参阅术语表（表3）。

**表1. 五种新兴深度学习架构的主要特点**
| 架构 | 主要优势 | 主要局限性 | 成像模式/应用 |
|---------------|------------------|----------------------------------|-------------------------|
| GNNs | 有效捕捉图结构数据中的关系和模式，保持解剖结构，并实现复杂几何形态下的关联学习 | 需要显式的图构建，可能较为复杂或依赖领域；难以捕捉全局特征 | • 超声心动图：解剖结构分割（如心室和心肌）
• CT血管造影：冠状动脉树追踪、标记、保持拓扑结构的分割 |
| 变换器 | 捕捉序列或空间数据中的长距离依赖性和全局上下文 | 高度可扩展 | 需要大量数据和资源进行有效训练 | • 超声心动图：射血分数估计、主动脉狭窄检测、视图分类、二尖瓣分割
• MRI：心肌异常运动分类、提高采集后分辨率 |
| INRs | 提供连续的高分辨率表示和自然建模 | 内存效率高且灵活，可以用少量数据训练 | 某些实现需要实例优化，导致训练速度慢，不太适合实时应用 | • MRI：左心室形态重建、应变量化、心脏运动追踪
• CT：运动追踪 |
| GANs | 生成高质量合成数据，实现跨模态合成和去噪 | 训练不稳定；容易产生幻觉 | • CT：钙化评分；CT-TEE：跨模态对齐
• 血管造影：病变分割/分类 |
| 基础模型 | 在最少微调的情况下跨多种任务和成像模式泛化 | 可解释性问题、领域适应性差异、公平性挑战及计算需求大 | • CT、MRI、X射线：分割（MedSAM、MedLSAM）
• 超声心动图：分类（心包填塞、射血分数、设备识别）、图像到文本搜索（EchoCLIP） |

**表2. 五种深度学习架构的详细对比**方法论、摘要、数据及每篇论文的性能

| 方法论/数据 | 性能 | 第一作者 | 模型 | 任务 | 外部测试 |
|-------------------|-------------------|------------------|------------------|--------------------------|
| | |------------------|------------------|--------------------------------------|
| DevaTesta | External Test | CVMetric | Metric Value | GNNs | Van de Vyver et al. |
| | | | | | Segmentation using CNNs |
| CAMUS: n = 500 | | DSC (LV) | Number of anatomically incorrect segmentations | 0.938 |
| HUNT4: n = 311 | | ——10-fold | | |
| DSC (LV) | | 0.938 | |
| Kong et al. | | CT/CMR | Mesh reconstruction/segmentation | OrCAScore, SLAWT, LASC: n = 87 CT, n = 41 MR | |
| | | | | |
| MWHS: n = 40 CT, n = 40 MRI | | ——DSC (whole heart, CT) | | |
| | | DSC (whole heart, MRI) | 0.918 | |
| Alblas et al. | | Coronary CT | Coronary tree extraction | ASOCA: n = 32 | |
| | | | | | Recall: 0.90 |
| Hampe et al. | | Coronary CT | Coronary tree extraction and labeling | n = 79 | |
| | | | F1 score (tree extraction) | F1 score (labeling) | 0.85 |
| Zhang et al. | | Coronary CT | Coronary artery segment labeling | OrCAScore: n = 1,000 | |
| | | | | 5-fold | F1 score: 92.19 |
| Mokhtari et al. | | TTE | EF regression and AS severity classification | EchoNet-dynamic: n = 7,465 | |
| | | | Dual-video: n = 3,649 | AS: n = 1,875 | |
| | | | | F1 score: 0.74 | |
| | | MAE (EF) | R2 (EF) | Acc (AS-severity) | 4.15 |
| | | | Acc (AS-detection) | 96.5% |
| Wang et al. | | TTE | Semantic segmentation of LV, IVS, and PLVW | WACDC: n = 100 | |
| | | CMR segmentation: n = 33 | | DSC (LV) | 0.932 |
| | | DSC (IVS) | | 0.848 |
| | | DSC (PLVW) | | 0.868 |
| Wifstad et al. | | TTE | Mitral valve segmentation and tracking | n = 88 | |
| | | | Extraction of leaflet and annular hinge points | | |
| | | | DSC: Annulus error | 0.63 | |
| | | | Leaflet angle error | 3.64 mm | |
| | | | 8.7 mm | |
| Gao et al. | | TTE | Automated recognition of 9 standard cardiac views | n = 468 | |
| | | | n = 116 (independent test set) | | |
| | | | n = 100 (private external test set) | | |
| | | | Acc/AUC: 99.10% | | |
| | | | 99.36% | |
| | | | 97.73% | |
| Liu et al. | | TTE | Cardiac segmentation | CAMUS training: 450 | |
| | | | CAMUS test: n = 50 | |
| | | | ReLU-based training: split as per data set | | |
| | | | DSC (LV endocardial, CAMUS, end-diastolic) | 0.95 | |
| | | | DSC (LV endocardial, EchoNet, end-diastolic) | 0.95 | |
| | | | | 0.93 | |
| | | | DSC (LV endocardial, EchoNet, end-systolic) | 0.94 | |
| Lyu et al. | | Cine MRI | Super-resolution enhancement of cine MRI | In-house: n = 24 | |
| | | | ACC: n = 14 | | |
| | | | Recon as external validation | | |
| | | PSNR: 28.29 | | |
| | | SSIM: 0.90 | | |
| Xue et al. | | CMR | Regional cardiac motion scoring | n = 60 | |
| | | | | 3-fold (balanced) | |
| | | | Acc (motion scoring) | 79.3% | |
| | | | Acc, κ (abnormality detection) | 89.0%, 0.74 | |
| | | | r (MSI): 20.94 | |
| INRs | | CMR | Reconstruction/completion of high-resolution 3D LV shapes | n = 34 | |
| | | | Coronary CTA: n = 34 | |
| | | | n = 93 | |
| | | | CMR: n = 500 from UKDHP and n = 360 from MMS2 | |
| | | | DSCHD: 0.92 | |
| Arratia López et al. | | CMR | Strain and motion quantification | n = 15 | |
| | | | Nan | | |
| | | | Landmark tracking error (median) | 2.91 mm | |
| Alvarez-Florez et al. | | CMR | Strain and motion quantification | n = 11 | |
| | | | Nan | | |
| | | | DSC (LV) | 0.92 | |
| | | | DSC (MYO) | 0.79 | |
| | | | DSC (RV) | 0.87 | |
| Shen et al. | | TTE | Motion tracking | STRAUS: n = 8 | |
| | | | Internal: n = 12 | |
| | | | STRAUS: n = 2 | |
| | | | Internal: n = 100 | |
| | | | 10-fold | |
| | | | Median tracking error (LV) | Cosine similarity | 0.80 mm | |
| | | | 0.994 | |
| GANs | | CT and TEE | Image registration for congenital heart surgery | 12 paired CT and TEE scans from patients with congenital heart disease | | |
| | | | Leave-1-out validation on the same data set | | |
| | | | Dice ratio | HD95: 0.65-0.78 | |
| | | | ASD: 0.65-0.78 | 32.16-45.37 | |
| | | | 8.61-12.72 | |
| van Velzen et al. | | CT | Reproducible calcium scoring from CT | 514 RTP CTs | |
| | | | 626 low-dose chest CTs | | |
| | | | 1,662 RTP scan pairs for reproducibility | 119 pairs manually segmented | |
| | | | 10-fold | Interscan variability | |
| | | | ICCCAC mass difference (manual vs proposed) | 0.96 vs 0.91 | |
| | | | 47% vs 89% | |
| Sun and Ng | | Coronary CT | Calcium deblooming using the real-enhanced GAN | 50 with 184 calcified plaques (LAD, LCx, RCA) | |
| | | | Internal testing against invasive coronary angiography reference | | |
| | | | Specificity, PPV, AUC (per artery) | LAD: specificity 51.9%, PPV 31.5%, AUC 0.85 | |
| | | | LCx: specificity 62.5%, PPV 43.8%, AUC 0.85 | |
| | | | RCA: specificity 80%, PPV 61.9%, AUC 0.85 | |
| Du et al. | | Coronary angiography | Segment recognition and lesion morphology detection | 12,373 angiograms for segmentation | |
| | | | 6,239 angiograms for lesion detection | |
| | | 1,050 angiograms for segmentation | |
| | | | 5-fold | Acc (segment classification) | |
| | | F1 score (stenosis) | 98.4% | |
| | | F1 score (TO) | 0.82 | |
| | | F1 score (thrombus) | 0.81 | |
| | | F1 score (dissection) | 0.80 | |
| Al Khalil et al. | | MRI | Cardiac structure segmentation | 250 from 4 centers; 4 vendors | |
| | | | n = 125 from 2 centers | |
| | | | 5-fold | |
| | | Dice score | 91%-92% | |
| | | 2.5% (vs 7.8% baseline) | |
| Zhang et al. | | MRI | Cross-modality cardiac segmentation | MS-CMR: 45 (90 end-diastolic/end-systolic volumes) | |
| | | | M&Ms: 375 (from 6 centers) | |
| | | | Bidirectional evaluation: MS-CMR → M&Ms and M&Ms → MS-CMR | |
| | | | Dice score, HD95: MS-CMR → M&Ms: 0.899 ± 0.031 | |
| | | HD95: M&Ms → MS-CMR: 0.882 ± 0.028 | |
| | | HD95: 6.12 mm | |
| Sun et al. | | SPECT | Dual-gating myocardial perfusion SPECT denoising | 20 simulated phantoms with cardiac-respiratory motion | |
| | | | 20 clinical SPECT data sets | |
| | | | 6 DG cameras (phantom) | |
| | | NMSENSDEF error | 0.022～0.052 | |
| | | | ～2% | |
| Shanbhag et al. | | SPECT | Attenuation correction | 4,886 with short-axis NC and AC images | |
| | | | 604 from the external population | |
| | | AUC (DeepAC vs NC) | 0.79 vs 0.70 | |
| | | | 0.81 | |
| Mazurowski et al. | | Various (radiography, MRI, CT, etc.) | Evaluation of SAM on medical image segmentation tasks | | |
| | | Pretrained SAM model (trained on SA-1B: 1 billion natural image masks) | | |
| | | 19 medical data sets | | |
| | | IoU (spine MRI) | 0.11 | |
| | | 0.865 | |
| Lei et al. | | 3D CT | 3D anatomical localization and segmentation with automated SAM prompts | 14,012 CT scans from 16 data sets | |
| | | | 2 data sets covering 38 organs | | |
| | | DSC (average, all organs) | 49.5 ± 11.9 | |
| Ma et al. | | Multiple | Universal medical image segmentation across multiple modalities | | |
| | | 1,570,263 image-mask pairs | |
| | | 86 internal tasks, 60 external tasks | | |
| | | DSC (median, all tasks) | ～0.9 | |
| Christensen et al. | | TTEE | Echocardiogram interpretation | 1,032,975 Echocardiography videos + text from 224,685 studies | | |
| | | | Internal: 21,484 samples | |
| | | MAE (LVEF) | | |
| | | AUC (TAVR) | | |
| | | AUC (MitraClip) | | |
| | | AUC (pacemaker) | | |
| | | = external or k-fold validation not performed; 3D = 3-dimensional; | | |
| | | AC = attenuation-corrected; | | |
| | | Acc = accuracy; | | |
| | | ACCDC = Automated Cardiac Diagnosis Challenge; | | |
| | | AS = aortic stenosis; | | |
| | | ASD = average surface distance; | | |
| | | ASOCA = Automated Segmentation of Coronary Arteries; | | |
| | | AUC = area under the receiver-operating characteristic curve; | | |
| | | CAC = coronary artery calcium; | | |
| | | CAMUS = Cardiac Acquisitions for Multi-Structure Ultrasound Segmentation; | | |
| | | CTA = computed tomography angiography; | | |
| | | CTAC = computed tomography–based attenuation correction; | | |
| | | DG = digital gamma; | | |
| | | DSC = dice similarity coefficient; | | |
| | | EF = ejection fraction; | | |
| | | HD = Hausdorff distance; | | |
| | | HD95 = 95th percentile Hausdorff distance; | | |
| | | HUNT4 = Helse Unders?kelsen i Nord-Tr?ndelag (Nord-Tr?ndelag Health Study, wave 4); | | |
| | | ICC = intraclass correlation coefficient; | | |
| | | IoU = intersection over union; | | |
| | | IVS = interventricular septum; | | |
| | | LAD = left anterior descending coronary artery; | | |
| | | LASC =尽管最终得到的Dice分数并没有超过nnU-Net所取得的分数，但这种混合方法成功地消除了解剖学上不正确的分割，并将推理时间缩短了4倍。这些结果表明，图神经网络（GNNs）可以作为补充模块，用于在实时应用中验证和完善基于卷积神经网络（CNN）的分割结果。同样，Kong等人提出了一个深度学习（DL）框架，该框架使用图卷积网络（GCNs）直接从体积CT和磁共振成像（MRI）图像重建整个心脏的表面网格。通过变形预定义的网格模板，他们的方法确保了拓扑一致性，并生成了在多个心脏结构上解剖学上准确的重建结果。这些工作共同说明了如何利用GNNs作为结构先验，来补充基于体素的CNN预测，引导模型产生解剖学上一致的输出，而不仅仅是体素级别的准确性。

GNNs另一个被广泛探索的重要应用是冠状动脉树的分析，这通常是通过冠状动脉CT血管造影来实现的。首先提取冠状动脉的中心线，然后构建并分析冠状动脉树。在这方面，Wolterink等人提出了训练一个CNN，根据自动或手动放置的种子点来预测局部血管的追踪方向。这些追踪方法为基于DL的血管分析进一步发展奠定了基础。然而，血管方向的多样性对基于CNN的追踪器来说是一个重大挑战，因为它们通常在固定的、传统的补丁上操作，因此不太适应冠状动脉中遇到的复杂和多样的方向。为了解决这个问题，Alblas等人引入了一个对旋转具有等变性的GCN。在实际应用中，这种等变性意味着如果输入（在这种情况下是血管）被旋转，网络的输出也会以相同的方式旋转。这一属性确保了网络的性能不受血管方向的影响，使其能够有效地泛化到不同弯曲程度的动脉上。

一旦提取出中心线，进一步的分析依赖于整合动脉之间的关系信息，以从单独提取的冠状动脉中心线构建冠状动脉树。传统上，血管网络被表示为一个树状图，其中节点对应于血管段，边表示它们的连接性。这种基于图的表示非常适合使用GCNs进行处理，因为GCNs在建模此类关系数据方面表现出色。Hampe等人利用这一概念开发了一种完全自动的基于图的方法来提取和标记冠状动脉段（图1）。他们的方法首先构建一个无向树状图来表示冠状动脉网络，然后使用多分辨率的GCNs集合来细化图结构并标记每个段。尽管有这些技术进步，许多方法仍然忽略了冠状动脉解剖学的一个重要方面：不同冠状动脉段之间的预定拓扑连接，例如左前降支冠状动脉和其他冠状动脉在拓扑树中的特定分支模式。Zhang等人通过将先验的解剖学知识明确整合到他们的标记框架中，解决了这一问题。他们的方法使用了一个分层特征提取模块——结合了通过变换器进行的段内聚合和通过GCNs进行的段间交互——并包含了一个具有解剖学意识的连接分类器。通过将这些解剖学先验嵌入模型设计中，他们显著减少了违反拓扑的标记错误，利用GNNs实现了更准确和临床可靠的冠状动脉树标记。

GNNs已成为表示和分析医学成像中复杂数据结构的有前景的方法。然而，必须考虑几个内在的限制。使用GNNs时的一个重大挑战是图构建的复杂性。GNNs需要明确定义节点和边，这一设计步骤至关重要，因为它决定了网络可以学习的关系和模式。如果错过了重要的解剖学特征或连接，例如未能连接同一冠状动脉的两个分支，模型可能无法正确分类血管段。虽然某些任务自然适合用图表示，但准确定义节点（例如解剖学标志点和分割的解剖结构）和边（例如解剖学或功能连接）仍然非常具有挑战性，并且高度特定于每个临床应用。此外，图构建所需的特异性直接影响GNNs在不同领域之间转移学习的能力。在标准的计算机视觉和自然语言处理任务中，由于数据通常以相似的格式表示，转移学习更为容易实现。相比之下，对于GNNs来说，节点和边的定义方式可能会根据成像模式、研究的疾病甚至数据和收集过程而有很大差异，这不可避免地增加了将模型从一个临床环境或数据集转移到另一个环境中的难度。

GNNs还表现出内在的限制。在标准的GNN架构中，信息共享的方式依赖于消息传递层，每个节点只能与其直接相邻的节点通信。这意味着，在任何给定层，节点只能从附近的节点接收信息，而不能从整个图接收信息。为了捕获来自更远节点的信息（例如心脏的不同区域或远处的血管段），需要多个层，每个新层逐渐扩大节点可以访问的信息范围。这一渐进过程有两个主要缺点。首先，它使得网络难以学习跨越大解剖距离的全局模式或关系，因为关于远端区域的信息只有在经过许多中间步骤后才能到达节点。其次，随着添加更多层以增加网络的覆盖范围，每个节点学习到的特征往往会变得不那么明显，这种现象称为过度平滑，同时也使模型在计算上更加要求高。最终，尽管GNNs在捕获局部解剖交互（如相邻的血管段）方面非常出色，但它们在理论上可能难以准确建模复杂形状的整体全局结构。

最初为自然语言处理开发的基于注意力的机制在现实世界的大规模DL应用中发挥了关键作用。在论文“Attention is all you need”中提出的Transformer模型引入了记忆的概念，允许神经网络选择性地“关注”输入数据的任何部分。这种自注意力机制使Transformer能够根据每个区域或特征相对于其他区域的重要性来进行权衡，从而更有效地捕获局部和全局关系。因此，Transformer架构可以比CNN或其他设计用于处理序列或基于时间的数据的模型更有效地学习输入数据中的长距离依赖性。Transformer的一个著名例子是ChatGPT（生成预训练Transformer），它在其他大型语言模型中产生了显著的影响。Transformer架构的另一个关键优势是它们在连接不同输入和输出模态方面的卓越能力。例如，Transformer可以接收图像作为输入并生成相应的文本输出，这种多功能性对于医学成像中的自动报告生成等应用具有很大的潜力。

在成像领域，视觉Transformer（ViTs）通过将图像分割成小矩形区域（如图2所示）来适应图像处理。这种设计使ViTs能够处理复杂的序列数据，如CMR图像或CT扫描中的有序切片，或超声心动图视频中的帧。就像语言任务中的Transformer根据上下文相关性为单词分配不同程度的注意力一样，ViTs自主确定哪些区域需要更多的关注。这种有针对性的注意力使模型能够同时捕获细粒度的局部细节和全局结构。受到这些能力的启发，Mokhtari等人将ViTs应用于超声心动图图像分析的两个关键任务：量化射血分数和检测主动脉狭窄。值得注意的是，尽管已经成功应用了DL方法（如CNN）进行射血分数估计（例如Ouyang等人的EchoNet-Dynamic模型）和主动脉狭窄检测（例如Holste等人的模型），但处理序列数据的基本挑战仍然存在。这两个任务都需要处理序列数据并辨别细粒度的空间细节，因此非常适合使用基于Transformer的方法。Mokhtari等人提出的方法处理一个或多个超声心动图视频，并通过分层注意力机制提取多层次的时间和空间信息。这种注意力机制生成重要性图，揭示了模型优先考虑哪些区域和帧以得出预测，从而提供了内在的可解释性。除了提供可解释性外，注意力图在训练过程中也被利用，如果注意力集中在感兴趣区域之外（例如，在训练网络预测射血分数时集中在左心室之外），则会惩罚网络。这种方法有助于引导模型关注图像中的相关区域，从而提高预测的准确性并增强模型的可靠性。此外，该框架还包括一个原型学习组件，该组件将代表性补丁和帧识别为视觉原型，进一步增强了理解模型决策过程的可解释性。最近，Wang等人提出了一种基于Transformer的方法，该方法明确将心脏解剖学知识整合到分割过程中。他们的方法不仅从原始MRI图像中学习，还使用成对的标签图像：一个代表正确的解剖结构，另一个可能包含不准确的次优解剖结构。从模板标签中提取的特征与伪标签之间的交互帮助模型更好地学习解剖结构。该模型的核心是Swin Transformer，与一次性比较整个图像中所有补丁的标准ViTs不同，它通过较小的窗口分析心脏。在每个窗口内，模型关注局部细节，并通过逐渐移动和重组这些窗口在层间链接信息。这种平衡使模型能够捕获精细的边界，例如血液池和心肌之间的边界，同时仍然尊重心室的整体解剖结构。当应用于不同的MRI序列（如电影序列和晚期钆增强序列）时，这种方法特别有效，因为心脏的外观会发生变化，但解剖结构保持不变。结果显示，对于右心室等具有挑战性的结构，心室和心肌的划分更加准确。除了解剖学分割外，Transformer还已被用于从血管造影成像中进行功能评估。Mineo等人提出了一种混合卷积-Transformer网络，用于直接从单视图冠状动脉造影中非侵入性地估计分数流量储备和瞬时无波比。通过整合空间和时间注意力，该模型共同捕获血管几何形状和对比流动态，从而无需侵入性压力导丝测量即可提供准确的生理预测。

下载：下载高分辨率图像（283KB）
下载：下载全尺寸图像

图2. 应用于图像分类的Transformer架构示意图。输入图像或图像序列被分割成较小的补丁，这些补丁被展平并线性投影成一系列向量，并添加位置嵌入以保留空间信息。这些向量被输入到右侧所示的Transformer编码器中。编码器的输出进行预测。MLP = 多层感知器；ViT = 视觉Transformer。

基于Transformer的模型（如ViTs）通常需要大量的计算资源，因为它们具有大量的参数并且依赖于大型训练数据集。与CNN不同，ViTs缺乏内在的归纳偏见，例如平移权重共享，这进一步增加了它们对大型数据集的依赖性，以有效学习通用特征，并使它们在数据量少的情况下容易过拟合。在医学成像中，获取大规模标记数据集往往不切实际，因为专家注释成本高昂且有限。因此，Transformer模型在这种背景下经常难以发挥其潜力，存在过拟合的风险。为了解决这些限制，已经出现了几种策略来提高Transformer在数据可用性受限时的鲁棒性和性能。常见的方法包括数据增强、转移学习和联邦学习。此外，掩码自动编码器作为一种有效的方法也出现了，它们通过随机掩码输入数据的部分来鼓励模型学习有意义的特征，迫使模型重建这些被掩码的区域，从而促进从较少样本中学习到鲁棒和通用的表示。

还提出了混合CNN-Transformer架构，以在数据较少的情况下提高泛化能力。通过结合CNN诱导的归纳偏见和Transformer架构的长距离上下文，这些混合模型减少了过拟合并改善了在数据量少的医学成像环境中的性能。例如，这些混合模型已被应用于二尖瓣的分割和跟踪、17个视图的分类、18以及超声心动图中的心脏分割。19,48 此外，混合注意力驱动的方法在生成CMR数据中的后采集超分辨率体积方面也被证明是有效的。20 使用这些混合方法的另一个动机是它们能够捕捉到细粒度的局部解剖细节和更广泛的空间-时间模式，这在需要检测和准确分类微妙的运动异常时尤其有价值。例如，Xue等人21引入了一种创新策略，该策略结合了CNN来捕捉心脏结构的详细特征，并使用注意力机制来关注心脏肌肉不同区域随时间的变化。他们的方法专门用于将心肌运动分为4个临床相关的类别：正常、运动减少、不动和运动异常。该方法首先将心脏CMR图像转换为极坐标格式，这种格式特别适合分析心脏，因为它自然地与心脏的圆形解剖结构对齐，并有助于观察沿腔壁的运动模式。在这种格式下，每个点都通过其到心脏中心的距离和围绕心脏的角度来描述。然后，注意力模块生成突出显示显著运动区域的地图，例如显示异常收缩的区域。

传统的成像方法将解剖结构表示为像素阵列，其中每个像素对应于固定网格上的特定位置和强度值。尽管这种方法有效，但它本质上将连续的解剖特征分割成一系列小的独立单元。相比之下，隐式神经表示（INRs）提供了一个替代框架，将特征描述为连续函数。这意味着图像内的边界和形状以允许平滑过渡的方式表示，而不是从一个像素到下一个像素的突然变化。通过使用数学函数来表示解剖结构，INRs可以生成更精确和灵活的解剖描绘。这一属性对于心脏图像分析非常重要，因为在自动化深度学习方法中，对心脏复杂形状和运动的建模是一个主要挑战。INRs的连续性使得能够灵活而精确地描绘解剖结构，从而可以在任何位置或分辨率下生成图像信息。例如，如果需要额外的细节来评估心脏腔室的边界，基于INR的模型可以生成该区域的高分辨率重建，可能揭示在原始分辨率下不可见的解剖特征。实际上，INR可以被视为一个网络，它以一组空间坐标（如图像中的x、y和z位置）作为输入，并输出该位置的强度值。这些坐标不必位于原始成像网格上；可以在任何点查询模型，从而实现灵活采样。一旦训练完成，模型实际上将其参数（称为权重）存储在内部，并可以以任何所需的分辨率或从任何视角重建图像。这种方法具有广泛的应用，如超分辨率成像、图像配准和形状补全。除了表示图像外，这些网络还可以通过使用有符号距离函数来学习形状表示。在这个框架中，INR被训练为预测空间中任何点到解剖结构表面的最短距离，符号表示该点是在物体内部（负值）还是外部（正值）。正如在开创性的DeepSDF论文49中展示的那样，这种方法允许从稀疏数据中重建复杂的3D形状。这意味着关键解剖表面可以更准确和平滑地呈现。例如，Sander等人22展示了如何通过将解剖结构建模为连续函数来解决医学成像中的一个常见限制：不同成像模式之间的像素间距和分辨率差异。在医学成像中，像素间距定义了可以区分的最小细节，这意味着如果数据稀疏或分辨率较低，结构可能会显得不清晰甚至破碎。为了克服这个问题，Sander等人22使用来自心脏CT扫描的详细形状信息来学习高分辨率左心室（LV）形状的表示（图3）。一旦模型理解了如何从高质量CT数据中表示LV形状，它就可以将这些知识应用于从CMR扫描中重建LV，即使这些扫描的空间分辨率明显较低（即轴向平面上的切片间隙较大）。这种连续建模意味着模型不受原始像素间距或分辨率的限制，可以“填补空白”，从而从CMR中生成解剖上准确的形状。

在功能成像中，如电影CMR，准确跟踪心脏的运动通常涉及对心脏周期中不同时间点拍摄的图像进行对齐。这个对齐过程称为配准，依赖于计算一个连续的空间变换，称为变形场。变形场本质上是一个地图，告诉我们一个图像中的每个点（或像素）如何移动到下一个图像中的新位置。例如，它显示了心脏壁在收缩和放松时如何移动和变形。使用INRs的优势在于，它们的连续性和可微分性使得不仅可以表示解剖结构，还可以将其运动表示为平滑函数。INRs可以自然地将时间作为连续变量包括进来，这意味着它们可以以统一和精确的方式模拟解剖结构的位置和运动。Arratia López等人23在一个INR模型中应用了这些概念，该模型学习将电影CMR图像中的每个像素与心脏周期中的后续时间点进行配准，有效地模拟了心肌变形（即收缩模式）。然后可以使用计算出的变形场来计算心肌的径向和周向应变，为评估心脏功能提供有价值的指标。Alvarez-Florez等人24通过引入针对电影CMR数据的额外改进扩展了这些概念。他们方法的一个重要方面是在配准过程中整合了来自短轴和长轴视图的信息。这是通过INRs的基于坐标的性质实现的。通过从多个成像平面采样空间坐标，模型不限于任何单一视图，而是可以直接将短轴和长轴图像的解剖细节结合到一个统一的连续表示中。最终，这导致变形场更好地反映了心脏的真实3D运动，即使原始图像是在不同平面或不同分辨率下获取的。INRs还被应用于其他模态中捕获心脏运动，如CT成像和超声心动图。25

INRs的一个主要限制是需要为每个新患者优化INR。这种实例优化意味着对于每个新受试者，网络必须经过专门的、通常计算密集的微调过程，以准确捕捉该个体的独特解剖特征。一些替代实现，如本节前面介绍的DeepSDF，旨在通过引入一个与网络参数一起学习的潜在代码来缓解这一限制。这种方法允许INR通过简单地为每个新患者优化一个低维潜在向量来表示各种形状或解剖结构，而不是重新训练整个网络，从而使这一过程更加高效和快速。

卷积神经网络（CNNs）广泛用于分类或分割的特征提取，通常依赖于大型标记数据集。然而，尽管CNNs在学习区分性特征方面表现出色，但它们本质上并不是为了生成新的真实数据样本而设计的。Goodfellow等人50引入的生成对抗网络（GANs）提供了一个框架，用于学习数据分布以生成与现实世界分布非常相似的数据，例如与真实医学图像或扫描非常相似的数据。GAN由两个竞争网络组成：一个生成器，通常是CNN，用于合成新样本；以及一个鉴别器，也通常是CNN，用于区分真实数据和生成的数据。这两个网络在竞争性迭代过程中进行训练。虽然生成器旨在合成真实样本，但鉴别器旨在区分真实样本和合成样本。这种动态竞争促使两个网络都达到最佳性能，从而生成高度真实的图像。GANs在提高图像质量和将图像从一种扫描类型转换为另一种类型（例如，从CT扫描生成类似MRI的图像）方面特别有效。与传统的监督学习方法不同，GANs可以通过隐式捕获输入数据的潜在统计分布来学习合成图像，使它们能够模拟医学图像中的复杂变化，同时保留临床相关的细节。这使得它们适用于医学成像任务，因为在这些任务中收集大量精确对齐的不同扫描的标记图像非常困难。然而，传统的GANs通常需要成对的训练数据，即显示相同解剖结构的两种扫描类型的图像。在医学成像中，由于患者运动、不同模态之间的解剖差异（例如CT和MRI）或扫描协议的变化，这些配对图像往往难以获得。这限制了标准GAN在许多临床应用中的使用。CycleGAN是一种GAN的变体，即使没有成对的示例也可以在两种模态之间转换图像。通过强制循环一致性损失，它确保了两个域之间的转换保持结构完整性（例如，在转换过程中保留重要的解剖结构）。这使得CycleGAN特别适用于跨模态合成。Lu等人的工作26就是一个例子，他们利用非配对转换学习解决了CT到经食道超声心动图（TEE）图像转换的问题。尽管使用了同一患者的CT和TEE图像，但它们没有预先对齐。作者使用CycleGAN从CT扫描生成类似TEE的图像，反之亦然，从而缩小了模态之间的外观差异。这种方法使得可以从术前CT扫描中详细解剖信息转移到术中TEE图像上，显著提高了其可解释性。这为外科医生在手术过程中提供了更丰富和清晰的解剖背景，有助于导航和决策。

除了跨模态合成之外，GANs在心血管成像应用中也显示出潜力，例如冠状动脉钙化（CAC）评分，这是冠状动脉疾病的一个重要生物标志物。基于CNN的CAC评分方法使用临床定义的图像强度阈值来提取CAC（130 HU）。然而，使用基于强度的阈值限制了在存在心脏运动伪影或低空间分辨率的情况下CAC评分的可重复性。因此，van Velzen等人27提出了一种基于CycleGAN的方法来识别钙化，无需定义基于密度的阈值，从而允许从局部纹理中学习，提高了扫描间的可重复性。在此基础上，Sun和Ng28证明了对冠状CT血管造影图像进行超分辨率GAN微调可以有效抑制由严重钙化引起的伪影，减少了假阳性，并提高了冠状动脉腔评估的诊断特异性和阳性预测值，展示了GANs在增强斑块表征方面的潜力。在GANs在图像合成方面取得成功之后，它们的应用扩展到了冠状动脉X射线血管造影中冠状动脉病变的表征，这是指导介入程序的关键任务。为了解决这个问题，Du等人提出了一个深度学习（DL）框架，该框架结合了一个条件生成对抗网络（GAN）用于冠状动脉分割，以及一个卷积神经网络（CNN）用于后续的病变形态检测和分类。条件GAN与标准GAN的不同之处在于它明确地依赖于输入数据，如图像或类别标签，这使得生成器能够产生不仅逼真而且与特定输入约束高度一致的输出。例如，条件GAN是在冠状动脉造影图像上训练的，以生成具有改进的空间一致性的像素级血管分割。GAN通过生成更加连续和符合解剖结构的分割图来提高血管分割的准确性，从而更好地识别冠状动脉段。具体来说，使用了条件GAN架构，其中生成器从造影图像中生成分割输出，而鉴别器则确保分割结果的解剖真实性。同时，另一个CNN直接从造影图像中检测和分类病变形态（例如狭窄、钙化、血栓形成和夹层）。这种双网络系统为自动化冠状动脉分析提供了一个强大的框架。

下载：下载高分辨率图像（215KB）
下载：下载全尺寸图像

图4. 循环GAN的示意图
循环GAN的架构用于计算机断层扫描（CT）图像中冠状动脉钙化的分割，如van Velzen等人所述。该框架由两个相互连接的循环组成：在第一个循环中，生成器A从含有冠状动脉钙化（CAC）的图像中预测一个CAC分割图，然后从原始图像中减去该图以合成一个无CAC的（“健康”）图像。这个合成的无钙化图像由鉴别器评估，其任务是区分真实的无钙化图像和合成的图像。在反向循环中，生成器B使用无钙化图像生成人工钙化图，然后将这些图添加到输入图像中以合成含有CAC的图像。这些合成的CAC图像同样由第二个鉴别器评估，该鉴别器能够区分真实的含CAC图像和人工生成的图像。

在磁共振成像（CMR）中，条件GAN也被用来提高心脏结构的分割性能。Al Khalil等人展示了首先使用条件GAN生成模仿多种病理情况的真实合成扫描，然后在这个丰富的数据集上训练分割模型，使得系统在应用于不同医院或不同条件下的患者时更加稳健且不易出错。在此基础上，Zhang等人解决了分割模型在不同MRI供应商或序列的扫描中失去准确性的问题。他们的方法依赖于经典的GAN设置，包括生成器和鉴别器。为了增强生成器的能力，将CNN层与变换器块结合在一起，使模型能够更好地泛化并适应不同图像切片中的心脏结构大小。这种对抗训练方案使得无需新的手动注释即可提高不同供应商之间的分割性能。

这些研究表明，GAN不仅可以用于创建合成训练数据，还可以强制实现解剖学和领域的一致性，从而提高CMR分割的稳健性。GAN还被应用于去噪，这在容易受到高图像噪声影响的模式中特别有用，例如正电子发射断层扫描（PET）或单光子发射计算机断层扫描（SPECT）。在CT中早期使用GAN进行图像去噪的基础上，Sun等人最近的一个例子描述了在SPECT中的应用，用于准确评估心肌灌注。他们的方法使用了一个在成对的含噪声和常规剂量心脏门控图像上训练的3D条件GAN，生成器学习预测去噪后的双门控输入图像，这种扫描与心跳和呼吸同步，以减少运动伪影。与传统后重建滤波技术不同，这种基于条件GAN的方法生成了保留重要结构细节的高质量图像，同时抑制了噪声。定量评估表明，GAN在多个指标上优于自动编码器和传统滤波方法。

类似地，与SPECT图像一起获取的经过衰减校正的CT扫描通过减少软组织伪影，提高了心肌灌注SPECT成像的准确性和特异性，从而改善了阻塞性冠状动脉疾病的检测。然而，这通常需要额外进行CT扫描，增加了辐射暴露，并可能在SPECT和CT图像之间引入配准误差。为了解决这个问题，Shanbhag等人开发了一个条件GAN，它可以直接从未经校正的扫描中生成经过衰减校正的SPECT图像，学习复制基于CT的校正方法，同时保持诊断准确性。GAN的条件特性确保生成的图像直接受到输入未经衰减校正的SPECT图像的指导，使模型能够紧密复制真实的衰减校正图像，同时保持临床相关的特征。这种方法显著提高了冠状动脉疾病的检测能力，增加了接收者操作特征曲线下的面积，与传统基于CT的校正方法相当，同时消除了额外的辐射暴露。

GAN的一个主要挑战是训练的不稳定性，因为生成器和鉴别器之间的对抗设置可能导致收敛问题或模式崩溃，即生成器产生有限且重复的输出，而不是解剖学上的变化。实际上，这种不稳定性可能由于医疗数据集较小或不平衡以及高维图像的复杂性而加剧，常常导致不可预测或不一致的性能。此外，GAN还被发现会产生解剖学特征的幻觉，即生成了虽然逼真但不正确的结构。Cohen等人证明了CycleGAN可以去除胸部X光片中的疾病定义特征，而Bhadra等人警告说，在CT重建中GAN可能会引入虚假结构。这种幻觉可能导致临床解释中的假阳性或假阴性结果。另一个关键但经常被忽视的问题是评估GAN生成图像的难度。当没有真实数据时，传统的指标（如准确率或Dice分数）不适用。相反，图像质量通常使用为自然图像开发的指标进行评估，这些指标可能会忽略医学图像中微妙但具有临床相关性的伪影。例如，Segal等人展示了使用GAN生成的合成胸部X光片在传统指标上获得了高分，但放射科医生发现了解剖学上的不准确性和缺乏在真实X光片中通常定义良好的细粒度结构细节。

为了解决GAN在医学成像中的这些局限性，采用了几种稳定技术。一种广泛使用的方法是带有梯度惩罚的Wasserstein损失，它通过提供更好的真实图像和生成图像之间差异的度量，提供了更平滑和更稳定的学习动态。这在涉及小数据集或噪声较大的医学成像任务（如低剂量CT去噪）中特别有益，因为在这些任务中保留细粒度的解剖细节至关重要。另一种方法是光谱归一化，它通过限制鉴别器的权重更新来控制每个训练样本的影响，从而产生更一致和符合解剖结构的输出。在其他研究中，包括多模态图像合成（例如MRI到PET）和胸部X光片的超分辨率，这些方法已被证明可以减少训练失败并提高GAN生成图像的临床可靠性。

从临床角度来看，这些局限性有直接的下游影响。幻觉或被抑制的解剖特征可能导致误报或漏报，当异常特征被无意中去除时。通过改变或掩盖图像特征，生成模型（包括GAN）可能会损害可靠的异常检测，并影响下游定量分析的准确性。这些风险可能因领域转换而进一步放大，因为在特定扫描仪或采集协议上训练的模型在未见过的临床环境中应用时可能会产生视觉上合理但诊断上具有误导性的图像。

像其他图像分析方法一样，DL模型传统上是为特定任务设计的，大多数需要大型且具有代表性的标注数据集以及广泛的重新训练或开发全新的模型。例如，超声心动图视图分类和区域壁运动异常的检测通常依赖于单独的模型，每个模型都需要自己的训练流程和数据。然而，大规模模型在大量数据集上无监督训练的出现催生了基础模型。与传统模型不同，基础模型可以在多样化和多模态数据源上进行训练，使它们能够在最小的额外微调下跨多个任务和领域进行泛化。它们的多功能性使它们在医学成像中得到了探索，因为在医学成像中数据异质性和有限的标注数据集长期以来一直是一个挑战。这些医学基础模型可以整合来自各种模态的图像，如CMR、CT和超声心动图，以及其他类型的数据，如报告和注释，有效地弥合这些模态之间的差距，并提供一个统一的框架。一个关键特性是它们的提示性，即用户可以通过各种形式的输入、点测量、边界框或其他基于图像的注释与模型交互，以执行特定任务，如分割、诊断或异常检测。这种灵活性允许单个算法基于对医学图像的泛化理解来处理多个任务，可能减少针对特定任务或数据的大量数据收集的需求，从而减少手动数据标注和开发特定任务所需的时间和成本。

Mazurowski等人进行了最早的关于医学成像大型基础模型的研究之一，他们评估了Segment Anything模型（SAM）的可行性，这是一个在自然图像上预训练了超过10亿个注释的基础模型。作者全面评估了SAM的零样本分割能力，意味着它可以在没有专门针对医学数据训练的情况下应用于医学图像，涵盖了多种模态，如MRI、CT和X光。他们的发现表明，SAM对于定义明确的解剖结构（如骨骼和大型腹部器官）表现良好，但在边界不清晰的更复杂区域（如脑肿瘤分割）表现较差。尽管SAM在自然图像中分割对象的能力令人印象深刻，但由于领域特定的挑战，其在医学图像上的性能仍然有限。因此，微调或适应仍然是必要的，特别是在心血管成像等具有挑战性的医学领域。为了解决这些局限性，Ma等人引入了MedSAM，这是一种专门针对医学的SAM改编版本，它在超过150万张带有分割掩码和标记图的医学图像上进行了训练，这些掩码和图显示了感兴趣的确切区域，涵盖了多种成像模态。MedSAM针对医学成像任务进行了优化，并已被证明始终优于SAM，并且其结果可以与针对特定模态训练的最先进分割模型相媲美甚至超越。

Lei等人提出了MedLSAM，这是一个通过将3D医学定位模型（MedLAM）与SAM集成来自动化提示过程的框架。MedLAM仅使用少量模板扫描就能自动识别3D医学图像中的解剖结构，消除了对大量手动注释的需求。通过自动生成边界框提示，MedLSAM显著提高了分割性能，同时减轻了注释负担。这增强了其作为高度多功能医学图像分割工具的潜力，特别是在需要稳健的解剖或病理结构边界划分的任务中。除了分割之外，基础模型在多模态医学成像任务中也显示出潜力，整合了视觉和文本数据。在超声心动图中，Christensen等人开发了EchoCLIP，这是一个在超过100,000名患者的顶视角4腔视图视频和配套文本报告上自监督训练的视觉-语言基础模型。该模型根据提供的文本提示提供不同的输出。尽管特定任务的模型在特定且定义狭窄的任务中仍然更优越，但结果表明这种基础模型适用于多种分类任务（例如心脏内设备的存在或不存在、左心室扩张或心包填塞）和定量回归任务（例如预测左心室射血分数和肺动脉压力），尽管它并没有针对每个任务进行专门训练。此外，带有自定义领域特定分词器的EchoCLIP-R版本通过实现高效的图像到文本搜索进一步增强了功能，根据与输入图像的相似性和来自多项研究的独特患者标识对测试集中的报告进行排序。

尽管基础模型具有潜力，但它们仍面临几个限制。可解释性和透明度仍然是主要障碍，这些大规模多模态网络通常比传统的DL系统更难以解释，使得理解决策过程或识别错误变得困难。在临床工作流程中，这种不可解释性可能会造成安全风险，因为临床医生可能会过度信任错误的输出，从而导致误诊或不当治疗。模型在不同医院、扫描仪或患者群体上的数据表现往往不如在训练数据上的表现。这个问题被称为“领域偏移”，意味着模型可能无法在其原始环境之外很好地泛化。66 相关地，偏见和公平性问题也值得关注，最近的研究表明，视觉-语言基础模型可能会低估代表性不足的群体，例如在胸部X光诊断中低估黑人或女性患者。67 这些差异可能会导致护理质量的不平等。训练和微调这些大型模型的计算和数据需求巨大，限制了它们在资源丰富的中心的发展，并可能阻碍其可重复性。65 最后，基础模型和其他基于深度学习（DL）的工具一样，对幻觉或错误的输出非常敏感，尤其是在应用于分布外数据或罕见情况时。68

讨论
深度学习（DL）方法正在以快速的速度发展，重塑心脏图像分析的格局。近年来，关于图神经网络（GNNs）、变换器（transformers）、逆向神经网络（INRs）和生成对抗网络（GANs）的研究受到了广泛关注，这凸显了研究人员利用这些新架构的热情（中央插图）。同样，尽管基础模型相对较新，但它们正在获得动力，已有几项专门针对医学成像的改编研究发表。本综述没有涵盖所有心脏成像模式，如血管内成像（例如血管内超声和光学相干断层扫描）或心脏正电子发射断层扫描。尽管这些模式很重要，但应用此处讨论的新DL架构（例如GNNs、transformers、INRs、GANs和基础模型）的研究仍然有限。

下载：下载高分辨率图像（817KB）
下载：下载全尺寸图像

中央插图。心血管成像中的新型DL
深度学习在心脏成像方面的进展，突出了本文讨论的一些新算法和主要应用。DL = 深度学习；LVEF = 左心室射血分数。

在这篇综述中，我们观察到一种普遍趋势，即将解剖学知识（如心脏结构的预期形状、位置或空间关系）纳入DL模型中，从而提高其预测的解剖学真实性。特别是GNNs在解剖学和血管结构分析中得到了广泛应用，在这些应用中保持空间完整性至关重要，例如Zhang等人提出的拓扑保持冠状动脉标注框架，该框架通过混合变换器-GCN架构整合了解剖学先验，以减少违反拓扑的错误。变换器及其模拟长距离依赖性的能力被有效地应用于处理时间序列心脏图像，例如Mokhtari等人的框架，该框架使用变换器架构捕获超声心动图视频中的空间和时间信息，用于射血分数估计和主动脉狭窄分类等任务。混合变换器-CNN架构也被提出，以弥合传统卷积方法和基于注意力的学习之间的差距，优化效率和准确性。44 变换器还为各种医学图像分析任务应用的基础模型奠定了基础，尤其是在分割方面，这些模型旨在提供无需特定任务训练的替代方案，如nnU-Net。15 重要的是，本综述时间框架之后发表的最近的大规模临床研究进一步证明了这些模型的临床实用性，包括EchoPrime，这是一种完全自动化的超声心动图评估和报告系统，突显了基础模型方法的转化潜力。69 特别是，这些视觉-语言模型利用对比学习将多视图超声心动图视频与临床报告结合起来，实现全面解释而不仅仅是单一任务预测，并已在5个国际医疗系统中得到验证。同样，基础模型策略也开始出现在磁共振成像（CMR）中，其中在CMR数据上进行的大规模预训练已被探索，以支持跨下游任务的可转移表示。70 这些系统旨在支持自动化的初步临床评估，表明了从基础模型到常规临床工作流程的潜在路径。INRs因其能够编码连续的高分辨率表示而在超分辨率重建和运动跟踪方面具有潜力。28 此外，GANs已经在数据增强和跨模态图像合成中得到了广泛应用，可能会扩展到实时图像合成和增强，进一步改进低剂量成像技术。最近，扩散模型作为GANs的替代方案出现，展示了在高保真图像合成方面的显著能力（即减少GAN基模型的主要限制之一——数据幻觉），并在医学成像领域得到了越来越多的应用。特别是，最近的发展探索了它们在MRI k空间重建中的应用，研究表明它们可以提高图像质量并增强下游任务，如运动校正和伪影抑制。它们在心脏图像分析中的应用目前尚未得到充分探索，但我们预计扩散模型将在未来的研究中发挥重要作用。

尽管这些新兴架构在多种心脏成像模式中的采用正在加速，但它们的整合仍处于初步阶段。反映了医学图像分析中观察到的更广泛趋势，卷积神经网络（CNNs）已被用于多种成熟到大规模和外部验证的应用中。具体来说，CT图像的分析，例如评估冠状动脉疾病的分析，继续依赖于卷积框架，用于狭窄量化、斑块特征化和非侵入性功能储备评估，71,72 并且在本综述讨论的新方法中不如其他临床应用那么常见。73 多项研究使用CNNs在大型多样化数据集中进行CT钙评分，2,74, 75, 76 进一步强调了基于卷积的方法在该特定领域的临床成熟度和转化焦点。除了CT扫描中的冠状动脉分析外，类似的架构还用于心脏结构和心外膜组织的分割77,78 以及术前瓣膜疾病规划。79, 80, 81

展望未来，本综述中介绍的几种DL方法有望成为心脏图像分析的核心组成部分。对于临床应用而言，开发高性能、可泛化且经过广泛评估的方法是前提条件。82 实现这一目标需要多样化和具有代表性的数据集，但目前这些数据集难以获得。即使数据集规模很大，不同人口群体（种族、性别和民族）之间的不平衡也会导致心脏成像任务中的可重复性性能差异。例如，一项使用约5,900张英国生物银行CMR扫描的研究（按6个种族分组）发现不同种族组之间的分割Dice分数存在统计学上的显著差异，这主要是由于少数族裔群体的代表性不足。对于罕见的心脏疾病和先天性心脏异常等较少见的情况，这一挑战尤为突出，因为数据可用性受到疾病群体有限的限制。虽然合成数据生成可能提供解决方案，但确保合成数据集的临床有效性仍然是一个挑战。除了样本大小之外，多样性还必须涵盖不同的地点、扫描仪供应商、协议、人口统计和疾病谱；多中心CMR的经验表明，模型在未见过的地点往往会退化，这强调了外部验证的必要性。

联邦学习84 已经成为一种有前景的解决方案，能够在保护患者隐私的同时实现跨分散数据集的协作模型训练。例如，Linardos等人的研究85 表明，联邦学习可以通过利用来自多个中心的人口数据有效改进自动CMR量化，从而提高模型的鲁棒性和泛化能力。然而，Dohare等人的最新研究表明，仅仅在新数据出现时继续训练可能并不有效，因为DL网络在持续学习环境中往往会失去可塑性。需要进一步研究来确定这一限制是否适用于心脏图像分析应用。

为临床应用建立可信的人工智能（AI）还需要准确、可靠、透明和可解释的方法。DL模型通常被称为“黑箱”，在可解释性方面存在挑战。可解释性在连接AI输出和临床决策之间起着关键作用，人类监督仍然至关重要，AI应作为辅助工具而不是自主决策者。87 然而，在本综述中讨论的大多数新方法并没有内置可解释机制，只有少数例外。在这些新兴架构中开发和采用可解释方法是未来研究的重要领域。

除了可解释性之外，AI在医疗保健中的采用必须符合伦理和监管框架。诸如欧盟（EU）的《可信AI伦理指南》88 和FUTURE-AI89原则等指南强调了公平性、鲁棒性和可追溯性作为可信AI的基本原则，明确指出了验证策略和偏见缓解措施，以确保临床环境中的公平性和安全性。同样，欧洲AI法案和美国行政命令等监管举措反映了AI系统需要透明、负责且无偏见的重要性90，并通过将医疗图像分析中的DL应用归类为“高风险”来强化这些伦理承诺，规定了严格的透明度、准确性和鲁棒性要求。91

将先进的DL模型转化为临床实践需要遵守严格的开发、验证和报告原则。最近，PRIME 2.0检查表92 被引入，为医学成像中的AI模型提供了专门的指导，概述了整个模型生命周期的考虑事项，包括数据集管理、偏见评估、验证策略、透明度和临床适用性。本综述中强调的许多挑战，如外部验证有限、数据集不平衡、跨地点的泛化能力和临床可解释性，在该框架中得到了解决。补充报告框架，如CLAIM（医学成像中的人工智能检查表）93 和CONSORT-AI（临床试验报告标准-人工智能）94，强调了透明度、标准化报告和严格的临床评估，突出了方法论严谨性与持续架构创新的重要性。

尽管取得了这些进展，但在临床实施中仍存在重大挑战。这一快速发展的领域中的大多数方法都是在相对较小的数据集上评估的，并主要依赖于内部验证，只有少数研究报告了外部验证（表2）。前瞻性测试、随机研究和实际临床工作流程中的评估仍然很少，对于大多数讨论的方法来说，这些仍然是一个未解决的问题。因此，本综述中总结的证据应在回顾性开发和验证研究的背景下进行解释，大规模的外部验证和前瞻性多中心评估是向临床转化的重要下一步。与此观察一致，其他最近的综述也报告说，只有少数研究采用了这种黄金标准方法。95 随机对照试验和前瞻性试验，如Yu等人的研究96 和PROTEUS（一项评估人工智能在应力超声心动图中使用的前瞻性随机对照试验）97 表明，尽管AI工具可以提高诊断信心，但它们并不一定转化为改善的临床结果，其益处并不总是取决于临床医生的经验水平。这些发现表明，AI在临床实践中的成功整合需要更多的技术性能和监管。

结论
深度学习的快速发展带来了心脏图像分析中的成功和创新应用，这些应用由GNNs、transformers、INRs、GANs、扩散模型和基础模型等新架构推动。然而，仍存在挑战，克服高质量数据开发与评估的可用性有限、模型鲁棒性、可解释性和严格临床验证等问题对于将这些有前景的方法从研究环境转化为实际临床工作流程至关重要。

联系信箱：

粤ICP备09063491号

热点排行