综述：基于超声心动图的人工智能在主动脉瓣狭窄早期诊断和危险分层中的应用：范围综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Medical Informatics》：Early diagnosis and risk stratification of aortic stenosis using artificial intelligence applied to echocardiography: scoping review

【字体：大中小】 时间：2026年05月20日 来源：International Journal of Medical Informatics 4.1

编辑推荐：

　　摘要引言：主动脉瓣狭窄（Aortic Stenosis, AS）是全球最常见的获得性心脏瓣膜病，占所有瓣膜疾病的43%。据估计，40–50%的重度症状性AS患者未接受干预治疗，死亡率超过90%。经胸超声心动图（Transthoracic Echocardio

摘要引言：主动脉瓣狭窄（Aortic Stenosis, AS）是全球最常见的获得性心脏瓣膜病，占所有瓣膜疾病的43%。据估计，40–50%的重度症状性AS患者未接受干预治疗，死亡率超过90%。经胸超声心动图（Transthoracic Echocardiography, TTE）仍是诊断的金标准，对疾病的早期发现至关重要。然而，TTE具有操作者依赖性，且随患者临床表现不同而存在差异。在此背景下，应用于超声心动图的人工智能算法，尤其是深度学习算法，正成为有望自动化并改善AS检测的工具。目的：评估现有证据中关于应用于超声心动图的人工智能工具用于AS早期诊断的效用，明确其性能、临床适用性和方法学局限性。方法：研究人员依据PRISMA-ScR指南，在四个数据库（PubMed、Scopus、Web of Science和BIREME）中进行了范围综述，纳入了2020年1月至2025年12月期间使用AI系统进行AS早期诊断和危险分层的相关研究共25项。结果：共有25项研究符合本综述的纳入标准。人工智能（AI）算法，特别是卷积神经网络（Convolutional Neural Networks, CNNs），表现出异质性性能。曲线下面积（Area Under the Curve, AUC）范围为0.82至0.99；敏感性为82.2%–90%，特异性为88%–99%。多切面模型的表现优于单一切面模型。结论：人工智能算法在AS的检测和严重程度分类方面表现良好。其在回顾性数据集中的表现显示出较高的诊断潜力，达到了模拟专家准确性的指标。目前仍存在关键障碍，如缺乏外部验证、可解释性和临床整合。未来需要开展具有统一监管框架的前瞻性多中心研究以实现全球验证。

1.
引言

主动脉瓣狭窄（Aortic Stenosis, AS）是由于瓣膜狭窄阻碍左心室向主动脉射血所致，是全球最常见的获得性瓣膜疾病，占所有瓣膜病变的43%。其患病率随年龄增长而增加，在80岁以上人群中达到峰值9.8%。据估计，65岁以上人群中每2人就有1人患有未被诊断的心脏瓣膜病，且40%–50%的重度症状性AS患者未能接受外科或经导管介入治疗。此外，呼吸困难、晕厥、心绞痛和心力衰竭等临床表现缺乏特异性，可能与其他病理情况重叠，导致临床并发症风险极高，死亡率超过90%，症状年进展率接近10%，并可造成不可逆的心肌组织损伤。

在流行病学负担的背后，存在一个关键的诊疗延迟现象：经胸超声心动图（Transthoracic Echocardiography, TTE）虽然是诊断和分层AS的金标准，但作为一种操作者依赖的工具，在测量最大流速（V_max）、平均压差（Mean Pressure Gradient, MPG）和主动脉瓣口面积（Aortic Valve Area, AVA）时存在观察者间变异性。人工智能（Artificial Intelligence, AI）因此成为一种能够简化或自动化该过程的工具。

AI，尤其是深度学习算法如卷积神经网络（Convolutional Neural Networks, CNNs）——一种模拟人脑结构并用于复杂模式识别的数学模型——正在成为克服上述局限性的有前景的策略。多项研究表明，在标准超声心动图和多普勒图像上训练的CNNs能够在无需专业超声医师参与的情况下检测疾病并分类其严重程度，这使得AI有望应用于初级和二级保健环境，以保障患者安全并减少并发症数量。

本综述旨在量化应用于超声心动图的AI模型在AS检测和分类方面的诊断性能，明确AI识别出的具有高预测价值的超声心动图变量，比较不同AI模型之间的性能差异，评估其临床适用性，并指出该领域未来研究的空白。
2.
方法

本范围综述依据PRISMA-ScR指南制定，并遵循JBI范围综述手册的方法学建议。研究方案已在Open Science Framework（OSF）平台注册。

鉴于AI模型架构存在显著异质性（从CNNs到混合密度网络MDNs和自然语言处理NLP）、研究设计多为回顾性以及数据集和成像协议的多样性，研究人员选择了范围综述而非包含荟萃分析的系统评价。尽管可以获得AUC、敏感性和特异性等定量性能指标，但这些方法学差异以及大多数研究缺乏统一的外部验证，使得稳健的统计合成难以实现，因此证据图谱绘制成为确定该领域现状和空白的最合适方法。

2.1 检索策略

研究人员在PubMed、Scopus、Web of Science和BIREME四个公认的科学数据库中进行了系统检索，使用了与人工智能、早期检测、主动脉瓣狭窄和超声心动图相关的自由词组合，并根据各数据库的运算符和字段调整了检索策略。检索限定在2020年1月至2025年12月期间发表的研究。所有检索结果均导出至参考文献管理软件去重，随后导入Rayyan平台以辅助筛选流程。

2.2 研究选择

选择过程分为两个阶段。首先，由评审员评估标题和摘要，排除不符合预设标准的研究。其次，审查全文以确认研究的合格性。分歧通过共识解决，并严格遵循纳入和排除标准。纳入标准涵盖使用AI系统进行AS诊断的原研研究、系统综述、范围综述及定性与定量研究；排除非英语或西班牙语文献、社论材料、作者信件、无实证支持的观点以及不涉及诊断或直接临床应用的患者个案报告。

初步检索共识别出802篇文章，在应用既定标准后最终纳入25篇。虽然最初的资格标准允许纳入系统综述和范围综述，但在全文审查后，所有二次研究文章均被排除，因为这些综述未提供特定AI模型的技术性能原始数据，而这正是本研究证据图谱目标所必需的。因此，最终的25篇文章样本完全由原发研究组成（24项为回顾性研究，1项为临床试验的事后分析），确保了所分析的性能数据（AUC、敏感性和特异性）直接来源于原始实验。

2.3 数据提取与分析

基于纳入的文章，研究人员构建了提取矩阵，类别包括作者与年份、研究类型、标题、算法类型（AI）、超声心动图发现、结果和可解释性。提取工作由两名研究人员完成。研究结果整理于汇总表中，以便直观展示研究的方法学和临床特征。
3.
结果

系统检索共识别出802篇相关文献，去除重复文献（n=541）并经标题摘要筛选（排除n=460）后，最终评估了25篇符合标准的全文文献。证据表明，尽管相关文献众多，但大多从宏观角度评估多种病理，缺乏对特定变量的聚焦。最普遍的研究类型是回顾性研究（n=24）和临床试验事后分析（n=1）。

AI被证明是识别AS的有力工具。最常用的模型包括CNN、MDN、ML和NLP。研究人员还发现，算法的分析基于主导的超声心动图切面（胸骨旁长轴切面PLAX、胸骨旁短轴切面PSAX、心尖四/五腔心切面A4C/A5C）以及与算法分析最相关的变量（V_max、MPG、AVA、左室射血分数LVEF）。最后，研究普遍存在横断面局限性：仅24%的研究进行了外部验证，且完全没有前瞻性研究，这是研究中关键的结构性空白。

3.1 模型性能

如表3所示，卷积神经网络（CNNs）的应用最为广泛（n=14），其次是混合密度网络（MDN, n=4）、机器学习（Machine Learning, ML, n=4）、自监督学习（n=1）、自然语言处理（Natural Language Processing, NLP, n=1）及其他（n=1）。各项研究的性能指标存在差异：敏感性范围为82.2%–90%；特异性维持在88%–99%之间；曲线下面积（AUC）介于0.82至0.99之间，中位数为0.92。阳性预测值（Positive Predictive Value, PPV）范围为0.159–0.84，阴性预测值（Negative Predictive Value, NPV）范围为0.909–0.991，这表明AI模型在排除AS存在方面具有良好的性能。

3.2 多切面模型的优越性

如表4所示，胸骨旁长轴切面（PLAX）在24项研究（96%）中被使用，其次是胸骨旁短轴切面（PSAX）在22项研究（88%）中被使用，这些切面捕获了瓣膜血流动力学和结构信息。心尖四至五腔心切面在15项研究（60%）中被使用，提供了更多关于左心室、容积和功能评估的信息。多普勒在18项研究（72%）中被使用，允许可视化主动脉射流的方向和严重程度。同样，AI提取的解剖变量包括主动脉瓣流速（V_max）、平均压力梯度（MPG）、主动脉瓣口面积（AVA）（23项研究，92%）、左室射血分数（Left Ventricular Ejection Fraction, LVEF）（16项研究，64%）、左室径线（12项研究，48%）和左室肥厚（Left Ventricular Hypertrophy, LVH）（14项研究，56%）。其他分析的变量还包括主动脉瓣形态与钙化、整体纵向应变、舒张功能和左房大小。值得注意的是，变量提取方式不同于临床常规：医生手动计算V_max和AVA，而“黑箱”AI模型可能利用完全不同的数据或特征得出诊断或分类。因此，必须标准化数据采集协议，并优先考虑用于决策的图像特征。

3.3 关键空白

外部验证是所分析研究中最大的方法学空白。在25篇文章中，仅有6篇（24%）报告了外部验证数据，其余76%仅使用内部验证，且只有4篇（16%）使用了多中心训练模型。这导致了诊断性能的下降，例如Holste等人2023年的ResNet 18 CNN模型，其初始AUC为0.96，但在外部队列测试中降至0.942，下降了2%，且由于低患病率导致PPV仅为0.159，这可能意味着因成像协议、操作者经验、人群特征和模型差异导致的诊断高估。相比之下，Playford D使用了530,871份超声心动图数据库，应用基于混合密度网络的AI决策支持算法（AI-DSA），并在外部验证队列中记录了持续的优异性能（AUC 0.986）。

缺乏外部验证反映了数据集固有的偏倚，表现为地理集中和对特定机构超声心动图协议的依赖。由于只有16%的研究采用了多中心训练架构，模型极易过拟合特定中心的影像采集实践，限制了其总体可重复性。此外，缺乏人口统计学公平性分析至关重要；没有任何研究直接评估人群偏倚，这一疏忽无法确保算法在不同种族或社会经济群体中保持其诊断准确性，加之大多数模型（72%）的“黑箱”性质，构成了伦理和公平临床实施的重大障碍。

另一方面，模型背后的透明度评估揭示了显著问题。现行法规如欧盟将医疗AI模型归类为“高风险”，以及FDA-Health Canada-MHRA 2024年关于AI/ML软件即医疗器械（SaMD）透明度和偏倚评估原则的联合出版物，均强调了这一点。如表6所示，25篇文章中有18篇使用了“黑箱”深度学习架构，仅2篇应用了可解释架构，其余5篇应用了部分机制。即模型处理数据时的算法推理缺乏透明度。绝大多数“黑箱”模型造成了医疗法律责任的严重空白。由于偏离了传统的临床推理路径，这些算法迫使医生在验证逻辑不透明的决策时承担不成比例的风险。当生成诊断或警报时，无法验证哪些超声心动图特征在决策中权重最大，是否考虑了AS的病理生理学，或置信区间如何，因为信息都封闭在同一系统内。这是沟通影像学诊断推理、关联患者年龄/种族/性别偏倚以及确定错误原因（训练不足、算法限制、图像质量或操作失误）的临床障碍。

最后，没有任何研究验证前瞻性真实世界实施数据；没有文章将AI预测与临床决策和患者结局联系起来。所有25篇文章均为回顾性研究，分析的是存档的超声心动图图像或带有结局数据的病历。仅有1项研究侧重于床旁超声（Point-of-Care Ultrasound, POCUS）以扩大在超声专业知识有限环境中的诊断范围，另有1项研究描述了其模型的自动主动脉瓣测量提高了诊断准确性和工作流程效率。虽然有三项研究试图建立AI分析与临床结局的关系（如确定中度向重度AS的进展、识别疾病亚型以预测瓣膜置换候选者、对试验数据进行事后分析），但均应用于已完成的既往数据或试验，无法证明AI干预是否改变了每位患者的临床决策。目前缺乏前瞻性研究，成本效益和健康经济影响也未得到考虑。这种诊断验证与实施证据之间的脱节代表了本研究中最关键的空白。研究人员应开展前瞻性随机研究，比较AI指导干预与常规临床护理，以寻求工具在现实世界中实施的可行性。
4.
讨论

本系统综述全面概述了人工智能在超声心动图诊断主动脉瓣狭窄中的整合情况，中位AUC为0.92（0.82–0.99），超过了专业超声医师的敏感性（85%–90%）。主导的AI模型是卷积神经网络（52%），结合PLAX和PSAX切面（96%、88%），这些切面能够评估人眼无法识别的瓣膜纹理和运动，获取组织血流动力学和功能状态的数据，从而解决超声心动图的局限性。然而，本综述也揭示了可能影响AI作为临床工具实施的多重方法学障碍。

4.1 诊断准确性与验证

在25项研究中，中位AUC为0.92，证实了AI模型良好的诊断和分类性能。该工具有望通过在初级和二级保健中心由缺乏足够超声心动图经验的人员应用，促进人群筛查；也有助于早期识别疾病表型以优化医疗资源配置，从而实现及时的治疗决策，并通过识别特定的超声心动图参数（如LVEF）来确定哪些患者最能从手术方法中获益，同时尊重各地区相关实体确定的监管框架。

4.2 思维过程作为根本障碍

模型的可解释性是临床医生信心的主要决定因素，也是获得监管批准的首要条件。在25项研究中，仅有2项具有完全可解释性；其余均缺乏可解释的决策机制，易受多种偏倚影响，可能导致错误的算法逻辑。换言之，模型必须标准化，以便人类能够准确复现，并明确展示最终决策的清晰逻辑。

4.3 伦理考量

如果没有外部验证、透明度和结果解释，当前的AI模型就无法满足安全性、责任性和公平性的要求，从而无法融入临床实践。同样，必须考虑人群的民族特征和潜在合并症，以避免诊断不平等并减少报告内的不确定性。最后，还必须评估工具的成本效益或对工作流程的影响，以确定其实用性和适用性。

4.4 研究局限性

本范围综述存在方法学固有的局限性。首先，研究间的异质性（不同的严重程度定义、超声切面和性能指标）排除了定量荟萃分析的可能性，限制了统计合成。其次，发表偏倚可能高估了AI性能（阴性结果研究发表较少）。第三，仅限英语和西班牙语文献可能遗漏了潜在的相关文献。第四，100%的原发研究为回顾性设计，限制了前瞻性的外推性。第五，没有研究评估人口统计学偏倚。
5.
结论

AI模型正成为主动脉瓣狭窄早期诊断和严重程度分类的结构性工具，其AUC达0.92，模拟了专业超声医师的精确度。然而，外部验证的需求和算法透明度的缺失，要求其必须进行前瞻性多中心验证，才能实现从学术工具向全球临床标准的转化。

联系信箱：

粤ICP备09063491号

热点排行