结果
系统检索共识别出802篇相关文献,去除重复文献(n=541)并经标题摘要筛选(排除n=460)后,最终评估了25篇符合标准的全文文献。证据表明,尽管相关文献众多,但大多从宏观角度评估多种病理,缺乏对特定变量的聚焦。最普遍的研究类型是回顾性研究(n=24)和临床试验事后分析(n=1)。
AI被证明是识别AS的有力工具。最常用的模型包括CNN、MDN、ML和NLP。研究人员还发现,算法的分析基于主导的超声心动图切面(胸骨旁长轴切面PLAX、胸骨旁短轴切面PSAX、心尖四/五腔心切面A4C/A5C)以及与算法分析最相关的变量(Vmax、MPG、AVA、左室射血分数LVEF)。最后,研究普遍存在横断面局限性:仅24%的研究进行了外部验证,且完全没有前瞻性研究,这是研究中关键的结构性空白。
3.1 模型性能
如表3所示,卷积神经网络(CNNs)的应用最为广泛(n=14),其次是混合密度网络(MDN, n=4)、机器学习(Machine Learning, ML, n=4)、自监督学习(n=1)、自然语言处理(Natural Language Processing, NLP, n=1)及其他(n=1)。各项研究的性能指标存在差异:敏感性范围为82.2%–90%;特异性维持在88%–99%之间;曲线下面积(AUC)介于0.82至0.99之间,中位数为0.92。阳性预测值(Positive Predictive Value, PPV)范围为0.159–0.84,阴性预测值(Negative Predictive Value, NPV)范围为0.909–0.991,这表明AI模型在排除AS存在方面具有良好的性能。
3.2 多切面模型的优越性
如表4所示,胸骨旁长轴切面(PLAX)在24项研究(96%)中被使用,其次是胸骨旁短轴切面(PSAX)在22项研究(88%)中被使用,这些切面捕获了瓣膜血流动力学和结构信息。心尖四至五腔心切面在15项研究(60%)中被使用,提供了更多关于左心室、容积和功能评估的信息。多普勒在18项研究(72%)中被使用,允许可视化主动脉射流的方向和严重程度。同样,AI提取的解剖变量包括主动脉瓣流速(Vmax)、平均压力梯度(MPG)、主动脉瓣口面积(AVA)(23项研究,92%)、左室射血分数(Left Ventricular Ejection Fraction, LVEF)(16项研究,64%)、左室径线(12项研究,48%)和左室肥厚(Left Ventricular Hypertrophy, LVH)(14项研究,56%)。其他分析的变量还包括主动脉瓣形态与钙化、整体纵向应变、舒张功能和左房大小。值得注意的是,变量提取方式不同于临床常规:医生手动计算Vmax和AVA,而“黑箱”AI模型可能利用完全不同的数据或特征得出诊断或分类。因此,必须标准化数据采集协议,并优先考虑用于决策的图像特征。
3.3 关键空白
外部验证是所分析研究中最大的方法学空白。在25篇文章中,仅有6篇(24%)报告了外部验证数据,其余76%仅使用内部验证,且只有4篇(16%)使用了多中心训练模型。这导致了诊断性能的下降,例如Holste等人2023年的ResNet 18 CNN模型,其初始AUC为0.96,但在外部队列测试中降至0.942,下降了2%,且由于低患病率导致PPV仅为0.159,这可能意味着因成像协议、操作者经验、人群特征和模型差异导致的诊断高估。相比之下,Playford D使用了530,871份超声心动图数据库,应用基于混合密度网络的AI决策支持算法(AI-DSA),并在外部验证队列中记录了持续的优异性能(AUC 0.986)。
缺乏外部验证反映了数据集固有的偏倚,表现为地理集中和对特定机构超声心动图协议的依赖。由于只有16%的研究采用了多中心训练架构,模型极易过拟合特定中心的影像采集实践,限制了其总体可重复性。此外,缺乏人口统计学公平性分析至关重要;没有任何研究直接评估人群偏倚,这一疏忽无法确保算法在不同种族或社会经济群体中保持其诊断准确性,加之大多数模型(72%)的“黑箱”性质,构成了伦理和公平临床实施的重大障碍。
另一方面,模型背后的透明度评估揭示了显著问题。现行法规如欧盟将医疗AI模型归类为“高风险”,以及FDA-Health Canada-MHRA 2024年关于AI/ML软件即医疗器械(SaMD)透明度和偏倚评估原则的联合出版物,均强调了这一点。如表6所示,25篇文章中有18篇使用了“黑箱”深度学习架构,仅2篇应用了可解释架构,其余5篇应用了部分机制。即模型处理数据时的算法推理缺乏透明度。绝大多数“黑箱”模型造成了医疗法律责任的严重空白。由于偏离了传统的临床推理路径,这些算法迫使医生在验证逻辑不透明的决策时承担不成比例的风险。当生成诊断或警报时,无法验证哪些超声心动图特征在决策中权重最大,是否考虑了AS的病理生理学,或置信区间如何,因为信息都封闭在同一系统内。这是沟通影像学诊断推理、关联患者年龄/种族/性别偏倚以及确定错误原因(训练不足、算法限制、图像质量或操作失误)的临床障碍。
最后,没有任何研究验证前瞻性真实世界实施数据;没有文章将AI预测与临床决策和患者结局联系起来。所有25篇文章均为回顾性研究,分析的是存档的超声心动图图像或带有结局数据的病历。仅有1项研究侧重于床旁超声(Point-of-Care Ultrasound, POCUS)以扩大在超声专业知识有限环境中的诊断范围,另有1项研究描述了其模型的自动主动脉瓣测量提高了诊断准确性和工作流程效率。虽然有三项研究试图建立AI分析与临床结局的关系(如确定中度向重度AS的进展、识别疾病亚型以预测瓣膜置换候选者、对试验数据进行事后分析),但均应用于已完成的既往数据或试验,无法证明AI干预是否改变了每位患者的临床决策。目前缺乏前瞻性研究,成本效益和健康经济影响也未得到考虑。这种诊断验证与实施证据之间的脱节代表了本研究中最关键的空白。研究人员应开展前瞻性随机研究,比较AI指导干预与常规临床护理,以寻求工具在现实世界中实施的可行性。