综述:利用人工智能从窦性心律心电图和动态监测中预测和检测心房颤动
Panteleimon Pantelidis,
Nikolaos Vythoulkas-Biotis,
Athanasios Samaras,
Panagiotis Theofilis,
Raffaele De Lucia,
Polychronis Dilaveris,
Theodore G. Papaioannou,
Evangelos Oikonomou,
Gerasimos Siasos
《Biomedicines》:Artificial Intelligence for Prediction and Detection of Atrial Fibrillation from Sinus-Rhythm Electrocardiograms and Ambulatory Monitoring
Panteleimon Pantelidis,
Nikolaos Vythoulkas-Biotis,
Athanasios Samaras,
Panagiotis Theofilis,
Raffaele De Lucia,
Polychronis Dilaveris,
Theodore G. Papaioannou,
Evangelos Oikonomou and
Gerasimos Siasos
【字体:
大
中
小
】
时间:2026年05月10日
来源:Biomedicines 3.9
编辑推荐:
**摘要**
心房颤动(AF)是一种高发的心律失常,与中风、心力衰竭和过度死亡率相关。然而,许多“无症状”的AF发作仍未被检测到,导致疾病负担被低估。此外,AF发作具有“不可预测”的特点,现有的临床评分只能中等程度地分层长期AF风险,无法评估近期事件。将人工智能(AI)应用于
**摘要**
心房颤动(AF)是一种高发的心律失常,与中风、心力衰竭和过度死亡率相关。然而,许多“无症状”的AF发作仍未被检测到,导致疾病负担被低估。此外,AF发作具有“不可预测”的特点,现有的临床评分只能中等程度地分层长期AF风险,无法评估近期事件。将人工智能(AI)应用于短时或连续心电图(ECG)记录中的窦性心律显示,这类预测信息其实“显而易见”。这种互补方法旨在揭示潜在的AF基础并预测即将发生的AF发作。基于深度学习模型的模型在10秒、12导联ECG数据上进行训练,能够以高达0.90的曲线下面积(AUC)识别出有潜在或近期AF风险的个人,表现优于已建立的临床评分。基于图像的AI-ECG模型将这些能力扩展到纸质或扫描的ECG记录中。此外,将AI算法应用于24小时霍尔特监测和多日贴片记录时,在检测隐性AF或在14天内预测其发生方面的AUC≥0.80,持续优于C2HEST和HATCH等风险评分。利用心率变异性特征的短期模型进一步证明,AF可以在发作前几分钟到几小时就被预测到,且在精心策划的数据集中的准确率约为90%。然而,大多数AI-AF研究仍然是回顾性的、针对单一系统的,并且主要关注诊断效果而非临床结果(如中风或死亡率)。此外,很少有实际试验评估AI引导的AF筛查及其对临床效益的转化。在AI引导的AF预测能够常规纳入临床决策之前,还需要强有力的前瞻性试验和标准化的评估框架。
**1. 引言**
心房颤动(AF)是全球最常见的心律失常之一,与中风、心力衰竭和全因死亡率的风险增加两到五倍相关。随着人口老龄化,其发病率正在上升,估计全球有超过5000万人受到影响[1]。许多AF发作是无症状的或阵发性的,因此机会性或单次心电图(ECG)筛查可能会遗漏许多可以从抗凝治疗中受益的人[2]。传统的延长心率监测方法,如24小时霍尔特监测或14天贴片监测,以及在某些情况下使用的植入式循环记录器(ILR),可以检测到额外的亚临床AF,但由于事件发生率较低,其成本较高,而且治疗亚临床AF的价值仍有争议[3]。HATCH和CHARGE-AF等临床评分已被开发出来以分层AF的发作或进展风险,但它们的区分能力仍然有限[4,5,6,7,8]。临床评分可以指导哪些患者需要筛查,但无法单独确定哪些患者具有可能在近期出现AF的晚期心房基础。基于AI的ECG分析试图通过解码在看似正常的记录中反映的AF相关病变和触发因素来填补这一空白。
人工智能(AI)革命最近也进入了这一领域,目标从检测明显的AF转变为从数字ECG档案和大规模霍尔特监测及贴片记录中发现的“无症状”潜在类型,甚至预测其发作。这使得AI算法能够直接从原始窦性心律ECG信号或衍生参数(如心率变异性HRV)中推断AF风险,预测范围从几分钟到几年不等,从而指导有针对性的监测[9]。自2021年以来,相关工作取得了显著进展,包括从通用的基于图像的AI-ECG到单导联贴片在家解决方案,可预测近期或即将发生的AF,甚至有实际试验严格测试AI引导的AF风险筛查[10]。目前,重要的是要将这些预测方法与消费级可穿戴设备在现实世界中的主要应用区分开来。里程碑式的研究,包括Apple Heart Study和Fitbit Heart Study,已经确立智能手表等设备作为人群级别AF筛查的工具[11,12]。然而,它们的官方用途目前仅限于检测同时发生的明显AF,通常是通过在症状发作期间记录的单导联ECG或光电容积描记法检测到的心律不规则。相比之下,现有的AI-ECG模型执行的任务根本不同:它们从窦性心律时段揭开隐藏的心房基础并预测未来的或潜在的AF。因此,尽管可穿戴设备在心律失常检测方面取得了巨大飞跃,但它们的当前功能仍不在窦性心律AF预测的范围内。
所有这些努力共同促进了实时监测,并有望防止由疾病突然、无症状发作引起的不良后果,将应对方式从“被动反应”转变为“主动预防”[13]。此外,针对个体风险的监测有助于“绘制”AF负担的全貌,使临床医生能够确定及时干预的潜在益处。这篇综述总结了当前基于窦性心律ECG片段和动态记录的短期和长期AF预测的AI方法,试图阐释该领域的演变过程,提供对以往努力的全面更新,并 highlight 各个时间和模式下的共识发现,同时指出未来研究的关键空白和优先事项。
**2. 文献搜索策略和结果**
我们采用了结构化的搜索方法来识别相关文献以确保可重复性,遵循系统评价和荟萃分析指南中的PRISMA-ScR扩展框架(补充材料)[14]。我们系统地搜索了电子数据库(Medline/OVID、Embase/OVID和Scopus),查找在每个数据源的起始日期(分别为1946年、1974年和1970年)至2026年4月之间发表的文章。搜索使用了包括“人工智能”、“深度学习”、“机器学习”、“心房颤动”、“心电图”、“窦性/正常心律”和“预测”等关键词的组合和变体(补充材料)。我们还通过筛选检索到的文章的参考列表进行雪球式搜索。我们纳入了评估基于AI的短期和长期AF预测或从窦性心律ECG和动态监测中检测潜在AF的同行评审原始研究文章。我们排除了非同行评审的预印本和会议摘要,以保持证据的可靠性。两名作者独立评估了检索到的文章的适用性。在意见不一致的情况下,第三名作者参与讨论,最终通过多数投票做出决定。从最初的459篇标题中,最终有32项研究被纳入本综述。
**3. 基于AI的ECG在窦性心律期间检测潜在AF**
基于AI的AF预测涵盖了一系列不同的方法,这些方法在模式、具体预测任务和时间范围上有所不同。一些模型分析标准10秒、12导联的窦性心律ECG,以揭示与普遍存在、潜在或长期发作AF相关的心房基础,本质上估计个体在数月至数年内发展成AF的基线倾向[9,15,16,17]。其他模型则关注动态信号,包括霍尔特监测和贴片记录或逐搏HRV,以在同一记录中检测隐性AF或在几分钟到几小时的短时间范围内预测发作,从而捕捉电不稳定和触发易感性的动态时期[18,19,20,21]。这些模式和范围的区别决定了模型架构、标记策略和潜在的临床应用:长期预测用于基于基础的分层和筛查,而短期预测则针对需要及时警报的主动监测(图1)。图1展示了基于AI的AF预测的概念框架和数据模式。时间范围涵盖了短期预测(几分钟到几天)和长期风险预测(几个月到几年)。不同模式被映射到它们最佳预测的时间窗口:连续的霍尔特监测和贴片监测器以及单导联可穿戴设备主要用于即将发生的/短期触发事件,而标准12导联ECG和基于ECG/EHR的模型主要用于捕捉长期的心房结构重塑。
**3.1. 基于12导联窦性心律ECG的深度学习**
Attia及其在梅奥诊所的同事的开创性工作表明,一个基于复杂卷积神经网络(CNN)的AI模型,在训练了180,922名患者的649,931份10秒、12导联窦性心律ECG后,能够使用单份ECG将先前或近期AF(在ECG之前或31天内)的个体识别出来,AUC为0.87;当汇总每名患者的多份ECG时,AUC约为0.90。在内部测试集中,敏感性和特异性均为约79%,而且当需要多次ECG的高风险预测时,模型的阳性预测值有所提高[22]。解释这些结果时,区分同时发生的隐性AF和纯粹预测未来的AF非常重要。例如,尽管该模型表现优异,但阳性结果的真实情况包括在窦性心律ECG后的31天内至少有一次AF记录的个体。这模糊了检测隐性AF和纯粹预测AF之间的界限。然而,在实践中,长期发作预测和隐性AF检测的概念往往是一致的。除非患者从索引窦性心律ECG到AF事件期间通过植入式循环记录器或其他心脏植入电子设备(CIED)接受持续监测,否则无法排除之前的无症状阵发性发作的可能性。因此,长期AI-ECG模型本质上捕获了潜在基础和未诊断的阵发性发作的混合情况。
后续分析将相同的AI-ECG AF概率应用于基线时没有已知AF的社区队列,结果显示其与成熟的CHARGE-AF评分相当。较高的AI-ECG AF概率与AF和缺血性中风的长期发病率增加相关[17],C统计量约为0.69,最高与最低概率四分位数相比风险增加了3倍。这些发现支持了该网络捕捉了易发展为AF的亚临床心房心肌病表型的观点。Raghunath等人通过在430,000名无AF史的患者身上训练深度神经网络,预测了一年内新发AF[15]。他们的模型对1年内的AF事件的AUC为0.85,并在30年随访期间显示出最高和最低风险四分位数之间的7倍差异。在一个模拟部署中,针对最高风险四分位数的患者进行持续监测,需要筛查9个人才能检测到1例新发AF,并识别出约62%后来经历AF相关的中风患者。其他团队也开发并验证了类似的12导联AI-ECG模型。Baek等人报告了一个基于窦性心律ECG训练的深度学习算法,其在测试集中的AUC约为0.75,用于区分阵发性AF和对照组[16],而Brant及其同事进行的一项跨国研究使用常规临床ECG显示,AI-ECG评分在地理多样性队列中的预测能力接近0.80,比CHARGE-AF具有更高的预后价值[23]。
总体而言,这些工作表明,相对较短的静息ECG包含了足够的信息来表征显著增加AF风险的基础[表1]。与传统的风险评分不同,AI-ECG模型无需明确输入年龄或合并症即可实现这一点。然而,生物年龄已被证明深度编码在ECG形态中,可能间接代表了模型预测的主要驱动因素[24,25]。
**3.2. 串行、基于特征和基于图像的AI-ECG**
尽管端到端的CNN使用原始ECG波形作为输入可以提供强大的区分能力,但它们常常因可解释性有限而受到批评。Choi等人通过提取详细的P波、PR波、QRS波和T波特征以及心率变异性指数等特征,然后使用AI模型基于时间变化预测新发AF。串行ECG模型始终优于单次点模型,支持了数月至数年的渐进性心房重塑提供了超出静态ECG形态的信息这一概念。特征重要性分析在这些模型中强化了P波特征的重要性,但同时也揭示了模型在预测中严重依赖于患者的年龄,这可能使年龄成为混淆因素,从而大大降低了其他预测因子的作用[26]。基于波形的AI-ECG的一个实际限制是需要数字ECG信号。Zeidaabadi及其同事通过使用扫描或PDF格式的ECG训练基于图像的CNN来预测AF事件,得到了约0.72–0.75的C统计量,并在结合AI-图像评分和CHARGE-AF时显示出更好的区分能力[27]。Gadaleta在家的贴片研究同样使用了衍生的单导联ECG片段,但也表明即使是相对嘈杂的动态信号也能支持强力的近期预测[18]。
**3.3. 外部验证和前瞻性应用**
虽然许多研究显示出有希望的内部结果,但很少有研究经过外部验证以确认广泛甚至跨种族的通用性。最近,多项跨国验证开始出现,表明AI-ECG模型可以在包括韩国、巴西、英国等不同人群中保持区分能力,通常提供比临床评分更高的预后价值[23,28]。在这方面,Christopoulos等人对Mayo AI-ECG AF风险模型进行了基于人群的验证,发现AI-ECG预测新发AF的c统计值约为0.69 [17],而Lee等人通过在一项多民族CODE 15%队列上测试AI-ECG模型来检验其跨种族的泛化能力,结果显示其区分能力得以保持 [29]。然而,在多民族队列上测试模型仍然属于例外而不是常态。除了回顾性验证 [17,30] 之外,Noseworthy及其同事的实用试验首次提供了关于AI引导的AF筛查的实际应用测试 [31]。在该研究中,超过669,000名患者通过常规ECG接受了AI-ECG AF风险模型的回顾性评分;随后,1003名具有较高中风风险且没有已知AF的老年人被纳入了一项分散式试验,并提供了长达30天的连续贴片监测。AI高风险组中检测到AF(≥30秒)的比例为7.6%,而AI低风险组为1.6%,对应的比值比约为5。在大约10个月后,AI高风险组中AF的诊断率为10.6%,而常规护理对照组为3.6%(p < 0.0001)。这些发现表明,AI-ECG可以显著增加监测到的病例数量,发现迄今为止“隐藏”的AF病例,同时降低了延长监测的成本。然而,这一令人印象深刻的诊断效果必须仔细考虑其背景。该试验采用了非随机设计,基线人群本身就具有较高的中风和AF风险。此外,由于缺乏“硬性”临床结果(中风/死亡),因此无法得出关于实际临床益处的确切结论。因此,当前的指南仍将AI视为有前景但在决策制定方面仍属于研究阶段的工具 [32]。表1. 总结了一些开发或评估用于从窦性心律的心电图信号中检测和预测心房颤动的人工智能模型的代表性研究。
4. AI应用于动态心电监测和贴片监测
4.1. 24小时动态心电记录中的隐藏AF
近期有几项研究专注于利用AI分析24小时动态心电记录,以检测那些分析片段完全处于窦性心律的患者中的“隐藏”AF。Kim及其同事开发了一种模型,该模型可以处理整个动态心电记录,并在输入数据中排除AF发作的情况下仍能预测阵发性AF的存在。在一个包含1166名个体的队列中,他们的算法取得了约0.85的AUC值,夜间片段的性能略高,这与夜间窦性心律更加稳定以及自主神经系统的影响一致 [37]。Chang等人构建了一个两阶段的深度学习架构,使用窦性心律期间来自三个动态心电导联(模拟V1、V5、II)的短时傅里叶变换频谱图。一个当代的卷积架构(ConvNeXt)首先将60秒的片段分类为高风险或低风险。第二阶段的Long Short-Term Memory(LSTM)聚合了十个连续的片段(10分钟窗口)以产生患者级别的预测。片段级别的性能表现为高灵敏度(0.91)但中等特异性(0.57),而患者级别的预测达到了0.87的AUC值、0.82的准确率,以及分别约为0.83和0.82的灵敏度和特异性,在夜间略有提升。相比之下,在同一队列中,传统的风险评分方法(包括Taiwan AF、C2HEST和HATCH)的AUC值在0.72至0.79之间,低于AI模型 [50]。这些基于动态心电的研究强调了在窦性心律中微妙且随时间变化的特征(如心跳间变异性、异位心律模式和频谱内容)能够编码关于潜在心律失常基础的信息,这些信息是无法通过静态临床评分捕捉到的。它们还说明了跨时间聚合信息以减少噪声和假阳性结果的重要性。
4.2. 从动态监测中预测近期AF
除了对记录中“曾经发生过AF”的分类之外,一些团队尝试使用动态心电或贴片监测数据来预测未来的AF。Singh等人使用24小时无AF的动态心电图训练了一个深度神经网络,以预测15天内的AF发作,该模型结合了心率趋势、心跳级别信息和早搏计数。在外部验证中,该集成模型的15天内AF预测AUC值为0.76 [19]。Gadaleta等人分析了来自超过450,000份两周记录的家庭单导联胸贴数据;他们故意限制输入数据为无AF的片段(10分钟到24小时),并训练了一个深度学习和基于特征的模型组合来预测14天内的AF。他们最好的模型在10分钟输入数据的AUC值为0.77,在24小时输入数据的AUC值为0.80,且在不同年龄和风险群体中的校准效果适中,在非常年老且同质性较高的群体中区分能力稍弱 [18]。Rooney及其同事特别关注长期心电图中的即刻AF预测,应用CNN-Transformer架构来预测7.5分钟到60分钟内的AF发作。他们报告在7.5分钟的提前时间内AUC值约为0.74,预测风险曲线的变化在AF发作前约15分钟出现,表明电生理状态逐渐向不稳定状态过渡 [20]。总的来说,这些动态监测研究在纯基于基础的预测(时间范围为几年)和心跳间的“即将发生的”心律失常检测之间架起了一座桥梁,使得新的、基于风险的监测策略成为可能,并且包括可穿戴设备在内的多种应用得以实现,当短期AF风险升高时可以触发强化采样或警报(表1)。
5. 基于心率变异性(HRV)的阵发性AF短期预测
尽管现代深度学习的发展已经超过了数十年,但HRV的相关性仍然存在,尤其是在资源受限或边缘设备应用中,因为完整的波形深度学习可能不可行。早期使用PhysioNet心房颤动预测数据库的研究表明,可以根据HRV特征提前几分钟预测PAF的发生。Narin及其同事报告称,使用精心选择的时间和频率域特征以及k最近邻分类方法,他们能够以92%的灵敏度、88%的特异性和90%的准确率区分PAF发作前2.5–7.5分钟的HRV片段与对照片段 [21]。Mohebbi和Ghassemian对30分钟RR间期窗口的分析显示,在相对较小且标注良好的数据集上,他们能够以96%的灵敏度和93%的特异性预测即将发生的AF事件 [49]。有趣的是,Grégoire等人的一项比较研究表明,基于手工制作的HRV特征的决策树模型在预测即将发生的心房颤动方面可以胜过基于原始30秒心电图信号的深度学习方法,识别出短期迷走神经活动和心率碎片化是最重要的预测因素 [48]。类似的研究进一步结合了非线性特征来优化特征子集和分类器的操作点。Ebrahimzadeh及其同事结合了一组广泛的HRV描述符和专家混合分类器,在同一PhysioNet队列中报告了98.2%的AF发作预测准确率 [47]。这与Schoels和Singh等人的方法相一致,后者使用了集成元模型,融合了提取的HRV参数、心跳级别的形态学特征和其他表格数据 [19,41]。这种方法突显了集成和混合建模策略的更广泛用途。虽然现代深度学习在处理原始心电图波形方面表现出色,但集成学习通过聚合多个基础算法的输出实现了共识或“陪审团”效应。然而,传统的集成方法(如bagging或梯度提升)在处理结构化的、手工制作的临床变量时同样有效,而这在现代深度学习方法中很少见。最后,另一项研究使用现代特征选择算法和机器学习分类器更新了这些方法,使用短至五分钟的HRV窗口预测AF事件的准确率达到了88% [45]。尽管这些基于HRV的结果令人印象深刻,但必须谨慎解读:由于这些研究的设计各不相同,因此很难直接进行比较。例如,利用广泛使用的PhysioNet AF预测数据库的研究报告了90%到98%之间的极高准确率 [21,47,49]。然而,这些数字通常来自经过精心策划的病例-对照队列,采用了不切实际的分组方法。这些人为夸大的指标不能直接与大规模前瞻性队列研究相比,在后者中,真实的AF发病率要低得多,自然分类不平衡极大地降低了实际预测值。尽管如此,它们确认了一个重要的概念验证:即使仅从RR间期模式也能检测到AF前的动态变化,支持了深度学习方法整合HRV的合理性。
6. 传统风险评分与基于AI的模型
在基于AI的模型出现之前,新发AF的风险分层依赖于从流行病学队列中得出的多变量评分。CHARGE-AF模型结合了以下人口统计学和临床变量:年龄、种族、身高、体重、血压、吸烟状况、抗高血压治疗、心力衰竭、糖尿病和心肌梗死 [8] 来预测5年内的AF风险 [51]。值得注意的是,将种族作为传统临床评分(如CHARGE-AF)中的一个变量,与AI模型相比,可以提供额外的细微差别。鉴于关于种族作为社会构建而非严格生物学构建的持续辩论,其在预测建模中的应用引发了关于算法公平性和可能加剧健康差异的一级问题。这给现代AI-ECG模型带来了挑战,这些模型也必须在多样化的多民族队列中进行严格审计,以确保公平的医疗服务。同样,C2HEST评分(冠状动脉疾病或慢性阻塞性肺疾病、高血压、老年人、收缩性心力衰竭、甲状腺疾病)是在大型中国和韩国队列中开发的,作为一个简单的工具来预测新发AF [4],最近的一个修改版mC2HEST评分结合了更细化的年龄分层得到了验证 [52]。来自台湾的补充工作使用了超过720万成年人的全国行政数据来推导出一个Taiwan AF评分 [6],而最初设计用于预测AF进展的HATCH评分也被验证为预测新发AF的工具 [5]。在短期和长期领域,一个一致的主题是,当在同一队列中测试时,基于AI的ECG和HRV模型优于临床风险评分。在Chang的动态心电研究中,患者级别的AI模型达到了约0.87的AUC值,而Taiwan AF、C2HEST、mC2HEST、CHA2DS2-VASc和HATCH的AUC值分别为0.72至0.79 [50]。在Gadaleta的胸贴研究中,基于AI的贴片风险通常优于基于基线年龄和性别的临床模型在近期AF检测中的区分能力,尤其是在年轻且异质性更高的群体中 [18]。同样,Yuan等人的研究显示,CNN在两个队列中预测31天内的AF存在的AUC值分别为0.86和0.93。DL模型在不同种族和人口亚组中的表现一致,并且优于传统的临床风险因素(如CHA2DS2-VASc评分)[43]。在预测新发AF方面,Attia、Raghunath等人的AI-ECG模型的c统计值在0.78–0.85范围内,与外部验证中的CHARGE-AF和C2HEST评分相当。Jabbour的研究结合了DL-ECG、临床模型和多基因评分,发现单独使用ECG-AI评分的表现与CHARGE-AF相当或更好,而添加临床信息后风险分层有所改善 [36]。虽然AI模型经常报告与临床评分相当的性能,但这种比较有时可能只是表面上的。方法论上公平的比较需要在完全相同的患者队列上直接对比这两种方法,具有相同的随访窗口和结果定义 [36,40]。不幸的是,这种严格的对比在文献中并不常见,并且由于回顾性数据集中的随访时间不匹配和基线确定方法的不同,特别容易产生偏差。因此,这些风险分层工具目前应被视为互补的,而不是纯粹竞争性的。值得注意的是,尽管存在用于潜在和长期AF风险的既定指标,但目前还没有用于预测即将发生的AF的临床风险评分或其他指标,除了传统的HRV和最近的深度学习解决方案。
7. 当前的差距、临床应用和未来方向
大多数基于AI的AF模型是使用来自孤立健康系统或特定心电图供应商的回顾性数据开发的。即使数据集规模很大,它们往往无法反映真实世界人群的真正多样性,导致模型在特定机构环境中学习局部特征而非普遍的生理信号。此外,经常发现显著的风险偏差,在解释报告的性能指标时必须谨慎考虑。例如,一些在高度策划的开源数据集(如PhysioNet AF预测数据库)上训练的模型报告了90%到98%之间的准确率 [21,47,49]。然而,这些数字通常来自经过精心策划的病例-对照队列,使用了不切实际的分组方法。这些人为夸大的指标不能直接与大规模前瞻性队列研究相比,在后者中真实的AF发病率要低得多,自然的类别不平衡极大地降低了实际预测价值。尽管如此,它们仍然证实了一个重要的概念验证:AF前的动态变化确实存在,并且即使仅从RR间期模式也可以检测到,支持了深度学习方法整合HRV的合理性。
6. 传统风险评分与基于AI的模型
在基于AI的模型出现之前,新发AF的风险分层依赖于从流行病学队列中得出的多变量评分。CHARGE-AF模型纳入了以下人口统计学和临床变量:年龄、种族、身高、体重、血压、吸烟状况、抗高血压治疗、心力衰竭、糖尿病和心肌梗死 [8] 以预测5年内的AF风险 [51]。值得注意的是,将种族作为CHARGE-AF等传统临床评分中的一个变量,与AI模型相比,可以提供额外的细微差别。鉴于关于种族作为社会构建而非严格生物学构建的持续辩论,其在预测建模中的使用引发了关于算法公平性和可能加剧健康差异的一级问题。这给现代AI-ECG模型提出了挑战,这些模型也必须在多样化、多民族的队列中进行严格的审计,以确保公平的医疗服务。同样,C2HEST评分(冠状动脉疾病或慢性阻塞性肺疾病、高血压、老年人、收缩性心力衰竭、甲状腺疾病)是在大型中国和韩国队列中开发的,作为一个简单的工具来预测新发AF [4],最近一个改进的mC2HEST评分结合了更细化的年龄分层得到了验证 [52]。来自台湾的补充工作使用了超过720万成年人的全国行政数据来推导出一个Taiwan AF评分 [6],而最初设计用于预测AF进展的HATCH评分也被验证为一个预测新发AF的工具 [5]。无论是在短期还是长期领域,一个一致的主题是,当在同一队列中测试时,基于AI的ECG和HRV模型的表现都优于临床风险评分。在Chang的动态心电研究中,患者级别的AI模型达到了约0.87的AUC值,而Taiwan AF、C2HEST、mC2HEST、CHA2DS2-VASc和HATCH的AUC值分别为0.72至0.79 [50]。在Gadaleta的胸贴研究中,基于AI的贴片风险通常优于基于基线年龄和性别的临床模型在近期AF检测中的区分能力,特别是在年轻且异质性更高的群体中 [18]。同样,Yuan等人的研究显示,CNN在两个队列中预测31天内的AF存在的AUC值分别为0.86和0.93。DL模型在种族和人口亚组中的表现一致,并且优于传统的临床风险因素(如CHA2DS2-VASc评分)[43]。在预测新发AF方面,Attia、Raghunath等人的AI-ECG模型的c统计值在0.78–0.85范围内,与外部验证中的CHARGE-AF和C2HEST评分相当。Jabbour的研究结合了DL-ECG、临床模型和多基因评分,发现单独使用ECG-AI评分的表现与CHARGE-AF相当或更好,而添加临床信息后风险分层有所改善 [36]。虽然AI模型经常报告与临床评分相当的性能,但这种比较有时可能是表面的。方法论上公平的比较需要在对相同患者队列上进行头对头的测试,具有相同的随访窗口和结果定义 [36,40]。不幸的是,这种严格的头对头评估在文献中并不常见,并且由于回顾性数据集中的随访时间不匹配和不同的基线确定方法,特别容易受到偏差的影响。因此,这些风险分层工具目前应被视为互补的,而不是纯粹竞争性的。值得注意的是,虽然存在用于潜在和长期AF风险的既定指标,但目前还没有用于预测即将发生的AF的临床风险评分或其他指标,除了更传统的HRV和最近的深度学习解决方案外。此外,使用24小时霍尔特监测和贴片监测的模型面临标签泄露的固有风险,如果窦性心律输入窗口与房颤事件之间的精确时间边界没有严格隔离的话。算法公平性的系统评估也尚未充分发展,因为从窦性心律预测隐藏性房颤的领域相对于显性房颤检测来说仍然相对“年轻”。尽管初步的跨种族验证已经开始[29],但对于不同亚组模型性能的系统讨论仍然不足。深度学习算法确实有可能无意中反映出其训练数据中固有的偏见,因此必须将亚组性能的强制报告和公平性审计作为标准实践,以确保这些模型不会加剧现有的健康差异[53]。开放科学,特别是通过共享数据和模型,是一个相关的考虑因素和潜在的解决方案。透明地报告数据集组成、标记程序和预处理过程对于临床医生评估模型的通用性和确保公平性是至关重要的。系统地应用已建立的标准,如TRIPOD + AI等[53,54],以及将模型存储到标准化的存储库中(如PhysioNet (https://physionet.org) 或 GitHub (https://github.com)),是超越封闭孤岛、迈向可重复临床实践的必要步骤。
此外,为了成功进行临床应用,校准(预测风险与实际观察风险之间的一致性)和净临床效益与区分能力同样重要。根据TRIPOD + AI指南,区分能力和校准都应成为标准报告要求[53]。然而,正如表1所示,我们的分析显示,不到20%的评估过的AI房颤研究报告了校准指标(例如Brier分数、综合校准指数[ICI]或其他校准指标)、净重新分类改进(NRI)或正式的决策曲线分析[18,23,27,30,36,40,43]。由于区分能力更常被报告,因此它仍然是目前可比较的最实用的指标。然而,校准指标的系统性遗漏会损害实际应用,因为校准不良的模型可能会严重高估或低估特定亚群的风险,限制了它们在共享决策中的安全使用。为了提供关于这些方法学局限性的可信度,补充材料中提供了每个纳入研究的正式PROBAST + AI基于的偏倚风险评估[55]。
另一个需要解决的问题是深度神经网络的可解释性,因为卷积神经网络(CNN)和变换器往往是“黑箱”,引发了关于临床信任和接受的担忧[53]。为了解决这个问题,最近的研究整合了可解释AI(XAI)技术,如梯度加权类激活映射(Grad-CAM)或其他显著性图。这些视觉工具显示,房颤预测模型通常关注P波形态、PR间期或其他细微特征[27,30]。然而,XAI方法是近似的。评估表明,算法的注意力可能会被误导,利用基线噪声或错误解释特征[56]。因此,虽然XAI提高了透明度,但视觉解释需要严格的临床验证,未来的模型可能会受益于结合显性心房生物标志物的混合方法。这样的模型结合了P波指数、超声心动图应变和MRI纤维化等显性特征以及学习到的表征,可能有助于弥合机制学和预测学领域之间的距离[13,40]。
最后,克服与准确可靠的房颤预测相关的障碍带来最后一个问题:这样的结果在临床上有多大相关性,以及之后有哪些治疗选择?到目前为止,绝大多数AI房颤研究都将房颤检测作为主要终点。然而,亚临床房颤和短时间房颤发作与中风之间的关联多变且有时较小;持续≥24小时的SCAF发作风险最高,而较短的发作则不太具有可操作性,尤其是当它们无症状时。在一般人群中进行广泛的亚临床房颤筛查后,关于抗凝治疗的净临床益处的结果存在争议,这一点通过LOOP和STROKESTOP II试验得到了突出[57,58]。最近关于设备检测到的亚临床房颤的随机试验(如NOAH-AFNET 6和ARTESiA)进一步巩固了这种模糊性,这些试验表明,抗凝治疗短时间的亚临床房颤发作并不能均匀降低中风风险,同时还会增加大出血的风险[59,60]。如果AI指导的策略主要增加非常低负担房颤的检测,它们可能带来的净效益很小,同时患者会面临抗凝治疗的出血风险和“心律失常标签”的焦虑,这是一个需要探索的新患者群体[61,62]。因此,AI算法只有在应用于中风或血流动力学受损风险较高的亚群时才可能具有最大的实际价值。这样的亚群可能是来源不明的栓塞性中风(ESUS)患者,在这种情况下,AI-ECG模型可以识别出具有高度房颤发生潜力的个体,从而有理由分配长时间的连续监测资源来捕捉可操作的房颤,并将患者转换为口服抗凝治疗[39]。在进一步脆弱的群体中,尤其是心力衰竭患者中,房颤发作经常引发血流动力学恶化,早期控制心律可以改善预后,正如EAST-AFNET 4试验所示[63,64]。在这些高风险情况下预测房颤发作能够实现积极的监测和及时实施早期心律控制策略。因此,AI-ECG的即时临床整合应专注于这些目标群体,将护理从反应性治疗转变为积极主动的个性化预防。因此,前瞻性随机试验必须定义包括中风、系统性栓塞、心力衰竭住院、认知衰退和生活质量的综合结局,并确定可以从这种策略中受益的亚群。ASSERT及相关基于设备的研究为负担-风险关系提供了基础,但它们并不是围绕AI指导的预测设计的[61,65]。
从更广泛的评估角度来看,目前文献中缺乏关于AI指导的窦性心律筛查的健康经济学和成本效益分析,因为识别潜在房颤的临床效益仍在研究中。然而,对于未来的临床应用,部署AI基础设施及其后续测试的成本应该通过可能的中风减少和主动护理节省来抵消[66]。此外,从监管角度来看,尽管这些预测模型大多仍处于研究阶段,但这些工具的治理方式已经在改变。最近发布的欧盟AI法案代表了标准制定的范式转变,将医疗AI严格分类为高风险,并指导其开发和使用[67]。未来的预测性AI-ECG方法需要遵守有关数据隐私、风险管理和人类监督的规定,才能过渡到 routine clinical tools。
8. 结论
AI正在改变人们对房颤风险的理解,将重点从间歇性出现的心律问题转移到房颤临床显现之前就已经存在的基本电性和结构性心房表型上,这种表型可以通过不同时间尺度的窦性心律ECG记录推断出来。在各种模式下,应用于12导联ECG、ECG图像、霍尔特监测和贴片数据以及单导联可穿戴设备的深度学习模型通常优于或至少与传统的临床风险评分相当,用于检测潜在房颤和预测长期房颤事件,而基于心率变异性(HRV)的方法表明,即将发生的房颤通常伴随着自主神经张力和心跳间变异性的短期变化。同时,基于AI的房颤预测目前应被视为指南指导护理的补充而非替代[32]。虽然一些模型确实提供了更优或至少可比的风险分层,但它们当前的临床作用是通过识别需要针对性监测的高风险个体来辅助人类决策,而不是取代标准的诊断和治疗途径。此外,大多数模型仍然是回顾性的,来自一个或少数几个中心,并且外部验证有限且校准程度不一。只有一项实用的研究在常规实践中测试了AI指导的筛查,尚未显示出中风或死亡率的降低。因此,未来的工作应强调多中心随机或实用试验,具有明确的临床终点、稳健的外部验证以及明确解决校准和透明性的共享基准和实施策略。如果这些挑战得到解决,基于AI的ECG和动态监测可以支持从机会性的、反应性房颤检测向更加积极主动的、基于基础和负担的护理转变,有潜力改善中风和其他不良心血管事件的预防。
补充材料
以下支持信息可以从以下链接下载:https://www.mdpi.com/article/10.3390/biomedicines14051058/s1:
A. 系统评价和荟萃分析扩展的首选报告项目清单(PRISMA-ScR);
B. 搜索策略和结果;
C. 包含研究的PROBAST+AI评估。