将人工智能应用于院外心脏骤停后的心电图（ECG），以实现早期预后评估

《Frontiers in Cardiovascular Medicine》：Artificial intelligence applied to post-resuscitation ECGs for early prognostication after out-of-hospital cardiac arrest

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Cardiovascular Medicine 2.9

编辑推荐：

　　摘要背景：对于院外心脏骤停（OHCA）后的早期结果预测，目前可用的工具非常有限。本研究旨在评估机器学习模型是否可以利用在现场自发循环恢复（ROSC）后获得的12导联心电图来预测神经学结果。方法：我们对伦巴第心脏骤停登记处（Lombardy Cardiac Arrest

　　摘要
背景：对于院外心脏骤停（OHCA）后的早期结果预测，目前可用的工具非常有限。本研究旨在评估机器学习模型是否可以利用在现场自发循环恢复（ROSC）后获得的12导联心电图来预测神经学结果。
方法：我们对伦巴第心脏骤停登记处（Lombardy Cardiac Arrest Registry）前瞻性收集的ROSC后心电图进行了回顾性分析（2015年1月至2023年12月）。研究包括了所有从OHCA中复苏的患者，这些患者在ROSC后都在现场获得了12导联心电图。我们开发了一个深度神经网络模型，并通过计算机视觉技术从这些心电图中提取特征对其进行了验证和测试，同时考虑了患者的年龄、性别、初始心律和ROSC到心电图的时间。数据集被分为训练集（80%）、验证集（10%）和独立测试集（10%）。模型性能通过准确率、敏感性、特异性、阳性预测值（PPV）、阴性预测值（NPV）、接收者操作特征曲线下面积（AUROC）、马修斯相关性系数（MCC）和SHAP（Shapley Additive Explanations）值进行评估，以提高模型的可解释性。
结果：我们共分析了976份ROSC后心电图（其中641份显示神经学结果不佳，335份显示神经学结果良好）。该模型准确率为80.8%，敏感性为86.1%，特异性为74.3%，PPV为80.4%，NPV为81.2%，MCC为0.61，AUROC为0.86。
结论：据我们所知，这是首个利用ROSC后12导联心电图数据来评估其与神经学结果关联的机器学习模型。其在院前环境中的应用可以为关于转运策略和OHCA后护理计划的临床决策提供额外信息。

1. 引言
尽管心肺复苏（CPR）和复苏后护理取得了进展，但从院外心脏骤停中复苏的患者的出院生存率仍然极低，通常低于10%（1）。虽然在自发循环恢复（ROSC）后的前几天，循环衰竭是主要死因，但住院期间最常见的死亡原因是严重的ROSC后脑损伤，这导致基于不良神经学预后的生命维持治疗被终止（2）。目前对不良神经学结果的预测依赖于复杂的多参数预测方法（3），这些方法使用临床检查、生物标志物和成像技术。过去，已经开发了不同的预后评分来识别高风险死亡或不良神经学结果的患者（4-7）。然而，这些评分都基于只有在医院住院后才能获得的变量，因此无法在院前环境中开始预测。这一点非常重要，因为紧急医疗系统（EMS）人员除了进行高级复苏技术外，还必须对患者进行分诊并将其转运到最合适的中心，并与家属沟通患者的状况。这一敏感且时间紧迫的过程需要快速有效的决策，因此催生了多种院前评分（8-10）。值得注意的是，这些评分都没有依赖反映患者个体状况的因素，而是基于与OHCA事件本身相关的环境因素。

心脏骤停后，按照指南要求，在院前环境中会获取12导联心电图（ECG），以检测表示紧急冠脉造影主要指征的ST段抬高型急性冠状动脉综合征（ACS）（11-13）。心电图的预后影响已在多种心脏和非心脏疾病中得到证明（14-17）。少数研究调查了心电图与OHCA幸存者结果之间的关系（18, 19），只有一项最近的研究表明，ROSC后心电图在预测OHCA患者早期死亡方面具有预后作用（20）。然而，该研究基于临床医生可读的传统心电图特征。人工智能（AI）在心电图中的应用显著增加（21），显示了与心肌梗死、心房颤动、瓣膜疾病和 sudden cardiac death 预测相关的有趣数据（22）。目前唯一专门针对ROSC后心电图的人工智能应用是预测OHCA后的责任病变（23）。

2. 材料与方法
2.1 研究类型
这是一项多中心、回顾性的分析，研究对象是从纵向Utstein-based OHCA登记处“Lombardia CARe”（ClinicalTrials.gov ID：NCT03197142）前瞻性收集的ROSC后心电图。Lombardia CARe登记处收集了意大利北部7个省份所有OHCA患者的操作和临床数据。注册表中收集的特征的完整描述见补充表S1。
2.2 数据收集、研究人群和心电图
本研究包括了2015年1月1日至2023年12月31日期间从OHCA中复苏的所有患者，无论病因如何。
2.3 纳入和排除标准
我们纳入了所有已知性别和年龄、恢复ROSC、有医院出院时记录的生存状态和神经学结果（通过Cerebral Performance Category (CPC) 测量）的患者，且首份ROSC后12导联心电图以数字格式（如PDF、JPEG）可供使用。如果患者不符合纳入标准，或其ROSC后的心电图因伪影无法读取或不适合机器学习（ML）分析，则被排除在外（补充图S1）。心电图排除的详细原因及样本分布见补充表S2。由于心电图是以图像形式提供的，而非原始波形文件，我们直接从图像中提取了计算机视觉描述符（SIFT和bag-of-visual-words）；因此没有使用采集采样频率。为了标准化输入质量，在特征提取之前将PDF心电图转换为300 DPI的图像。
2.4 心电图采集
在ROSC后现场获取的所有12导联心电图中，每份患者的首份心电图都被以伪匿名方式存储在Lombardia CARe登记处的PDF格式中。这些心电图来自帕维亚（Pavia）、洛迪（Lodi）、克雷莫纳（Cremona）、曼托瓦（Mantova）、布雷西亚（Brescia）和科莫（Como）省份，在此期间用于开发机器学习模型。
2.5 结果定义
神经学结果在出院时使用Cerebral Performance Category (CPC) 测量进行分级：CPC 1表示正常神经功能，CPC 2表示中度损伤但能够独立生活，CPC 3表示重度损伤，CPC 4表示持续昏迷，CPC 5表示脑死亡。CPC经常被二分为良好的神经学结果（CPC ≤2）和不良的神经学结果（CPC>2）。在本研究中，我们基于CPC评分和出院时的生存状态进行了二元分类：Class 0表示存活且神经学结果良好的患者（CPC≤2），Class 1表示死亡或神经学结果不良的患者（CPC>2）。
2.6 视觉特征提取和模型验证
在预处理阶段（补充章节“ECG文件预处理”）之后，使用两种众所周知的计算机视觉方法从ROSC后心电图中提取了视觉特征。这些方法专注于搜索图像中的关键点，从而计算出每个图像的特征向量（每张图像324个特征）。首先应用的是SIFT（24），从中从每张心电图的12个导联中提取了164个特征。SIFT识别了心电图波形上不同方向和幅度的关键点，如QRS复合波的R波和S波峰值。第二种算法是BoVW（24），它旨在检测图像中更复杂的结构及其出现频率，而不仅仅是图像中的点（25）。通过应用BoVW，从每张图像中提取了160个视觉特征。这种方法能够检测到较大的心电图特征，如T波或QRS复合波。提取的视觉特征随后被用作训练机器学习分类算法的输入变量，以预测患者出院时的神经学结果。除了从心电图图像中视觉提取的特征外，还使用了患者的人口统计数据（年龄、性别）、初始心律（是否可电击）和ROSC到心电图的时间间隔（实现ROSC与首次12导联心电图获取之间的时间间隔）作为模型输入。年龄和性别被纳入模型，因为已知它们会影响心电图特征（26），而ROSC到心电图获取之间的时间间隔也被纳入考虑，因为它可能影响心电图（27）。此外，为了区分两种主要的结果类别，还纳入了当时出现的心律。为了提高模型的可解释性，特别设计了心电图特定特征，详见补充表S3。

数据集根据神经学结果使用两步分层随机分割方法分为训练集、验证集和测试集（fixed seed = 42）。首先，患者被分为训练集（80%）和临时集（20%）；临时集再平均分为验证集（10%）和测试集（10%），确保每位患者只贡献给一个子集。验证子集用于模型选择和提前停止训练，以防止过拟合；而测试子集则用于最终的性能评估。表1报告了训练集、验证集和测试集的基线人口统计和关键临床特征（年龄、性别、ROSC到心电图的时间、当时出现的心律和结果分布）。连续变量以中位数[IQR]的形式报告，分别代表第50百分位数和第25-75百分位数范围，提供了中心趋势和分散度的稳健总结。我们没有根据出现的心电图心律对数据集进行分层，以避免将特定于心律的结果信息引入数据分割中，因为这可能会夸大模型性能并降低泛化能力。相反，保留了各组中出现的心律的自然分布，使模型能够在更接近实际临床部署的条件下进行评估。ROSC到心电图的时间（ROSC_ECG_TIME）被作为连续变量纳入。任何给定患者的ROSC后心电图及相关数据没有被包含在多个数据集中。

表1 列出了训练集（n=820）、验证集（n=78）和测试集（n=78）的特征：
- 出院时的神经学结果（n%）：不良（CPC > 2）545（66.5%）、良好（CPC ≤ 2）275（33.5%）
- 年龄（IQR），岁：70（60–79岁）73（65–81岁）68.0（58–77岁）
- 性别（n%）：男性532（64.9%）、女性288（35.1%）
- 首次记录的心律（n%）：非可电击436（53.2%）、可电击377（46.0%）
- ROSC到心电图的时间（IQR），分钟：7.0（3.6–15.0分钟）、5.0（3.0–12.1分钟）

2.3 模型开发
为了进行分类任务，开发了一个自定义的深度神经网络模型（DNN）。该模型架构包括一个输入层， followed by six fully connected（密集）层，每层的单元数量逐渐减少（512 → 256 → 128 → 64 → 32 → 1），每个层都穿插了dropout层以减轻过拟合（图1）。所有隐藏层都使用了ReLU激活函数，模型使用自适应矩估计（ADAM）（28）优化器进行了最多325个时代的训练，初始学习率为0.001。为了提高泛化能力，采用了提前停止策略（patience = 10），如果连续10个时代的验证性能没有改善，则终止训练。此外，还采用了学习率减少策略，即如果验证损失趋于平稳，则自动降低学习率，使模型更有效地收敛。在300个时代内，模型的训练准确率和验证准确率稳步提高，损失曲线也在下降。

图1 显示了用于临床预测任务的定制深度神经网络架构，包括顺序排列的密集层和dropout层，单元数量逐渐减少。

为了量化心电图衍生特征的增量预测价值，我们使用相同的训练/验证/测试分割（random_state=42）评估了三个模型：（1）仅包含年龄、性别、当时出现的心律和ROSC到心电图时间的纯临床模型；（2）仅使用心电图衍生描述符的纯心电图模型；（3）同时包含临床和心电图衍生特征的组合模型。性能在保留的测试集上进行了报告。心电图衍生特征的增量价值通过AUROC差异、马修斯相关性系数（MCC）、准确率和组合模型与纯临床基线之间的平衡准确率来量化（补充表S4和表S5）。模型评估基于准确率、敏感性、特异性、阳性预测值（PPV）、阴性预测值（NPV）、F1分数、AUROC和MCC。为了提高深度学习模型的可解释性，我们使用了SHapley Additive Explanations（SHAP）（29），这是一种事后可解释方法，用于量化每个输入特征对个体预测的贡献。一个正的SHAP值表明某个特征使得模型更倾向于预测较差的神经学结果（类别1），而一个负的SHAP值则表示该特征有助于良好的神经学结果（类别0）。SHAP值的大小反映了该特征对模型输出的影响力的强度。使用相同的分类指标来评估测试集上的表现，以确保可比性（表2）。为了评估校准情况，计算了校准图和Brier分数（即预测结果与观察结果之间的平均平方差异）。

表2
指标测试数据集
真正例（TP） 37
假正例（FP） 9
真正例（TN） 26
假负例（FN） 6
准确率（%） 80.77
平衡准确率（%） 80.17
敏感性/召回率（%） 86.05
特异性（%） 74.29
精确率/PPV（%） 80.44
阴性预测值（%） 81.25
假正例率（%） 25.71
假发现率（%） 19.57
假负例率（%） 13.95
F1分数（%） 83.15
ROC-AUC 86.00
马修斯相关系数 0.61

3 结果
3.1 研究人群
在研究期间接受复苏尝试的16,083名心脏骤停（OHCA）受害者中，有2,340人恢复自主循环（ROSC）。在这些患者中，1,233人的ROSC后的心电图可以提取，其中976份适合进行分析。出院时，641名患者死亡或神经学结果不佳，而335名患者存活且神经学结果良好（图2）。

图2
研究流程图

3.2 心脏骤停特征
患者主要为男性（64.8%），中位年龄为70岁（四分位数范围：60–79岁）。大多数心脏骤停具有推测的医学原因（94.5%），发生在家中（79.1%），并且有目击者（59.5%）或急救医疗服务（EMS）人员（24.7%）在场。46.2%的病例初始心律适合进行电击治疗，41.3%的病例由旁观者启动了心肺复苏（CPR）。更多细节见表3。

表3
心脏骤停特征
总人数差结果好结果
p值 <0.001
男性 632（64.8%） 375（58.5%） 257（76.7%）
女性 344（35.2%） 266（41.5%） 78（23.3%）
年龄（四分位数范围） 70.0（60.0–79.0） 73.0（63.0–81.0） 64.0（56.0–74.0）
原因 0.008
医学原因 922（94.5%） 593（92.5%） 329（98.2%）
窒息 30（3.1%） 28（4.4%） 2（0.6%）
创伤 16（1.6%） 14（2.2%） 2（0.6%）
过量 5（0.5%） 4（0.6%） 1（0.3%）
溺水 2（0.2%） 1（0.2%） 1（0.3%）
未知 1（0.1%） 1（0.2%） 0（0.0%）

心脏骤停地点 <0.001
家中 772（79.1%） 537（83.8%） 235（70.1%）
街头 90（9.2%） 51（8.0%） 39（11.6%）
公共建筑 28（2.9%） 10（1.6%） 18（5.4%）
其他 25（2.6%） 13（2.0%） 12（3.6%）
疗养院 24（2.5%） 19（3.0%） 5（1.5%）
运动场所 21（2.2%） 3（0.5%） 18（5.4%）
工作场所 15（1.5%） 8（1.2%） 7（2.1%）
学校 1（0.1%） 0（0.0%） 1（0.3%）

目击事件 <0.001
是（旁观者） 581（59.5%） 401（62.6%） 180（53.7%）
是（EMS） 241（24.7%） 107（16.7%） 134（40.0%）
否 133（13.6%） 118（18.4%） 15（4.5%）
未知 21（2.2%） 15（2.3%） 6（1.8%）

旁观者CPR 0.47
否 573（58.7%） 371（57.9%） 202（60.3%）
是 403（41.3%） 270（42.1%） 133（39.7%）

首次心律 <0.001
非电击节律 518（53.1%） 457（71.3%） 61（18.2%）
电击节律 451（46.2%） 180（28.1%） 271（80.9%）
未知 7（0.7%） 4（0.6% 3（0.9%）

存活至出院 <0.001
否 584（59.8%） 584（91.1%） 0（0.0%）
是 392（40.2%） 57（8.9%） 335（100.0%）
ROSC-ECG时间（四分位数） 7.0（3.5–15.0） 6.0（3.0–13.0） 8.0（4.9–20.0）

3.3 验证和测试数据集的表现
在独立的测试集上，我们的DNN模型达到了80.8%的准确率、86.1%的敏感性、74.3%的特异性、80.4%的精确率和83.1的F1分数。真正例率为86%，真正例率为74.3%。假负例率和假正例率分别为13.9%和25.7%，假发现率为19.6%。马修斯相关系数为0.61（表2）。ROC曲线显示出很强的区分能力，AUC为0.86（图3），校准性能良好（图4）。

图3
DNN模型的表现显示训练和验证准确率随时间增加（左图），以及0.86的测试AUROC，表明其具有很好的区分能力（右图）。

图4
模型校准性能：十等分分层图（左图）显示出不同风险组之间观察到的风险和预测风险之间的良好对齐，而校准图（右图）表明概率估计总体上可靠，尽管存在轻微偏差。

在增量值分析中（补充表S4和S5），仅使用临床数据的模型达到了0.80的AUC，而仅使用心电图数据的模型达到了0.77的AUC。与本研究的核心动机一致，将心电图特征与临床变量相结合显著提高了区分能力和整体分类性能，与仅使用临床数据的模型相比，绝对增益为ΔAUC +0.0563，这支持了心电图特征提供了超出临床预测因子的附加预后信息。

SHAP分析为模型的决策过程提供了有意义且可解释的洞察，如图5和补充图S2所示。对ROSC-ECG时间的分析显示，获取时间越早，出现与较差神经学结果相关的特征的机会越大。呈现的心律是最具影响力的预测因子：可电击心律强烈支持良好神经学结果的分类，而非电击心律则支持较差神经学结果的预测。模型还显示出明显的年龄依赖性：年龄越小，与良好神经学结果相关的概率越高。这种年龄相关趋势与心脏骤停后的临床预期一致。关于性别，模型表明男性更常与良好神经学结果预测相关，而女性则更常与较差结果预测相关，这可能反映了潜在的生理或治疗反应差异。

图5
SHAP散点图展示了（A）首次心律（心脏骤停期间记录的首次心律）、（B）ROSC-ECG时间（实现ROSC与首次12导联心电图获取之间的时间）、（C）年龄（心脏骤停时的患者年龄）和（D）性别（生物性别）对模型神经学结果预测的影响。

从排名最高的SHAP特征来看，我们将模型的关注点重新投射到心电图波形上，如补充图S3所示。这项基于前10个计算机视觉特征的分析步骤显示，ST段在模型预测中始终具有最高的重要性，其次是R峰。在SHAP的后续排名中，关注QRS复合体的视觉特征也有贡献，揭示了模型学习到的与神经学结果状态相关的细微形态模式。这些可解释的AI发现增强了我们模型预测的临床合理性，并通过为每次分类提供透明的理由，提高了其作为决策支持工具的实用性。

4 讨论
据我们所知，这项研究是首批利用ROSC后12导联心电图数据来评估心电图特征与ROSC后立即的神经学结果之间关联的机器学习方法之一。我们开发并内部验证了一种机器学习算法，旨在通过使用ROSC后的12导联心电图以及其他少数变量来支持出院时神经学结果的评估。该模型证明，整合心电图特征可以改善现场早期风险分层，在入院之前即可进行。除了其性能之外，我们工具的一个显著特点是它依赖于患者的个体数据，即ROSC后的心电图，这对于急救人员来说很容易获得，并且欧洲和美国指南都推荐将其用于诊断目的（11, 12）。需要进一步的外部验证来明确其普遍性和临床实用性。

4.1 ROSC后心电图的作用
建议在院前环境中获取ROSC后的12导联心电图，并据此决定是否需要进行紧急冠状动脉造影（11, 12）。它也是反映ROSC后患者状况的重要信息来源，可以帮助临床医生对患者进行分诊。在之前的研究中（30），我们展示了ROSC后低灌注与生存之间的关联，并探讨了ROSC后心电图发现与全身灌注之间的联系（31）。具体来说，我们发现严重的外周灌注减少可以通过心电图变化反映出来。这支持了ROSC后心电图可以预测生存率的观点，并且我们提出了一种基于心电图特征的评分方法（20）。该评分能够将患者分为三个死亡风险等级，表现相当好（Harrell's c为0.66）。基于此，我们旨在通过人工智能在这项研究中改进院前预后分层。

需要强调的是，在之前开发的评分（20）和当前的DNN模型中，S-T波段和R峰对模型预测都具有重要意义（补充图S3）。这些心电图特征在心脏骤停环境中最具信息量，并且与缺血后的变化临床相关。SHAP分析（补充图S2）显示，这些区域对模型解释有重要影响。特别是，ROSC到心电图的时间与结果相关这一点并不令人惊讶，也值得讨论。显然，这不是一个特定于患者的变量，但已知ST段在ROSC后可能会发生变化。早期检测到的ST段升高可能是由于全身缺氧或灌注不足（31），而不是冠状动脉阻塞。这意味着即使在ROSC后立即检测到ST段升高，原因也可能不是STEMI，从而导致较低的生存率（32）。这种模式也可能反映了早期采集时的生理不稳定性的影响，而延迟采集则可能发生在部分临床稳定之后。此外，后期的心电图采集可能会选择相对情况较好的患者，因为病情更严重的患者可能在后期心电图被获取之前恶化或死亡。

通过我们的ML模型，预后性能得到了提升，并减少了入院前需要的心脏病学解释需求。

4.2 性能和优势
我们的DNN模型的稳健性体现在其应用于来自超过30家医院的广泛地理区域的心电图时的有效性。由于该工具使用了来自不同监测仪/除颤器的Electrocardiogram（ECG）数据，因此可以不受设备限制地应用。该工具不需要训练有素的人员，易于使用且成本效益高。由于我们包括了所有类型的心脏骤停——其中医学原因最为常见——我们的模型可以广泛且容易地用于所有心脏骤停病例。此外，它不受观察者主观性的影响，因此代表了一种可能的标准化形式。由于机器学习的本质，模型是灵活且可改进的。这意味着模型目前的性能已经很好，通过提供更多的ROSC后心电图数据，其性能可能会进一步提高。

4.3 与现有出院后生存预测因子的比较
心脏骤停后生存的预测是医学领域最具挑战性、也是最引人入胜的领域之一，尤其是在院前环境中。预测的目的取决于预测的时间。它可能在启动高级生命支持（ACLS/ALS）之前进行（9, 10），以估计持续ROSC的机会，从而指导复苏努力；在ACLS/ALS期间，帮助指导复苏工作（33, 34）；在ROSC后，将死亡风险较高的患者引导到最合适和设备齐全的医院（8）；或者，在入院后，支持治疗撤回，以防止不必要的护理（4–7）。在院前环境中，主要目标是保持患者存活并通过选择最适当的治疗和根据其临床状况进行分诊来提高他们的生存机会。这与我们的模型一致。因此，我们的模型略微高估死亡或出院时较差神经学结果的风险并不令人惊讶。在院前环境中，轻微的高估风险优于避免救援人员剥夺患者适当的高级护理。这与在ICU入院后48–72小时进行的多参数方法不同，那时如果认为结果不可避免，医生必须做出治疗撤回的决定（3）。在这种情况下，低估不良结果的模型更可取，以减少不必要的护理。

文献提供了一些旨在预测出院时神经学结果的院内评分，如OHCA评分（7）、CAHP评分（5）、TTM评分（6）和MIRACLE2评分（4）（补充表S6）。尽管它们的适用环境不同（院前 vs. 院内），并且因此它们的主要目标也不同，但我们的模型是第一个基于ROSC后心电图在院前环境中调查神经学结果的模型，而不依赖于传统统计方法。Adrie等人开发的OHCA评分使用了130名住院的成人心脏骤停患者，并在210名患者队列上进行了验证，显示出在出院时预测死亡或严重神经功能障碍（CPC >2）的良好性能，AUC为0.82（95% CI：0.70–0.95）。然而，该评分中包含的变量是乳酸和肌酐，这些在院前环境中是不可用的（7）。同样，Maupan等人在巴黎开发的CAHP评分使用了动脉pH值，与ROSC后心电图相比，后者远不如前者常见（5）。马丁内尔（Martinell）提出的TTM评分以及帕里克（Pareek）等人开发的MiRACLE2评分，通过利用非反应性的瞳孔和动脉pH值（4, 6）来预测患者6个月时的神经学预后。尽管这些评分的预测准确性都相当不错，但它们在院前急救环境中的应用却并不可行。目前唯一一个旨在预测患者出院时生存状况的院前评分是ACLS评分（8），该评分由艾森伯格（Eisenberg）等人在40多年前发表于《美国医学会杂志》（JAMA），研究基于美国西雅图郊外的611名心脏骤停患者数据。与其他院前评分（9, 10）类似，ACLS评分所包含的变量并非以患者为中心，而是侧重于心脏骤停的特定情况，如目击者观察到的心脏骤停状态、患者出现的节律、旁观者是否发起的心肺复苏（CPR）以及急救人员的响应时间。此外，该评分在外部验证中也未能通过（35）。相比之下，我们的深度神经网络（DNN）模型具有多个优势：（1）它与患者出院时的生存状况及良好的神经学预后相关；（2）在测试集中，其准确率AUC达到了0.86（见图3）；（3）它依赖于直接从患者身上获取的数据——即心脏骤停恢复后（ROSC）的心电图（ECG），而这份心电图也能反映患者的系统灌注状况。虽然心脏骤停的特征对患者的预后无疑非常重要，但仅基于这些因素来制定风险评分可能会使风险评估对于情况截然不同的患者产生偏向。相反，12导联心电图能够为每位复苏后的患者提供更加个性化的风险评估。

4.4 限制因素
本研究存在一些局限性：
（1）这是一项基于意大利队列的复苏后ECG（post-ROSC ECG）的回顾性评估。尽管我们提供了一个包含模型未见过的数据的验证集，但仍然需要在更大规模的队列中进行验证，并且还需要进行前瞻性研究，这些队列的ECG数据应来自其他国家。
（2）该模型尚未纳入心脏骤停的某些情境因素，如发生地点、患者被发现时的具体情况、血液流动是否受阻或流动缓慢、在ACLS过程中使用的药物以及是否使用了机械胸外按压设备。我们特意采用这种方法，是为了给复苏后ECG在预测神经学预后时赋予适当的权重。一旦确定了神经学预后与复苏后ECG之间的关联，后续研究将纳入更多Utstein相关变量。我们预计，整合关键的心脏骤停相关因素（如从心脏骤停到复苏的时间、药物使用情况以及机械胸外按压的应用），结合复苏后ECG的特征，将进一步增强神经学预后的预测能力并提高模型整体的性能。
（3）尽管排除了质量不佳的ECG数据，但由于PDF格式中的图像异常或缺失数据，部分数据仍可能被模型错误分类。我们相信，通过增加ECG数据的数量，可以降低误分类的发生率。
（4）由于这项研究是在意大利伦巴第地区的特定急救医疗服务（EMS）组织内进行的，该工具的通用性可能因各地EMS策略的不同而有所差异（例如，是等待患者稳定后再转运还是立即进行转运并持续进行CPR）。不同国家EMS系统的团队组成、操作协议和记录实践的差异可能会影响模型的实施可行性及其预后预测能力。未来的工作将包括外部验证，以评估该模型在国际范围内的适用性，理想情况下应采用前瞻性方法进行。
（5）由于心电图数据是从数字文件（PDF/JPEG）中分析得出的，且使用了基于图像的描述符，因此出口分辨率、压缩比例以及网格/背景质量的变化可能会影响特征的稳定性，尽管我们进行了固定的300 DPI转换和预处理。
（6）尽管训练/验证/测试数据的划分是根据预后结果进行的，但并未根据其他变量（如患者出现的节律）进行分层，而且所有数据都在同一数据集内进行分析；因此，不同子集之间的残留分布差异以及可能存在的队列特异性模式可能导致内部估计结果过于乐观。我们通过报告平衡的准确率/MCC值和提供子集级别的基线特征（见表1、表2）来缓解这一问题，未来的工作将包括重复的交叉验证和前瞻性外部验证。

5 结论
据我们所知，这是首个基于复苏后12导联心电图（post-ROSC ECG）设计的机器学习工具，旨在帮助评估院前急救环境中的神经学预后。我们的DNN模型旨在成为一个易于应用的工具，可用于早期区分院外心脏骤停患者的预后情况，从而协助急救人员做出关于ACLS治疗、患者分诊和转运的决策。需要进一步的外部验证来评估该工具在各种医疗系统中的普遍适用性和临床效用，尤其是考虑到全球EMS组织和实践的多样性。

热点排行