用于提升单导联心电图分类性能的诊断特征重构
齐晨浩(Chenhao Qi)
郭宇(Yu Guo)
杨启平(Qiping Yang)
胡一辰(Yichen Hu)
陈媛媛(Yuanyuan Chen)
范秋云(Qiuyun Fan)
陈康垠(Kangyin Chen)
《Sensors》:Diagnostic Feature Reconstruction for Enhanced Single-Lead ECG Classification
Chenhao Qi,
Yu Guo,
Qiping Yang,
Yichen Hu,
Yuanyuan Chen,
Qiuyun Fan and
Kangyin Chen
【字体:
大
中
小
】
时间:2026年05月10日
来源:Sensors 3.5
编辑推荐:
亮点
- 主要发现是什么?
- 特征重建有效地将12导联诊断信息转移到单个导联上。
- 特征重建与交叉注意力融合的结合提高了单个导联信号的区分度。
- 主要发现的意义是什么?
- 缩小这种诊断差距使可穿戴式心电图在日常监测中变得非常可靠。
- 这种策略为其他传感器有限的医学领域提
亮点
- 主要发现是什么?
- 特征重建有效地将12导联诊断信息转移到单个导联上。
- 特征重建与交叉注意力融合的结合提高了单个导联信号的区分度。
- 主要发现的意义是什么?
- 缩小这种诊断差距使可穿戴式心电图在日常监测中变得非常可靠。
- 这种策略为其他传感器有限的医学领域提供了一个可适应的范例。
摘要
虽然标准12导联心电图对心血管疾病诊断至关重要,但其对临床环境的依赖限制了其日常使用。可穿戴式少导联设备提供了一种实用的替代方案,但由于导联覆盖范围的减少,其在诊断能力上有所削弱。为了解决这一信息差距并提高单个导联心电图的诊断性能,我们提出了一种基于特征重建的分类方法。该方法利用预训练的12导联心电图模型提取代表性特征,并指导单个导联信号的特征学习过程。引入了一个基于CNN-Transformer的多尺度特征提取模块,以实现稳健的心电图特征提取,随后是一个基于Transformer编码器的重建模块,将单个导联特征与更具区分度的12导联表示对齐。一个基于交叉注意力的特征融合模块将重建的特征和原始特征结合起来,以提高分类性能。通过关注特征重建而非信号重建,我们的方法有效避免了通常由信号重建错误和导联间冗余引起的性能下降,从而获得了更好的分类结果。在两个公开数据集上的评估表明,我们的方法提高了特征区分度,并改善了单个导联心电图的分类性能,验证了其稳健性和实际潜力。
1. 引言
心血管疾病(CVD)是全球主要的死亡原因之一。根据世界卫生组织(WHO)的数据,2021年全球因心血管疾病导致的死亡人数超过了1790万,占总死亡人数的31%以上[1]。心律失常是一种常见的心血管疾病,其特征是心脏跳动不规则。许多类型的心律失常,如心房颤动(AF)和心室颤动(VF),都极其危及生命。因此,及时检测和准确分类心律失常对于预防和治疗心脏病具有重要意义。
心电图(ECG)已成为临床评估和诊断心脏病最常用的工具之一[2,3]。12导联心电图通过六个肢体导联和六个胸部导联能够描绘心脏电活动的空间分布,提供多视角和多方向的心脏电信号,使临床医生能够更准确地识别和诊断心脏异常。尽管12导联心电图具有很高的诊断价值,但其广泛的应用仍受到实际操作限制的制约。标准12导联心电图系统通常安装在医院或医疗机构中,其使用需要专业医疗人员的操作并连接多个电极[4]。因此,尽管12导联心电图在诊断准确性方面具有无与伦比的优势,但由于其对特定环境的强烈依赖性和操作不便,其应用范围受到了限制。
随着可穿戴技术的进步,越来越多的轻量化智能可穿戴设备提供了一种低成本且覆盖范围广的解决方案[5,6,7]。可穿戴心电图设备旨在让患者能够通过简化方法自行收集心电图数据,但这也导致了导联数量的减少——通常结果为单个导联心电图。然而,单个导联心电图只能从单一角度记录心脏电活动,缺乏多个导联之间的空间互补信息,这使得捕捉局部异常变得困难,其在识别心血管疾病方面的准确性远低于12导联心电图。
生成式人工智能促进了用于重建缺失导联心电图信号的模型的发展[8,9,10]。这些模型旨在从可用导联的子集预测完整12导联心电图。然而,较少的导联(尤其是单个导联)提供的信息有限,因此生成的信号质量可能较低,可能会影响基于心电图的诊断系统的可靠性。与其在信号层面直接重建所有12个导联,不如在特征层面进行操作,这种方法侧重于区分性特征并避免了原始12导联信号的冗余。目标是从单个导联学习出近似于完整12导联心电图区分性特征的中间表示,从而提高下游分类器的性能。为了缩小单个导联心电图系统和标准12导联心电图系统之间的诊断性能差距,本文提出了一种基于特征重建的单导联心电图分类网络(SLFR-Net)。该框架采用CNN-Transformer模块从单个导联输入中提取多尺度特征,由预训练的12导联分类模型提供的区分性特征进行指导。然后,基于Transformer的重建模块将这些特征与全面的12导联特征空间对齐。最后,基于交叉注意力的特征融合模块将重建的特征和原始特征结合起来,产生了一个显著提高诊断准确性的稳健表示。关键在于,通过在特征层面操作,我们的方法简化了重建过程,避免了信号层面重建常见的限制,在大多数实验场景中显示出比传统单个导联模型更高的准确性和稳定性。
我们的贡献可以总结如下:
- 我们引入了一种基于特征层面的重建范式,取代了传统的波形层面方法进行单个导联心电图分类。通过在语义特征层面操作,而不是进行点对点拟合,我们的方法降低了复杂性,同时更好地服务于下游分类目标。
- 我们设计了一个交叉注意力特征融合模块,将原始特征和重建特征结合起来。该模块有效地平衡了原始信号的细粒度细节与重建特征的高层次语义信息,增强了最终表示的稳健性。
- 通过对两个公开数据集的实验,我们证明了特征层面重建在各种导联配置下始终优于信号层面方法,为资源受限的心电图分析领域的研究提供了宝贵的见解。
2. 相关工作
2.1 基于深度学习的心电图分类
近年来,由于其强大的特征提取能力,深度学习被广泛应用于心律失常的自动心电图分类。这类方法通常采用复杂的网络架构,能够发现输入信号中的潜在特征相关性,显著提高了它们在复杂建模任务中的性能。
卷积神经网络(CNN)因其强大的捕获局部形态模式(如P波、QRS复合波和T波)的能力,已成为自动心电图分类的首选。Kirany等人[11]将特征提取和分类模块集成到一个统一的学习框架中,实现了无需人工特征工程的高效个性化心跳分类。Hannun等人[12]提出了一个端到端的深度神经网络,能够识别十二种心律失常类型,包括心房颤动和室性心动过速,其诊断性能可与心脏病专家相媲美。
鉴于心电图信号的明显时间特征和长期依赖性,研究人员逐渐引入了循环神经网络(RNN)和注意力机制来捕捉心跳间的序列信息和上下文相关性。Zihlmann等人[13]提出的混合CNN-LSTM架构有效地检测了阵发性心房颤动事件,证明了卷积-循环混合模型在心电图序列分类中的有效性。最近,Transformer因使用自注意力捕获心电图数据中的复杂依赖性而受到关注,并展示了最先进的结果[14,15,16]。
准确解释心电图信号需要在多个时间尺度上进行特征提取,因为生理模式从细粒度的波形到长期节奏不等。此外,最佳卷积尺度因导联类型和患者人口统计特征而显著变化。研究表明[17],即使对模型感受野进行微调也会显著影响时间序列分类性能——这一发现同样适用于心律失常检测。因此,多尺度特征学习对于高精度的心电图分类至关重要,多项研究[14,18]确认了它在实现稳健检测准确性方面的关键作用。
一些研究人员观察到标准12导联心电图包含大量的信息冗余,这可能导致模型过拟合和泛化能力有限,并证明减少这种冗余可以提升模型性能[19,20]。例如,Ramirez等人[21]分析导联间的冗余后发现,对于某些心脏状况,使用较少的导联不会影响诊断准确性,甚至可能提高诊断准确性。这些发现对于通道受限的应用具有实际价值,例如开发高效或轻量级的可穿戴心电图设备。
随着可穿戴设备的广泛采用,基于少导联心电图的分类研究受到了越来越多的关注[22,23,24,25]。目前主流的可穿戴系统主要使用I导联配置[5,26,27]。当前的研究主要集中在特定心律失常的检测上[28,29,30]。例如,Ma等人[31]基于xResNet50从连续可穿戴心电图记录中实现了超过90%的心房颤动检测准确率。其他研究还表明,神经网络也可以从单个导联心电图中诊断心肌梗死[32,33,34]。然而,这些方法大多仅限于识别单一类型的疾病。
2.2 少导联心电图分类
单个导联心电图与多导联心电图在诊断准确性方面存在显著差距。这一差异主要是由于单个导联心电图仅从单一角度记录心脏电活动,实际上是12导联心电图的局部投影,因此无法完全捕捉心脏电活动的空间分布。为了解决这一限制,研究人员提出了各种心电图重建方法。
Lee等人[35]开发了一种基于R峰对齐的生成对抗网络(GAN),以克服便携式心电图设备因导联有限而无法获得临床所需胸部导联的问题。在这种方法中,使用II导联作为输入,一维心电图信号首先被转换为二维图像,然后使用条件GAN生成目标胸部导联——提供了一种从单个导联输入补充胸部导联信息的可行途径。为了直接从单个导联输入生成完整的12导联心电图,Seo等人[36]提出了一个基于GAN的多导联心电图合成框架,该框架以单个I导联信号为输入,通过条件GAN端到端地合成剩余的十一个导联。与Lee等人的方法相比,这种方法消除了将一维时间序列数据转换为二维表示的需要,显著简化了信号预处理,同时产生了更高质量的重建输出。
一些研究进一步将重建的心电图信号集成到心血管疾病分类任务中。Joo等人[37]提出了EKGAN模型,该模型采用双生成器架构,其中标签生成器指导推理生成器学习关键生理特征,从而增强了重建信号的生理一致性和诊断适用性。EKGAN从I导联输入重建12导联心电图,实现了与心脏病专家相当的诊断准确性。Akshit Garg等人[10]利用改进的基于注意力的U-Net从II导联信号重建10秒12导联心电图,并将其应用于27类心血管疾病分类任务,实现了与原始12导联信号相当的准确率。Zhan等人[38]通过比较实验直接验证了重建信号的诊断价值:通过结合条件GAN和R峰对齐策略,他们实现了重建心电图与真实12导联心电图之间的平均相关系数为0.742。在心律失常分类中,使用重建信号的模型的准确率为0.74——显著高于原始单个导联模型(0.71),并且接近原始12导联模型(0.81)——有效地缩小了两者之间的诊断性能差距。
3. 方法
如图1所示,所提出的方法由两个主要组成部分组成:一个预训练的12导联心电图分类模型和SLFR-Net。使用基于CNN-Transformer的多尺度特征提取网络为两个模型提取区分性特征。在单个导联路径中,加入了重建模块,从原始单个导联表示生成更具区分性的特征。然后将重建的特征与原始单个导联特征融合,进行最终分类。模型主要阶段的张量大小变化如表1所示。在以下小节中,我们将详细介绍每个模块。
图1. SLFR-Net的架构。预训练模型包括一个特征提取模块和一个分类器;预训练模型的特征提取模块输出的特征向量作为SLFR-Net重建模块的重建目标。SLFR-Net包括一个特征提取模块、一个重建模块、一个特征融合模块和一个分类器。Patch + Pos:带有位置编码的特征;GT:表示数据集中样本的真实标签的缩写;pred:模型的预测。
表1. 模型主要阶段的张量大小变化。
3.1ECG特征提取
ECG信号同时包含局部形态特征和全局时间特征[39]。局部波形(如P波和QRS复合波)反映了细粒度的电活动,其中幅度、持续时间和形态的微妙变化通常表明特定的心脏异常。在更广泛的层面上,ECG节律揭示了长期模式,如心率变异性和心律失常序列,反映了心脏在整个时间范围内的电行为。这些基于节律的特征提供了诊断信息,这些信息补充了单独的局部波形分析,并且往往无法完全通过局部波形分析获得。因此,一个有效的特征提取框架应该整合局部形态特征和全局基于节律的特征表示,以实现更准确和全面的ECG解释。在这项研究中,我们设计了一个特征提取模块,使用CNN提取局部ECG特征,使用Transformer[40]提取全局依赖性。
全尺度卷积神经网络(OS-CNN)[17]是一种基于多尺度卷积的卷积神经网络架构,能够通过不同尺度的卷积核从ECG信号中提取多尺度特征。对于ECG分类任务,由于生理差异,最佳感受野可能因个体而异。与传统的CNN相比,OS-CNN可以更有效地适应不同的特征尺度,从而获得更适合ECG表示和分类的感受野。因此,本研究使用OS-CNN作为第一层来捕获多尺度ECG表示。此外,本研究将Squeeze-and-Excitation(SE)[41]模块集成到OS-CNN中,如图2所示,使模型能够自适应地重新调整多尺度特征的重要性。
OS-CNN中的1、2、3…k代表卷积核的大小,而n表示CNN块的数量。在OS-CNN之后,应用CNN-Block来简化提取的多尺度ECG特征,减少维度并提炼最具区分性的信息。CNN-Block的详细结构如图2所示。在CNN-Block的每个卷积层之后,首先应用批量归一化和ReLU激活函数。然后,结果特征通过SE模块,从而加强特征表示。CNN-Block的第一个和第三个卷积层使用1大小的卷积核,而第二个层使用3大小的深度卷积。第一个卷积层执行通道扩展,接着是深度卷积以实现空间滤波。最终的卷积层完成通道压缩。这种设计有效地降低了后续操作的计算复杂度,同时保留了关键特征。
最后,在基于CNN的局部特征提取之后,应用一个四层Transformer模块来捕获全局ECG模式。通过其自注意力机制,模型计算所有时间步骤之间的依赖性,使其能够识别长距离的生理关系——例如从P波到QRS复合波和T波的进展。
3.2. 从单导联到12导联的特征重建
与传统的先完全重建12导联ECG波形再进行分类的方法不同,我们的方法直接从单导联特征重建出一个具有区分性的12导联特征向量。目标12导联特征来自一个在12导联数据上训练的预训练模型,用于诊断任务。预训练模型包括上述小节中描述的基于CNN–Transformer的多尺度特征提取模块,然后是一个分类器。我们将多尺度特征提取模块定义为Efull,其前向过程可以表示为:
(1)
(2)
其中X是输入的12导联ECG,θ是Efull的参数,Ffull是来自特征提取模块的特征向量,Wpre和bpre是分类器的权重矩阵和偏置,Ppre表示预测结果。一旦训练完成,该模型提供了区分性特征表示,从而指导从单导联特征重建12导联特征。对于12导联和单导联输入,使用相同的特征提取架构。唯一的区别在于输入通道的数量。
本研究引入了一个基于Transformer编码器的框架,如图3所示,将单导联ECG特征与更具区分性的12导联ECG特征对齐。该模块使用自注意力机制学习从单导联到12导联特征表示的直接映射,捕获全局依赖性,而不受局部感受野的限制。编码器具有两层,以平衡模型容量和计算效率。单导联输入的特征、目标12导联特征(由预训练模型提取)和重建的特征分别表示为Fsingle、Ffull和Frec。
3.3. 交叉注意力引导的特征融合,以增强单导联ECG分类
在获得单导联特征Fsingle和重建特征Frec之后,我们在特征融合模块中结合它们,利用它们互补的优势。虽然Frec提供了更全面的表示,但它可能包含伪影;相反,Fsingle稳定但信息有限。如图1所示,特征融合模块包括一个交叉注意力层,然后是一个自注意力层。在交叉注意力阶段,Fsingle被投影到键(K)向量和值(V)向量,而Frec被映射到查询(Q)向量。查询和键之间的相互作用用于加权值向量,产生一个初始的融合表示:
(4)
然后这个输出通过一个自注意力层,以捕获内部依赖性。它作为一种自适应的细化机制,增强信息特征,抑制冗余或噪声信息,并使网络专注于重要位置和区分性组件。所提出的融合策略保留了原始信号的鲁棒性和重建特征的增强区分性。这使得模型能够捕捉更完整的心电图特征,提高在单导联约束下的鲁棒性和泛化能力。
得到的表示传递给分类器,分类器对特征应用全局平均池化和全局最大池化,然后是全连接层和softmax激活,以产生最终预测:
(5)
其中Wpred和bpred是可学习的权重和偏置参数,Fenhance表示特征融合模块输出的增强特征表示。分类器输出显示了单导联ECG分析系统所实现的改进分类性能。
3.4. 损失函数
本研究使用了两种损失函数来监督所提出网络的训练。它们是方程(3)中的L1损失(L1)和多类交叉熵损失(LCE)。L1损失限制重建模块保留区分性特征,同时避免过度平滑。多类交叉熵损失衡量预测分布和真实标签分布之间的差异。总训练损失(LTotal)定义为两个组分的加权和:
(6)
其中α是平衡每个损失项贡献的权重系数。
4. 实验设置
4.1. 数据库
SLFR-Net在两个公共数据集CPSC2018和CODE-15%上进行了评估,描述如下:
(1) 2018年中国生理信号挑战(CPSC 2018)[42]提供了来自11家医院的6877份公开的12导联ECG记录。记录的长度从6秒到60秒不等,采样频率为500 Hz。该数据集涵盖了九种心脏节律类型,包括正常节律和八种心律失常类别。在本研究中,每个ECG记录仅保留了主要诊断标签,并排除了低质量的部分。得到的数据集分布见表2。
(2) CODE-15%数据集[43]是一个大规模的多类12导联ECG数据集,包含345,779个样本。每个样本的持续时间为10秒,采样频率为400 Hz。该数据集包括正常ECG、六种疾病标记的ECG以及额外的异常ECG。为了保持任务一致性,我们仅使用了单标签样本,包括30,000个随机选择的正常案例和所有可用的唯一标记的异常案例,共64,104条记录用于实验,如表3所示。
4.2. 实施细节
对于这两个数据集,首先排除了低质量的ECG记录,然后进行了预处理程序,包括去噪和归一化。具体来说,移除了不完整的记录和具有显著幅度异常的记录。在预处理阶段,CPSC 2018数据集中的ECG信号被标准化为20秒的固定长度,对于较短的记录使用零填充,对于较长的记录则进行截断。对于训练数据,在信号前后随机分布零填充,同时保持总持续时间为20秒。对于非训练数据,仅在信号末尾应用零填充。然后使用三阶巴特沃斯带通滤波器(0.05–48 Hz)对所有信号进行去噪,以抑制基线漂移和高频噪声,并使用z分数归一化进行归一化,然后下采样到250 Hz以确保一致性并提高计算效率。
预处理后的数据被分为训练集、验证集和测试集,比例为7:1:2。分割是在患者级别进行的,以防止数据泄露。为了解决类别不平衡问题,在训练期间使用了类别平衡采样策略来随机选择样本。尽管这种策略可能导致少数类样本被重复采样,但它有助于减轻类别不平衡对模型训练的影响。所有实验都是在PyTorch 1.12.1框架下进行的,使用了两个NVIDIA GTX 3090 GPU(每个24 GB)。在训练期间,首先使用12导联ECG数据对12导联模型进行预训练。训练完成后,该预训练模型的所有参数被冻结,SLFR-Net在相同的数据库上的单导联ECG上进行训练,同时使用预训练模型输出的特征向量来监督SLFR-Net。这种实验设计在保持数据一致性的同时防止了两个任务之间的数据泄露。网络训练了120个周期,批量大小为128。使用Adam优化器进行自适应学习率调整:当损失连续5个周期没有减少时,学习率降低到之前的值的一半。初始学习率设置为1 × 10?4,最小学习率设置为1× 10?7。
4.3. 评估指标
使用了几种常见的指标来评估模型性能。准确性衡量正确分类样本的比例。精确度、召回率、F1分数和AUC是通过宏平均(对所有类别的平均指标值)计算的,以反映不受类别分布影响的整体性能。
5. 实验结果
5.1. 在CPSC2018数据集上的结果
如表4所示,所提出的基于特征重建的分类模型在CPSC2018数据集的所有指标上,相对于单导联基线模型显示出性能提升,准确率、召回率和F1分数的提高超过6%。统计显著性分析表明这些改进是显著的(p < 0.001),表明观察到的改进是有意义的。这些结果验证了特征重建方法的有效性。然而,与12导联模型相比,仍然存在性能差距。
为了直观地展示单导联和SLFR-Net之间的性能差距,我们使用T-SNE图来可视化特征分布。如图4所示,单导联模型在不同类别之间的特征混淆程度不同,正常、ST段压低(STD)和ST段抬高(STE)类别之间的重叠最为严重。相比之下,SLFR-Net展示了更清晰的类别间分离,每个类别的特征分布都有明显的改进。这表明SLFR-Net有效补偿了单导联ECG在识别特定心律失常方面的诊断限制。
5.2. 单导联ECG分类的跨注意力引导的特征融合
在获得单导联特征Fsingle和重建特征Frec之后,我们在特征融合模块中结合它们,以利用它们的互补优势。虽然Frec提供了更全面的表示,但它可能包含伪影;相反,Fsingle稳定但信息有限。如图1所示,特征融合模块包括一个交叉注意力层,然后是一个自注意力层。在交叉注意力阶段,Fsingle被投影到键(K)和值(V)向量,而Frec被映射到查询(Q)向量。查询和键之间的相互作用用于加权值向量,产生一个初始的融合表示:
(4)
然后这个输出通过一个自注意力层,以捕获内部依赖性。它作为一种自适应的细化机制,增强信息特征,抑制冗余或噪声信息,并使网络专注于重要位置和区分性组件。所提出的融合策略保留了原始信号的鲁棒性和重建特征的增强区分性。这使得模型能够捕捉更完整的心电图特征,在单导联约束下提高鲁棒性和泛化能力。
得到的表示传递给分类器,分类器对特征应用全局平均池化和全局最大池化,然后是全连接层和softmax激活,以产生最终预测:
(5)
其中Wpred和bpred是可学习的权重和偏置参数,Fenhance表示特征融合模块输出的增强特征表示。分类器输出展示了单导联ECG分析系统所实现的改进分类性能。
5.3. 损失函数
本研究使用了两种损失函数来监督所提出网络的训练。它们是方程(3)中的L1损失(L1)和多类交叉熵损失(LCE)。L1损失限制重建模块保留区分性特征,同时避免过度平滑。多类交叉熵损失衡量预测分布和真实标签分布之间的差异。总训练损失(LTotal)定义为两个组分的加权和:
(6)
其中α是平衡每个损失项贡献的权重系数。
4. 实验设置
4.1. 数据库
SLFR-Net在两个公共数据集CPSC2018和CODE-15%上进行了评估,描述如下:
(1) 2018年中国生理信号挑战(CPSC 2018)[42]提供了来自11家医院的6877份公开的12导联ECG记录。记录长度从6秒到60秒不等,采样频率为500 Hz。该数据集涵盖了九种心脏节律类型,包括正常节律和八种心律失常类别。在本研究中,每个ECG记录仅保留了主要诊断标签,并排除了低质量的部分。得到的数据集分布见表2。
(2) CODE-15%数据集[43]是一个大规模的多类12导联ECG数据集,包含345,779个样本。每个样本的持续时间为10秒,采样频率为400 Hz。该数据集包括正常ECG、六种疾病标记的ECG以及额外的异常ECG。为了保持任务一致性,我们仅使用了单标签样本,包括30,000个随机选择的正常案例和所有可用的唯一标记的异常案例,共64,104条记录用于实验,如表3所示。
4.2. 实施细节
对于这两个数据集,首先排除了低质量的ECG记录,然后进行了包括去噪和归一化在内的预处理程序。具体来说,移除了不完整的记录和具有显著幅度异常的记录。在预处理阶段,CPSC 2018数据集中的ECG信号被标准化为20秒的固定长度,对于较短的记录使用零填充,对于较长的记录则进行截断。对于训练数据,在信号前后随机分布零填充,同时保持总持续时间为20秒。对于非训练数据,仅在信号末尾应用零填充。然后使用三阶巴特沃斯带通滤波器(0.05–48 Hz)对所有信号进行去噪,以抑制基线漂移和高频噪声,使用z分数归一化进行归一化,然后下采样到250 Hz以确保一致性和提高计算效率。
预处理后的数据然后被划分为训练集、验证集和测试集,比例为7:1:2。分割是在患者级别进行的,以防止数据泄露。为了解决类别不平衡问题,在训练期间使用了类别平衡采样策略来随机选择样本。尽管这种策略可能导致少数类样本被重复采样,但它有助于减轻类别不平衡对模型训练的影响。所有实验都是在PyTorch 1.12.1框架下进行的,使用了两个NVIDIA GTX 3090 GPU(每个24 GB)。在训练期间,首先使用12导联ECG数据对12导联模型进行预训练。训练完成后,这个预训练模型的所有参数被冻结,SLFR-Net在同一数据集上的单导联ECG上进行训练,同时使用预训练模型输出的特征向量来监督SLFR-Net。这种实验设计在保持数据一致性的同时防止了两个任务之间的数据泄露。网络训练了120个周期,批量大小为128。使用Adam优化器进行自适应学习率调整:当损失连续5个周期没有减少时,学习率降低到其之前的值的一半。初始学习率设置为1 × 10?4,最小学习率设置为1× 10?7。通过比较不同类别的结果,可以观察到在心房颤动(AF)类别中,单导联模型和12导联模型之间的性能差距相对较小,而在其他类别中存在较大的差距。与单导联基线相比,SLFR-Net在所有类别中都提高了分类性能,证明了其有效从I导联心电图中恢复判别性信息的能力。然而,与12导联模型的性能差距仍然存在,这可能是由于重建某些由多个导联唯一捕获的关键特征的固有挑战。对于心房颤动、房性早搏(PAC)和室性早搏(PVC)等心律失常,这些心律失常具有明显的电生理特征,SLFR-Net的准确率达到了或超过了12导联模型的水平。这表明重建的特征有效地捕捉了关键的诊断信息,而全面的12导联输入可能会引入冗余,从而限制了模型在这些特定任务中的效率。值得注意的是,单导联模型和SLFR-Net在 STE 类别中的表现都较差。这一结果可能归因于数据集中 STE 病例的数量有限,无法为其独特特征的学习提供充分的基础。图5. 三个模型在 CPSC2018 数据集上的混淆矩阵:(a) 单导联模型,(b) SLFR-Net,(c) 12导联模型。图6. 不同模型在各个类别上的 F1 分数表现(CPSC2018 数据集)。
5.2. 在 CODE-15% 数据集上的结果
与 CPSC2018 数据集相比,CODE-15% 数据集的样本量更大,类别数量更少。因此,单导联模型、提出的重建模型和12导联模型都表现出更好的整体性能。如表5所示,SLFR-Net 在所有评估指标上均优于单导联模型。统计显著性分析表明这些改进是显著的(p < 0.001),表明观察到的提升是有意义的。图7 展示了每个模型的混淆矩阵。与 CPSC2018 数据集上的结果类似,SLFR-Net 在大多数类别中提升了分类性能。同时,随着可用于训练的心电图数据量的增加,SLFR-Net 在多个类别中的表现能够与12导联模型相媲美。这一结果进一步验证了基于特征重建方法的可靠性,并突显了其在一般心电图分类任务中的应用潜力。表5. 在 CODE-15% 数据集上的特征重建实验结果。图7. 三个模型在 CODE-15% 数据集上的混淆矩阵:(a) 单导联模型,(b) SLFR-Net,(c) 12导联模型。
5.3. 对比实验
我们在 CPSC2018 和 CODE-15% 数据集上将 SLFR-Net 与基于信号重建的方法和知识蒸馏(KD)方法进行了比较。基于重建的方法首先从单导联(I导联)输入重建12导联心电图,然后进行分类。EKGAN [37] 和多通道掩码自编码器(MCMA)[44] 在与本研究相同的设置下进行了训练,以确保公平比较。GAN [38] 的结果直接来自其原始文献。由于GAN在其原始研究中未在 CODE-15% 数据集上进行评估,因此没有将其包含在此数据集的比较中。选择了两种典型的知识蒸馏方法进行比较,包括基于逻辑斯的蒸馏和基于特征的蒸馏,其中12导联模型作为教师模型,单导联模型作为学生模型。基于特征的蒸馏在两种设置下进行,使用L1损失和Kullback–Leibler(KL)散度来监督最后四层的中间特征。具体结果如下表6和表7所示。表6. 在 CPSC2018 数据集上基于重建信号和知识蒸馏的SLFR-Net与分类方法的比较。表7. 在 CODE-15% 数据集上基于重建信号和知识蒸馏的SLFR-Net与分类方法的比较。
基于两个数据集的对比结果,SLFR-Net 表现更好,并在多个指标上达到了最佳或接近最佳的结果。在更具挑战性的 CPSC2018 数据集上,基于特征重建的方法取得了显著的性能提升。在 CODE-15% 数据集上,尽管单导联模型和12导联模型之间的差距较小,改进的空间有限,SLFR-Net 仍保持了竞争性的性能。
5.4. 消融实验
为了评估每个组件的贡献,我们在 CPSC2018 数据集上进行了消融研究。结果显示在表8中。基线是初始的单导联分类模型,所有其他模型都是通过逐步添加组件而衍生出来的。表8. 对每个组件的消融实验。预模型监督的效果:首先,我们添加了一个预训练模型(使用12导联心电图进行训练)来监督基线提取的特征。具体来说,使用12导联心电图的特征来指导单导联心电图的特征学习。通过不断优化这两种类型特征之间的L1损失,基线可以学习到更丰富、更具判别性的特征表示,从而提高分类性能。特征重建的效果:接下来我们添加了一个重建模块,将监督目标从原始的单导联特征改为重建输出。这种设计使单导联特征提取模块专注于提取单导联特有的特征,而重建模块专门生成模仿更丰富的12导联特征分布的特征,从而进一步提高了性能(F1分数提高了0.029)。特征融合的效果:特征融合模块将原始的单导联特征与重建的12导联特征相结合,为后续分类提供了更丰富、更全面的表示。实验结果确认这种丰富的表示进一步提高了最终的分类准确性。
除了模块级别的消融研究外,我们还研究了重建模块中变压器解码器层数量的效果。结果总结在表9中。实验表明,使用两层可以获得最佳的分类性能。表9. 重建模块的层。
6. 讨论
本节提供了关于不同特征重建框架对分类性能影响的补充讨论,以及模型在应用于其他导联时的有效性。
6.1. 特征重建框架对分类的影响
本研究采用基于变压器的编码器来重建12导联特征,利用其整合全局信息并从不完整数据生成结构良好表示的能力。基于CNN的编码器-解码器架构提供了另一种常见的重建框架。它有效地捕捉了局部空间相关性,能够在保留局部连续性的同时提取细粒度信号细节。总体而言,基于CNN的架构侧重于局部结构表示,而基于变压器的架构强调全局特征整合。我们使用不同的重建架构评估了模型的性能。如表10所示,基于CNN和基于变压器的重建模块达到了相当的性能,变压器在召回率、AUC和F1分数方面表现出优势。这种性能差距可能归因于CNN的感受野有限,限制了其模拟心电图信号中跨越多个心跳的诊断特征的能力。此外,CNN倾向于优先考虑局部模式和形状相似性,这可能与重建判别性诊断特征时对语义一致性的需求不符。
6.2. 特征重建损失函数对分类的影响
在重建模块中,损失函数的选择直接定义了模型的学习目标,指定了“相似性”是如何衡量的。为了评估L1损失之外的不同监督策略的有效性,我们比较了L2损失、余弦相似性(COS)、KL散度和Jensen-Shannon(JS)散度的性能。实验设置保持网络结构和数据集划分不变,仅修改了重建模块的损失函数。不同的损失函数侧重于不同的重建目标:LI和L2损失强调数值上的点对点接近度,余弦相似性损失评估向量方向的一致性,而KL/JS散度量化概率分布之间的距离。表11比较了不同损失函数下的分类性能。L1损失在所有指标上都取得了最佳结果,而L2损失的性能相对较差。先前的研究 [45] 表明L2损失容易陷入局部最小值,并施加统一的欧几里得约束,这可能导致其性能并非最佳。相比之下,L1损失更好地保留了局部信号变化和细微模式,从而增强了临床关键诊断特征的重建。尽管余弦相似性损失和基于散度的损失(KL, JS)也表现良好,但它们存在固有的局限性。COS对齐了向量方向,同时忽略了幅度信息,其优化过程会导致重建输出与原始输入之间的振幅不匹配 [46]。基于散度的损失作用于分布相似性,适用于跨模态映射和特征压缩,但可能忽略细粒度的特征保真度。
6.3. 在不同导联上增强心电图信号分类
在标准的12导联心电图系统中,每个导联从不同的空间方向记录心脏的电活动,反映了不同的解剖和电生理区域。肢体导联(I, II, III, aVR, aVL, aVF)主要捕获前平面中的电活动,而胸腔导联(V1–V6)提供来自水平平面的信息。由于不同导联携带不同的信息,我们在每个导联上进行了实验,以全面评估SLFR-Net,相应结果如图8所示。图8. 不同导联输入下的分类性能(F1分数)比较。与单导联基线相比,SLFR-Net在所有导联上都实现了0.05–0.10的一致性能提升。更重要的是,导联之间的性能差异相对较小,表明所提出的框架成功学习了与导联无关的潜在特征表示,使其能够适应来自不同心电图导联的输入。在所有12个导联中,aVR在两种模型中的表现最佳,这可能是因为它具有独特的右上方视角和较低的信息冗余度,从而实现了更丰富的判别信息集中度。在胸腔导联中,V3和V5在我们的模型中实现了接近最佳的性能,这与它们在检测左心室、间隔和侧壁异常方面的既有临床价值一致。相比之下,III、aVL和aVF在单导联模式下的表现最低,尽管特征重建模型部分弥补了这些限制。总体而言,尽管特征重建策略始终提高了基于单导联的分类性能,无论使用哪个导联作为输入,但由于它们不同的电生理视角,诊断信息内容和相应的重建难度在各导联之间有所不同。
我们还评估了使用3导联输入(III、aVR和V2 [21])与3导联模型相比所实现的性能提升。实验结果显示在表12中。3导联模型的性能与12导联模型相比仍有明显差距,而基于3导联的特征重建模型的结果接近12导联模型。与3导联模型相比,我们的模型取得了更好的性能,几乎所有评估指标的提升都超过了3%。值得注意的是,我们模型的召回率超过了12导联模型,达到了0.786。表12. 3导联重建实验的结果。结果表明,随着输入信息的增加,我们的模型进一步提升了性能,在多个诊断类别中接近或超过了12导联模型,证实了我们方法的可靠性。这可能是因为与完整的12导联系统相比,重建模型受益于信息冗余的减少,从而在特定评估指标上表现更好。
7. 结论
为了弥合单导联心电图与标准12导联心电图之间的空间信息差距,我们提出了SLFR-Net,这是一种新的基于CNN-Transformer的框架,能够从单导联输入重建12导联心电图的诊断特征,从而增强了单导联模型的判别能力。SLFR-Net 使用基于变压器的重建模块通过将单导联表示与从完整12导联心电图学到的特征空间对齐来推断缺失信息。进一步引入了特征融合机制,将重建特征与原始特征相结合,使分类器能够利用细粒度的形态和更广泛的诊断模式。在 CPSC2018 和 CODE-15% 数据集上的实验表明,所提出的方法在准确性、召回率和F1分数方面显著优于单导联基线。尽管本研究取得了有希望的结果,但仍存在一些局限性,值得进一步研究。首先,尽管所提出的方法能够持续提升单导联心电图(ECG)的分类性能,但与12导联模型相比仍存在明显差距。我们认为这一局限主要源于单导联ECG和12导联ECG在信息完整性方面的固有差异。由于单导联ECG仅从有限的角度反映心脏活动,其用于分类的空间判别信息相对较少,因此其性能通常不如12导联模型。虽然所提出的特征重构和融合策略可以在一定程度上弥补这些信息缺失,但现有的实验结果仍然表明性能差距依然显著。为了解决这一局限,未来的工作将重点关注几个方向:首先,我们将探索更先进的分类架构以进一步提升单导联ECG的分类性能;其次,将考虑使用更大规模的数据集,因为更多的数据有助于模型学习更丰富的模式和知识,从而提高表示能力和泛化性能;第三,我们不会固定输入为特定的导联,而是探索一种随机选择不同导联作为输入的训练策略,这可能有助于模型学习超越单一固定视角的更通用知识。
其次,尽管所提出的方法在受控实验条件下取得了有希望的结果,但在现实世界的可穿戴设备场景中直接应用仍存在挑战。为了促进该方法在可穿戴设备中的实际应用[47,48],需要在计算效率、模型复杂性和现实信号采集条件下的鲁棒性方面进行进一步优化。可以考虑两种实际实现方案:一种是本地采集和云端分析框架,即可穿戴设备收集单导联ECG信号并传输到云端进行处理;另一种是设备端部署策略,通过剪枝、量化和轻量级架构设计来降低模型复杂性。
第三,尽管所提出的方法在受控实验条件下取得了有希望的结果,但在实际应用中的可靠性仍需进一步提高。在实际的可穿戴ECG场景中,模型性能可能受到噪声、运动伪迹和其他采集干扰的影响。此外,模型在不同数据集和临床环境中的泛化能力仍需进一步验证,因为采集设备、患者群体、信号质量和标记标准等方面的差异可能显著影响性能。另外,当前模型缺乏足够的可解释性分析,这可能限制其临床可信度和实际应用性。因此,未来的工作将重点关注在现实信号采集条件下的鲁棒性提升、跨数据库的泛化能力强化,以及进一步探索SHAP、Grad-CAM和注意力可视化等可解释性方法,以提供更直观的模型预测依据。