增强峰值检测的注意力机制U-Net：基于深度学习的12导联心电图精准划界新方法

《Biomedical Signal Processing and Control》：Peak Attention U-Net: Enhancing ECG delineation with attention

【字体：大中小】 时间：2026年02月21日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　心血管疾病是全球主要死因，心电图精准划界对早期诊断至关重要。针对现有自动化方法波形峰值检测能力不足、依赖预分割心搏、难以泛化至全长12导联心电图等问题，研究人员开展了“峰值注意力U-Net”主题研究。该研究提出一种新型深度学习模型，将注意力门集成到U-Net编码器-解码器架构中，实现了对P、QRS、T波及其峰值的精确识别。模型在LUDB数据集上评估，峰值检测F1分数显著优于文献次优模型，提升了13.67%（P峰）、12.19%（R峰）和11.45%（T峰）。该模型轻量高效，支持实时临床应用，有望推动生物医学信号处理领域心电图分析的自动化进程。

心血管疾病是全球范围内的头号健康杀手，其早期诊断与有效治疗离不开对心脏电活动记录——心电图（Electrocardiogram, ECG）的精准分析。心电图划界，即精确识别P波、QRS波群和T波的边界（起始点与终止点）及其峰值，是临床评估心脏功能、测量关键间期（如PR间期、QT间期）并检测病理变化的基础。然而，传统的手工划界不仅耗时费力，其结果还容易受到观察者间差异的影响，一致性难以保证。因此，开发高效、准确的自动化划界方法成为临床实践和生物医学工程领域的迫切需求。

尽管近年来基于深度学习的自动化方法，尤其是编码器-解码器架构如U-Net，在心电图波形分割任务上取得了显著进展，但现有技术仍面临三大核心瓶颈：首先，大多数模型仅专注于分割主要波形成分，而未能明确检测波形的峰值，而峰值位置对于精确的临床测量（如心率计算、波形振幅评估）至关重要；其次，许多方法依赖于将心电图信号预先分割成单个心搏，或者仅针对特定导联（如Lead II）进行训练，这限制了它们处理临床实践中常见的全长、多导联（12导联）心电图信号的能力；最后，尽管注意力机制在医学图像分割中已被证明能有效聚焦于关键特征，但其在细粒度心电图划界任务中的潜力尚未得到充分探索。

为了解决这些挑战，来自约翰内斯·古腾堡大学的研究团队在《Biomedical Signal Processing and Control》期刊上发表了他们的研究成果。他们提出了一个名为“峰值注意力U-Net”的新型深度学习模型。该研究假设，通过将注意力机制集成到一维U-Net架构中，模型能够同时捕捉局部形态特征和长程时间依赖性，从而提升其在全长12导联心电图信号中精确检测波形边界和峰值的能力。

为了验证这一假设，研究人员主要采用了以下几个关键技术方法：首先，他们使用公开的Lobachevsky University Electrocardiography Database (LUDB) 数据集，该数据集包含200条由心脏病专家精确标注了所有关键特征点（P、QRS、T波的起始点、峰值、终止点）的12导联心电图记录（共计2400个信号），采样率为500 Hz，持续10秒。其次，在数据预处理阶段，应用了截止频率为0.5-40 Hz的三阶巴特沃斯带通滤波器来有效滤除基线漂移和高频噪声。最后，在模型设计与评估上，核心是构建并训练了“峰值注意力U-Net”。该模型基于经典的U-Net编码器-解码器结构，但针对一维信号进行适配，使用1D卷积核，并将分类任务扩展为七个类别，不仅包括P、QRS、T波和等电位类，还明确包括了P峰、R峰和T峰三类。模型的关键创新在于在解码器的上采样路径中集成了注意力门（Attention Gates），该机制能动态地加权来自编码器的跳跃连接特征，抑制不相关的背景信息，从而帮助模型更精确地聚焦于波形峰值等稀疏但关键的信号区域。模型使用分类交叉熵损失函数和Adam优化器进行训练。

研究结果

1. 模型性能：样本点分类与特征点划界

研究对模型进行了两个层面的评估。在样本点分类任务（即分割P、QRS、T波和等电位段）中，峰值注意力U-Net与文献中的其他先进模型（如Moskalenko等人的1D U-Net、Londhe和Atulkar的CNN-BiLSTM模型、Liang等人的ECG_SegNet）表现相当，所有模型的F₁分数均在0.9以上，表明基础波形分割任务对于现代深度学习架构已相对成熟。

然而，在更具临床挑战性的特征点（Fiducial Point）划界任务中，峰值注意力U-Net展现出了显著优势。根据ANSI/AAMI-EC57标准（预测位置与真实位置误差在150毫秒内视为正确），该模型在峰值检测上实现了突破性的性能。其最终F₁分数达到了P峰0.8926、R峰0.9972、T峰0.9751。与文献中表现次优的模型相比，这些成绩分别带来了+13.67%、+12.19%和+11.45%的显著提升。相比之下，基线模型如Moskalenko等人的U-Net完全无法检测峰值（F₁=0），其他模型在峰值检测上的F₁分数也远低于此（在0.62-0.86之间）。此外，模型对于波形边界（起始点和终止点）的识别也保持了高精度，所有特征点的平均定位误差（μ）均远低于150毫秒的临床容限，最高仅为12.51毫秒（T波起始点）。

2. 注意力机制的有效性

为了验证注意力机制的具体贡献，研究进行了消融实验，比较了带注意力门的峰值注意力U-Net与一个结构完全相同但不包含注意力门的1D U-Net。结果显示，去除注意力门后，峰值检测性能大幅下降（P峰F₁从0.8926降至0.7426，R峰从0.9972降至0.8409，T峰从0.9751降至0.7628），这明确证明了注意力门对于聚焦于稀疏的峰值特征至关重要。对注意力系数的可视化分析进一步支持了这一结论。可视化图显示，模型的注意力高度集中在P、QRS和T波区域，尤其是其峰值附近，而对于等电位段等非关键区域则给予了较低的权重。

3. 模型泛化能力与计算效率

该研究的一个重要目标是开发一个能够处理全长、多导联心电图的模型。与以往大多数仅在单一导联（如Lead II）上训练和评估的工作不同，本研究的模型在LUDB数据集的所有12个导联上进行训练。这种“导联无关”的训练策略使模型能够适应不同导联间显著的形态学差异，从而具备对完整12导联心电图进行划界的泛化能力，更符合真实的临床场景。此外，模型被设计为直接处理10秒长度的完整信号，无需预先分割成单个心搏，简化了应用流程。

在计算效率方面，尽管引入了注意力门，模型规模仅轻微增加了0.04 MB，总大小约为1.8 MB（含471，434个参数）。在高端GPU上，处理一条10秒心电图的推理时间仅为0.24毫秒；在消费级笔记本电脑CPU上，也仅需约4毫秒。这种轻量级和高效率的特性，使其不仅适用于工作站级的临床系统，也具备了部署在资源受限的嵌入式设备（如可穿戴设备）上的潜力。

结论与讨论

本研究成功提出并验证了“峰值注意力U-Net”，一个专为心电图精准划界设计的深度学习模型。该模型的核心贡献在于，通过将注意力机制与一维U-Net架构相结合，有效解决了现有方法在波形峰值检测上的短板。实验结果表明，该模型在公开的LUDB数据集上实现了当前最优的峰值划界性能，其精度显著超越了现有文献中的方法。

研究的意义不仅体现在性能指标的提升上，更在于其临床应用的实用性。首先，全面的划界能力：模型能够同时输出波形边界和精确的峰值位置，为自动计算心率、PR间期、QT间期、ST段等关键临床参数提供了完整的基础。其次，处理真实世界数据的能力：模型支持对全长、12导联心电图信号进行直接处理，无需依赖容易出错的心搏预分割步骤，且对不同的心电图导联具有良好的泛化性，这大大增强了其在多样化临床环境中的适用性。最后，部署可行性：模型结构紧凑，计算效率高，为其实时集成到临床工作流、移动健康监测设备乃至可穿戴医疗设备中铺平了道路。

尽管模型在大多数情况下表现出色，但研究也指出了其局限性。例如，在部分心房颤动（Atrial Fibrillation）病例中，模型可能将颤动的房波或噪声误判为P波，产生假阳性的P峰检测。这表明对于高度不规则或低信噪比的病理信号，模型的鲁棒性仍有提升空间。

综上所述，峰值注意力U-Net代表了自动化心电图分析领域的一个重要进展。它通过创新的架构设计，在保持高效率的同时，显著提升了对临床诊断至关重要的峰值特征的检测精度。这项工作为开发更可靠、更通用的心脏监测工具提供了有力的技术支持，并展示了注意力机制在生物医学一维信号处理任务中的巨大潜力。未来的研究可以进一步探索模型在更大规模、更多样化的数据集上的表现，并研究如何将其与其他心电图分析任务（如心律失常分类）进行整合。

热点排行

新闻专题