《Biomedical Signal Processing and Control》:CDM-DL-PSI: A conditional diffusion model for 12-Lead ECG generation using disease labels and patient-specific information
编辑推荐:
本文提出条件扩散模型CDM-DL-PSI,整合疾病标签与患者年龄、性别信息,通过MCFARN模块动态调整归一化参数,生成高保真、多样化的12导联心电图信号。实验表明其在PTB-XL和CPSC2018数据集上优于现有方法。
王荣家|董勋德|刘秀玲|胡飞
华南理工大学自动化科学与工程学院,广州,510641,中国
摘要 心电图(ECG)作为一种无创诊断工具,在心血管疾病的筛查和监测中发挥着重要作用。然而,自动化ECG分析和诊断技术的发展受到可用标记数据不足的制约。生成高保真度和多样性的ECG信号已成为推动这些自动化技术进步的关键上游任务。大多数现有的ECG信号生成方法未能充分利用患者特定信息(年龄和性别),在生成的信号的保真度和多样性方面仍有很大的改进空间。因此,我们提出了一种新颖的条件扩散模型 (CDM-DL-PSI),该模型整合了疾病标签 和患者特定信息 ,能够生成具有高保真度和多样性的12导联ECG信号。特别是为了整合多条件信息,我们设计了一个多条件扩散自适应残差规范化模块 (MCFARN)。该模块可以动态更新层规范化过程的缩放和偏移参数以及残差路径的缩放参数,显著增强了模型在多条件生成任务中的特征表达能力。在PTB-XL数据集和CPSC2018数据集上的广泛实验结果证明了CDM-DL-PSI模型的优越性。
引言 心血管疾病(CVDs)是人类死亡的主要原因之一,其早期诊断和有效干预对于降低死亡率具有重要意义[1]。作为无创且方便的临床诊断工具,心电图(ECG)在CVDs的筛查、诊断和监测中发挥着不可替代的作用[2]。近年来,研究人员在基于传统机器学习方法[3]、[4]、[5]、[6]和深度学习方法[8]、[9]、[10]、[11]、[12]、[13]、[14]的ECG自动分析和诊断方面取得了显著进展。
然而,目前阻碍ECG信号自动分析和诊断技术进步的一个主要挑战是大规模标记数据集的稀缺。这个问题主要归因于两个因素。首先,严格的医疗数据隐私保护政策对用于研究和开发的真实世界ECG数据的可用性施加了严格限制[15]、[16]。其次,ECG数据的标注需要专业心脏病专家的参与,使得这一过程既耗时又成本高昂[17]。因此,生成高保真度和多样性的ECG信号已成为一个关键的上游任务,在推进自动化ECG分析和诊断技术方面发挥着关键作用。
ECG生成领域的主要研究目标是生成具有高保真度和多样性的ECG信号,以支持自动化ECG分析和诊断模型的研究和开发[18]。早期的研究主要基于生成对抗网络(GAN)[15]、[16]、[17]、[19]、[20]、[21]、[22]来生成ECG信号。然而,这些方法中的大多数无法生成对应于特定疾病类型的ECG信号[15]。此外,许多方法只能生成单导联ECG信号。或者,它们需要独立训练多个GAN模型来分别生成不同导联的信号,从而忽略了导联之间的相关性[16]、[22]。尽管ME-GAN模型[17]能够同时生成对应于特定疾病类型的12导联ECG信号,但GAN架构的固有局限性,如训练不稳定和模式崩溃[23],仍然阻碍了其进一步发展。
与GAN相比,扩散模型(DM)[24]在图像合成[25]、语音生成[26]和生理信号生成[27]等领域取得了显著进展,这得益于其稳定的训练过程和出色的生成性能。其中,SSSD-ECG模型[28]和DSAT-ECG模型[29]在ECG生成任务中取得了初步成功。然而,大多数基于DM的ECG生成方法主要依赖疾病标签或临床文本报告作为生成条件,而忽略了患者特定信息(例如年龄、性别)[28]、[29]、[30]。实际上,这些信息对ECG信号的形态特征有着显著影响。
在本文中,我们提出了一种新颖的条件扩散模型 (CDM-DL-PSI),该模型整合了疾病标签 和患者特定信息 (CDM-DL-PSI),能够生成具有高保真度和多样性的12导联ECG信号。与现有的基于DM的ECG生成器(例如SSSD-ECG和DSAT-ECG)和传统的DM框架(例如Stable Diffusion)相比,CDM-DL-PSI实现了三项关键创新。在架构上,与SSSD-ECG和DSAT-ECG不同,它采用了潜在空间扩散方案,而不是直接在原始ECG空间中进行扩散,有效降低了计算复杂性。在条件调制方面,其MCFARN模块使用独立的多层感知器(MLPs)和非线性融合来处理多样化的条件信息,实现了“疾病特征和个体差异”的双重约束,克服了单条件生成的限制。在训练目标方面,复合损失函数专门优化了高频特征,减轻了传统均方误差损失在约束高频细节时经常引起的噪声冗余和形态失真。本文的主要贡献如下:
• CDM-DL-PSI整合了疾病标签和患者特定信息。这种整合显著提高了生成的12导联ECG信号的保真度和多样性。
• 我们开发了一个多条件扩散自适应残差规范化模块
(MCFARN)。通过整合多条件信息并动态更新层规范化过程的缩放和偏移参数以及残差路径的缩放参数,MCFARN显著提高了模型在多条件生成任务中的特征表示能力。• 在PTB-XL和CPSC2018数据集上的广泛实验表明,CDM-DL-PSI模型的性能优于现有的ECG生成模型,展示了其在ECG信号生成领域的优越性能和实际应用性。
本文的其余部分结构如下:第2节回顾相关文献。第3节详细介绍了CDM-DL-PSI。第4节介绍了实验设置和结果。第5节介绍了与模型相关的消融实验、比较实验和其他分析。最后,第6节总结了本文的主要贡献,并概述了未来研究的潜在方向。
相关工作 相关工作 生成数据建模作为机器学习领域的一个重要研究方向,在图像合成和音频生成等任务中取得了显著进展,出现了一系列创新的算法架构,如变分自编码器(VAE)[31]、GAN [23]和DM [24]。
在生理信号生成领域,特别是ECG信号生成方面,早期的工作主要基于GAN [15]、[16]、[17]、[19]、[20]、[21]、[22]、[32]、[33]
扩散模型 在本小节中,我们将首先回顾DM和LDM的基本原理。
DM假设存在一个从原始数据开始的前向噪声过程x 0 ,逐渐添加高斯噪声,并最终将数据转换为纯噪声x t 。这个前向过程可以表示为:q ( x t | x t ) = N ( x t ; 1 ? β t x ? 1 , β t I 其中t 表示扩散步骤,范围从1 , … , T , β t 用于控制噪声添加的幅度,I 是单位矩阵,N 是高斯分布。
使用
数据集 为了全面评估CDM-DL-PSI的性能,我们分别在两个公开可用的ECG数据集PTB-XL和CPSC2018上进行了实验。这些数据集是多标记的,并包含了患者年龄和性别信息,丰富了用于模型评估的数据。
PTB-XL数据集[67]包含来自18,869名患者的21,799份临床ECG记录。该数据集显示了良好的性别分布,其中52%的患者为男性,48%为女性
消融实验 在本小节中,我们对CDM-DL-PSI进行了消融实验,以评估MCFARN模块、患者特定信息以及损失函数中的频率损失对提高生成ECG信号质量的贡献。特别是,由于Xresnet1d50在整体性能指标上表现出优越性,因此选择Xresnet1d50作为保真度评估和多样性评估实验的分类器。实验结果如下所示
结论 本文提出了一种新颖的ECG信号生成模型CDM-DL-PSI。通过引入MCFARN模块,它有效地整合了多条件信息并动态更新了缩放和偏移参数,从而显著提高了生成ECG信号的保真度和多样性。在PTB-XL和CPSC2018两个公共数据集上的实验结果表明,CDM-DL-PSI生成的ECG信号的多样性和保真度显著优于其他模型
CRediT作者贡献声明 王荣家: 撰写 – 审稿与编辑,撰写 – 原稿,方法论,数据整理。董勋德: 撰写 – 审稿与编辑,撰写 – 原稿,方法论,数据整理。刘秀玲: 数据整理。胡飞: 数据整理。
利益冲突声明 作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢 本工作得到了广东省自然科学基金 (编号:2024A1515220144)和国家自然科学基金 (编号:62450100)的支持。