《IEEE Aerospace and Electronic Systems Magazine》:Improving Inter-Patient Electrocardiogram Diagnosis Through Patient Adaptive Feature Density-Based Clustering
编辑推荐:
本研究针对当前计算机辅助心电图诊断在跨患者评估范式下性能不佳的问题,提出了一种新颖的预测优化方法。通过患者自适应特征密度聚类技术,有效改善了轻量级监督分类器的决策边界对齐问题。在MIT-BIH心律失常数据库上的测试显示,该方法实现了98.7%的整体准确率,N、S、V类的F1分数分别达到99.3%、89.2%和95.8%,显著提升了跨患者心电诊断的准确性和实用性。
心血管疾病(CVDs)持续位居全球死亡原因首位,2023年导致1920万人死亡。心电图(ECG)作为检测心律失常的主要工具,其诊断过程耗时耗力,特别是在长期监测场景下。这促使了高效计算机辅助心电诊断系统的开发。
当前心电诊断研究存在两种评估范式:患者内评估和跨患者评估。患者内评估允许同一患者的心跳同时出现在训练集和测试集中,但研究表明在这种范式下表现优异的模型在面对未见过的患者数据时往往表现不佳。跨患者评估要求测试集来自与训练集不同的患者,更符合真实场景,但面临不同患者间心跳形态显著变化的挑战。
台湾国立中正大学的研究团队发现,不同患者的心律失常类型决策边界存在不对齐现象。这意味着从训练集学习得到的通用决策边界在应用于具有不同特征的患者数据时会变得不准确。为此,他们开发了一种创新的预测优化方法,通过患者自适应特征密度聚类来提升分类性能。
研究还提出了双向可变点心跳分割方案,更好地捕捉了每个心跳的形态特征。P波、QRS波群和T波分别对应心脏周期的心房除极、心室除极和心室复极阶段,任何成分的异常都会导致心律失常。双向分割方法在保留重要形态特征的同时确保了R峰的对齐,为准确分类奠定了基础。
主要技术方法包括:采用双向可变点心跳分割方案(0.9×RRI前和0.4×RRI后);使用轻量级一维卷积神经网络(仅4423个参数)结合RRI特征;应用DBSCAN和HDBSCAN密度聚类算法进行预测优化;提出三种噪声点处理策略优化聚类效果。
数据准备与预处理
研究采用MIT-BIH心律失常数据库,包含48条Holter记录,采样频率360Hz。遵循Chazal等人提出的标准跨患者评估数据集划分方案,将记录分为DS1(训练集)和DS2(测试集),各包含22条记录和约5万次心跳。预处理包括:5阶巴特沃斯带通滤波(0.5-75Hz)去除噪声和基线漂移;R峰位置重新对齐;信号幅度标准化。
特征提取与分类模型
研究比较了三种心跳分割方案:固定点分割(R峰前90点/后110点)、单向可变点分割(前次R峰后50点/当前R峰后100点)和提出的双向可变点分割。特征提取包括形态学特征和RRI特征,其中前置RRI比率(与前置16次心跳平均RRI的比值)表现最佳。分类模型采用单层卷积神经网络,卷积核长度与输入段相同,输出通道数为20,后接16个隐藏节点的多层感知器。
患者自适应聚类优化
基于同一患者内心跳类间可分性强的观察,研究采用密度聚类算法优化预测结果。DBSCAN(eps=0.4,minsamples=3)和HDBSCAN在特征分布聚类中表现出色,能够识别不同密度的簇结构。预测优化过程通过识别每个簇中的多数类,替换该簇所有样本的预测类别,实现决策边界自适应调整。
噪声点处理策略
针对数量过少无法形成簇的异常心跳,研究比较了三种处理策略:保留分类器预测、合并至最近簇、合并多数但保留10个最远点。结果表明"合并多数-保留10"策略在保持异常心跳检测能力的同时优化了整体效果。
研究结论表明,基于特征密度聚类的预测优化方法能有效适应不同患者的特征分布,显著提升跨患者心电诊断性能。该方法在MIT-BIH数据库上达到了当前最优水平,特别是对难以识别的S类(室上性异位搏动)取得了89.2%的F1分数。轻量化的模型架构(仅4423个参数)使其适合边缘设备部署,为实时心电监测提供了实用解决方案。未来需要在更大规模数据库上进一步验证方法的普适性。