通过Kernel-PSO特征选择增强多类别心血管疾病检测:梯度驱动与生物启发式机器学习算法的对比基准测试

《Swarm and Evolutionary Computation》:Enhanced multiclass cardiovascular disease detection via Kernel-PSO feature selection: a comparative benchmark of gradient-driven and bio-inspired machine learning algorithms

【字体: 时间:2026年05月10日 来源:Swarm and Evolutionary Computation 8.5

编辑推荐:

  Onder Tutsoy|Hilmi Erdem Sumbul 阿达纳阿尔帕尔斯兰图尔克斯科学技术大学,土耳其阿达纳 **摘要** 心血管疾病的全球负担因关键的诊断缺口而加剧,传统的心电图(ECG)解读常常无法解决重叠的多类特征空间问题。本文通过提出基于特征选择的鲁

  Onder Tutsoy|Hilmi Erdem Sumbul
阿达纳阿尔帕尔斯兰图尔克斯科学技术大学,土耳其阿达纳

**摘要**
心血管疾病的全球负担因关键的诊断缺口而加剧,传统的心电图(ECG)解读常常无法解决重叠的多类特征空间问题。本文通过提出基于特征选择的鲁棒机器学习算法来解决这些不一致问题,以实现心律失常(ARR)、充血性心力衰竭(CHF)、心房颤动(AF)和正常窦性心律(NSR)的自动检测。通过引入基于性能的核粒子群优化(Kernel-PSO)方法,并使用多项式基函数,该研究用一个消除经验性试错过程的目标函数取代了传统的以准确性为中心的指标,为检测多类疾病提供了精确的数学基础。实验结果表明,随着特征数量的增加,目标函数呈单调递减,一致地识别出最具信息量的特征。严格的基准测试分析显示,所提出的基于特征选择的批量最小二乘法(BLS)和非负最小二乘法(NNLS)在收敛稳定性和测试鲁棒性方面显著优于受生物启发的萤火虫机器学习算法。具体而言,BLS在未经见过的数据上进行评估时,取得了0.98的F1分数、0.04的较低RMSE值和0.96的优异Cohen’s Kappa值,从而确保了高诊断可靠性和跨多类数据集的泛化能力。

**引言**
心血管疾病仍然是全球死亡的主要原因,目前约有6.26亿人患有已知的心血管疾病,每年死亡人数高达1980万[1]。尽管临床诊断技术取得了巨大进展,但仍有很多病例未被识别;其中近20%被归类为“无声”的病例,导致许多人在不知情的情况下死亡[2]。此外,尽管有先进的医疗技术,但仍存在显著的诊断缺口,这导致了较高的意外死亡率[3]。ECG仍是心血管疾病诊断的基础;然而,其临床评估往往受到专业医学知识的极大依赖,而这些知识极易出错[4]。这种诊断不一致性经常导致无法发现细微的早期迹象,从而增加了未诊断病例的数量[5]。为应对这些挑战,本文开发了配备多项式基函数和降维算法的机器学习方法,这些方法已成为从复杂的ECG数据中提取信息丰富的诊断特征的重要工具,从而克服了人类专家的局限性,确保了准确的心血管疾病识别。

从二元分类到特定心血管疾病(包括ARR、CHF、AF和NSR)的多类检测的转变,引入了一个显著且复杂的诊断问题[6]。虽然区分正常窦性心律和异常信号是一项基础任务,但准确区分AF的时间不一致性、CHF的结构影响以及各种类型的ARR需要高度复杂的建模[7]。在这四类ECG分类中的一个主要障碍是形态相似度的极高;特别是AF的P波特征经常与某些ARR亚型或CHF的离散波形重叠[8]。正如近期文献所强调的,由于在多个形态相似类别之间进行区分的难度增加,多类算法的性能往往低于二元模型[9]。因此,要实现这些特定类别的鲁棒多类精度,需要先进的特征选择策略,能够分离出最具信息量的ECG数据[10]。为了准确分类这四种心血管疾病,本文提出了三种优化用于处理高维ECG数据的多类机器学习算法。

**降维需求**
在基于ECG的心血管疾病诊断中,数据集的高维性质和冗余数据需要鲁棒的特征选择来减轻维数灾难。已经开发了通过基于模型的子聚类策略消除冗余数据、增强传感器配置和学习性能的大维连续传感器数据方法[11]。同样,在信息不完全的情况下,间隔可能性模型实现了传感器的最佳数量和放置策略[12]。在ECG领域,由于复杂的电重构在ECG数据的时间和频谱维度上进行了微妙的扰动,ARR、CHF、AF和NSR的非线性特征在原始输入数据空间中很少是可分离的[13]。核技巧的集成通过将非线性可分离的数据点映射到高维希尔伯特空间来解决这个问题,在该空间中,ARR、AF、CHF和NSR变得可以线性区分[14]。然而,由于核技巧本身不优先考虑特征相关性,因此转换可能导致噪声敏感性和计算复杂性的增加[15]。因此,需要PSO类方法在这个扩展的空间中进行有针对性的搜索,以修剪冗余维度,从而在不产生过高计算成本的情况下实现对ARR、AF、CHF和NSR的高诊断敏感性[16]。因此,本文实现了核粒子群优化(Kernel-PSO)方法来识别和选择最佳输入特征子集。

**现有研究**
当前的基于ECG的诊断研究经常使用PSO来处理核转换空间内的特征冗余,但这些研究往往未能标准化高维稳定性所需的适应度函数[17]。虽然现有模型使用随机速度更新来导航非凸成本表面,但它们主要优化全局分类准确性,而没有考虑所选特征子集的稳定性[18]。此外,对自动化ECG报告的最新评估表明,以准确性为中心的指标并不能完全捕捉输入特征空间的可靠性[19]。对受自然启发技术的全面回顾证实,基于MSE的性能分析基本上缺失,导致所需特征的最佳数量未被确定,仍依赖于经验性试错过程[20]。本文通过将基于MSE的目标函数整合到PSO框架中来解决这些缺陷,为特征选择提供了严谨的数学基础,确保了ARR、AF、CHF和NSR的诊断知识基于最小化的误差方差,这是以往实现未能建立的。

**多类学习中的基准测试**
当代文献经常讨论传统梯度驱动算法和受生物启发的元启发式算法之间的基本权衡。迁移学习方法被广泛用于疾病分类和早期检测,它可以在高维和复杂的基因表达中确定最有前途的基因[21]。同样,结合迁移学习的卷积神经网络(CNN)被用于从磁共振图像中揭示脑功能障碍的诊断生物标志物[22]。虽然近期研究经常推崇萤火虫算法作为解决复杂非凸优化问题的鲁棒解决方案[23],但其他研究表明,这些随机搜索器在应用于多类学习时可能会遭受不一致的收敛性和高计算成本[24]。此外,许多现有模型更重视启发式探索而非确定性稳定性,这在关于特征集可靠性和分类准确性的严格比较基准测试中留下了显著差距[25]。本文通过在MSE驱动的多项式基函数回归方法中对比萤火虫算法与BLS和NNLS来解决这些不一致性。本研究的实证证据表明,梯度驱动算法在收敛稳定性方面显著优于受生物启发的算法,为确定最佳特征数量提供了精确的数学基础,这是以往研究未能建立的。

**局限性**
尽管现有文献经常推崇用于ECG特征选择的受生物启发的元启发式方法,并主要集中在心血管疾病的二元分类上,但这些方法未能解决多类心血管疾病检测中固有的重叠形态问题。本文的主要贡献可以总结如下:
1) 在基于多项式基函数的框架内引入了基于性能的PSO方法,用基于MSE的方法取代了传统的以准确性为中心的指标,消除了经验性试错过程,为确定准确多类诊断所需的最优特征数量提供了精确的数学基础。
2) 利用核技巧将非线性可分离的ECG病理映射到高维希尔伯特空间,使得在多项式映射中对ARR、CHF、AF和NSR进行线性区分成为可能。
3) 通过在同一多项式基函数内对比萤火虫算法与BLS和NNLS,建立了严格的性能分析,证明了梯度驱动模型的优越收敛稳定性、训练可靠性和测试鲁棒性。

**论文结构**
本文的其余部分如下:第二部分描述和预处理数据,第三部分使用Kernel-PSO进行特征选择,第四部分构建多类心血管疾病检测的机器学习算法,第五部分讨论结果。

**数据描述和预处理**
描述和预处理高维原始数据集是开发鲁棒和数据驱动的机器学习模型的关键前提。本节详细介绍了原始数据采集过程、标记的多类心血管疾病的分类以及为确保数据质量而实施的预处理。

**使用Kernel-PSO进行特征选择**
通过利用Kernel-PSO进行特征选择,所提出的方法有效地 navigating 了复杂的高维搜索空间,以识别最具区分性的输入数据,确保后续机器学习模型通过精细的输入空间实现更高的准确性和增强的泛化能力。本节详细介绍了Kernel-PSO特征选择架构,包括用于性能评估的核岭回归的数学公式。

**心血管疾病检测**
本节首先建立了多项式基函数,然后制定了NNLS和萤火虫机器学习算法。

**结果和讨论**
本节首先概述了算法参数,然后基于所选特征对模型性能进行了广泛评估。

**结论和未来工作**
实验评估证实,Kernel-PSO成功最小化了MSE目标函数,以识别54维ECG数据集中最具信息量的输入特征。如图5所示,随着特征数量的增加,MSE呈单调递减,证明虽然每个输入变量都对多类心血管疾病检测有所贡献,但在数据维度上限附近会出现平台期。值得注意的是,图3和图4显示特征1……

**致谢**
伦理批准不可适用。
**资助**
不可适用。
**声明**
在准备这项工作时,作者使用了Gemini(Google)工具来改进技术表述和提高手稿的语言清晰度。使用该工具后,作者根据需要对内容进行了审查和编辑,并对最终出版物的内容负全责。

**作者贡献声明**
Onder Tutsoy:撰写——原始草稿、可视化、验证、监督、资源、方法论、调查。
Hilmi Erdem Sumbul:形式分析、数据管理、概念化。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号