一种基于聚类-回归混合模型的心血管疾病早期预测性能分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Clustering-cum-regression based model and performance analysis for early prediction of heart disease

【字体：大中小】 时间：2026年02月19日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对无线体域网(WBAN)采集的实时健康数据，为解决传统方法预测心脏病准确率有限的问题，提出了一种结合K-Means聚类与随机森林回归的混合模型。该研究通过对12个关键特征参数进行聚类分析，并利用多种回归模型评估其预测效能。结果表明，新模型准确率达到91%，且召回率、特异性、F1分数及ROC-AUC等指标均优于决策树回归、KNN、SVM等传统方法，为医疗健康应用提供了更可靠、可扩展的解决方案。

在当今的数字健康时代，实时监测与早期预警已成为守护人类健康的前沿阵地。无线体域网(WBAN)作为一项关键技术，通过部署在身体上的传感器网络，能够持续不断地收集心率、血压、心电图等多项生理参数，构建起个人健康的动态数据流。这些海量数据蕴藏着预警潜在疾病的宝贵信息，尤其是对于心血管疾病这类全球主要的健康杀手而言，其早期预测的价值不言而喻。然而，现实却面临着一个棘手的挑战：如何从这些多维度、高复杂度的数据中，精准且高效地识别出疾病风险信号？传统的心脏病预测模型，如逻辑回归或一些基础的机器学习方法，虽然得到应用，但其预测准确率往往止步于85%左右，在更精细的指标如召回率（衡量找出所有真实患者的能力）、特异性（衡量排除非患者的能力）以及综合评价指标F1分数上提升有限，这就像一张不够密的网，既可能漏掉一些本应被预警的高危人群，也可能让健康者徒增不必要的焦虑。这种性能瓶颈制约了精准医疗和预防医学的发展。为此，研究人员亟需探索更强大的数据分析框架，以充分挖掘WBAN数据的潜力，从而为临床决策提供更可靠的支持。

为了突破这一瓶颈，一项发表在《Scientific Reports》上的研究开展了一项创新性的探索。研究人员的核心目标是开发一种新型的混合预测模型，以显著提升心脏病的早期预测性能。他们不再局限于单一的算法思路，而是创造性地将无监督学习与有监督学习相结合，提出了一种“聚类-回归”融合框架。简单来说，就是先对数据进行“分组”再“预测”。

研究人员为开展此项研究，主要运用了以下几个关键技术方法：首先，利用K-Means聚类这一无监督学习技术，对从WBAN等来源收集到的心脏病相关数据集中的12个关键特征参数进行系统性聚类分析，旨在揭示数据内在的分布模式和特征间的关系，并以此评估参数在特定范围内的相关性，从而指导稳健的特征选择。其次，在聚类结果的基础上，引入并集成了多种高级回归技术作为有监督学习模型，核心包括随机森林回归，同时也对比了决策树回归、K近邻(K-Nearest Neighbor)、支持向量机(SVM)及核支持向量机(Kernel SVM)等模型，以构建最终的预测模型并评估各特征的预测显著性。最后，通过严格的性能评估流程，使用准确率、召回率、特异性、F1分数和ROC-AUC曲线下面积等量化指标，在训练集和测试集上全面验证所提出混合模型的效能，并将其与前述传统机器学习模型进行基准比较。

研究结果

•
混合模型的构建与优势：研究提出的核心创新是一个将K-Means聚类与随机森林回归相结合的混合模型。该方法首先利用K-Means对12个关键特征参数进行聚类，以无监督的方式探索数据中的固有结构和关联性，完成初步的特征分析与筛选。然后，将聚类信息或处理后的特征输入到随机森林回归模型中进行训练和预测。这种“先聚类，后回归”的策略，有效融合了无监督学习发现潜在模式的能力以及有监督学习进行精准预测的能力。
•
特征参数的聚类分析：通过对12个选定特征（如年龄、血压、胆固醇水平、最大心率等临床相关参数）进行K-Means聚类，研究成功地将数据样本划分为不同的簇。这一步骤不仅帮助识别了具有相似生理或病理特征的亚组人群，更重要的是，它从数据驱动的角度评估了各个参数在不同取值范围内的关联性与重要性，为后续回归模型提供了更清晰、更有区分度的输入特征，增强了模型的可解释性。
•
预测性能的量化评估与比较：为了客观评价所提混合模型的性能，研究人员进行了一系列严格的量化分析。他们将新模型与多种广泛使用的机器学习模型进行了头对头的比较，这些基准模型包括决策树回归、K近邻(K-Nearest Neighbor)、支持向量机(SVM)、核支持向量机(Kernel SVM)等。评估所采用的指标全面涵盖了分类预测模型的核心方面：整体准确率、召回率(Recall)、特异性(Specificity)、F1分数(F1-Score)以及受试者工作特征曲线下面积(ROC-AUC)。
•
显著的性能提升：对比结果清晰地展示了新模型的优越性。此前的研究中，传统方法的预测准确率最高约为85%，且在其他关键指标上改进有限。而本研究提出的K-Means聚类结合随机森林回归的混合模型，取得了突破性的性能提升：准确率达到了91%。与此同时，其他关键指标也同步显著改善，召回率达到0.8864，特异性达到0.9583，F1分数达到0.8977，ROC-AUC值达到0.9155。这一全面的提升表明，新模型不仅在整体判断上更准确，在识别真实患者（高召回率）和排除非患者（高特异性）之间取得了更好的平衡，综合判别能力（高ROC-AUC）更强。
•
模型复杂性与实用性的平衡：研究特别指出，上述显著的性能增益是在没有增加模型过度复杂度的前提下实现的。这意味着该混合模型在获得更高预测能力的同时，并未牺牲其计算效率与可部署性，为其在实际医疗健康场景中的应用奠定了基础，提供了一个既强大又实用的解决方案。

研究结论与讨论

该研究得出结论，所提出的这种集成K-Means聚类与随机森林回归的混合建模框架，为基于WBAN数据的心脏病早期预测提供了一种高度有效且稳健的新方法。其核心意义在于，它通过巧妙地结合无监督聚类与有监督回归，克服了传统单一模型在挖掘复杂数据深层结构和关联上的不足，从而实现了预测性能的质的飞跃。

研究表明，通过对特征参数进行预先聚类分析，可以更有效地捕捉到影响心脏健康的多因素之间复杂的交互作用和非线性关系，这为特征工程和模型解释提供了新的视角。与决策树回归、SVM等传统模型相比，新模型在准确率、召回率、特异性、F1分数和ROC-AUC等多个维度均表现出显著且全面的优势，验证了其方法的先进性和泛化能力。

更重要的是，这种性能提升并未以模型复杂度的急剧增加为代价，说明该框架具有很好的可扩展性和实用性，能够适应现实世界中医疗数据不断增长和变化的挑战。因此，这项工作不仅为心脏病预测领域贡献了一个性能更优的算法模型，也为如何融合不同机器学习范式以解决复杂的生物医学预测问题提供了一个可借鉴的范例。它有望推动实时健康监测系统向更智能、更精准的方向发展，最终助力于心血管疾病的早期发现、风险分层和个性化预防，具有重要的临床转化潜力和公共卫生价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号