IGStrokeNet：一种有效且可解释的卒中风险预测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：IGStrokeNet: An effective and explainable framework for stroke risk prediction

【字体：大中小】 时间：2026年06月07日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　精确的卒中风险预测对于早期干预和预防至关重要。然而，现有模型常受类别不平衡、缺失数据和测量噪声的限制。基于手工特征和简单融合的传统方法通常无法捕获非线性特征关系，并在类别不平衡的多特征临床和人口统计数据集中遭受冗余问题。为解决这些问题，研究人员提出了IGStr

精确的卒中风险预测对于早期干预和预防至关重要。然而，现有模型常受类别不平衡、缺失数据和测量噪声的限制。基于手工特征和简单融合的传统方法通常无法捕获非线性特征关系，并在类别不平衡的多特征临床和人口统计数据集中遭受冗余问题。为解决这些问题，研究人员提出了IGStrokeNet，一种用于卒中风险预测的帧内-帧间图网络（Intra-inter Graph Network）。该框架包括一个数据预处理流水线、一个帧内-帧间特征编码模块、一个动态图特征构建模块和一个图卷积分类器。研究人员首先通过领域感知预处理提升数据质量并缓解类别不平衡。随后，一个基于科尔莫戈罗夫-阿诺德（Kolmogorov–Arnold）启发的特征编码模块为每个临床变量学习表达性非线性表示。这些嵌入被用于动态构建稀疏特征图，以编码结构依赖关系；生成的邻接矩阵和每个节点的嵌入共同输入到一个图卷积网络（Graph Convolutional Network, GCN）中进行卒中风险预测。在包含5110名患者记录的公共数据集上的评估表明，在无泄漏评估协议下，使用五个随机种子，IGStrokeNet在保留测试集上取得了具有竞争力的性能，平均准确率为0.864，F1得分为0.272，AUC为0.832，同时在对比基准中实现了最高的F1得分和AUC，表明其整体判别能力优越。研究人员还引入了一种可解释人工智能（Explainable AI, XAI）技术来量化特征重要性并识别临床相关风险因素，从而为早期风险预测提供可操作的见解。

：基于论文《IGStrokeNet: An effective and explainable framework for stroke risk prediction》（发表在《Biomedical Signal Processing and Control》）的解读

**研究背景与问题**

卒中（stroke）是全球范围内导致死亡和残疾的主要原因之一，分为缺血性卒中（ischemic stroke）和出血性卒中（hemorrhagic stroke），其中缺血性卒中约占85%。早期识别高风险个体并及时干预对降低发病率和改善预后至关重要。然而，现有卒中风险预测模型面临三个关键挑战：第一，临床数据质量差，卒中阳性病例通常少于5%，关键连续变量（如身体质量指数（BMI）和平均血糖）存在非随机缺失，且受测量噪声影响；第二，传统特征学习方法（如手工特征或简单拼接）无法捕获多特征之间的高阶非线性交互（例如年龄×BMI的联合效应），且冗余特征导致过拟合；第三，现有深度学习模型可解释性不足，难以在临床部署中提供符合医学推理的透明依据。因此，研究人员提出IGStrokeNet，一个结合自适应特征编码与动态图学习的框架，以解决这些卒中特异性问题。

**研究内容与结论**

研究人员在包含5110条患者记录（其中249例卒中）的公共数据集（来源：Kaggle）上进行了评估。采用五随机种子（42、12、7、68、1024）的无泄漏评估协议：首先按分层抽样将数据分为67%开发集和33%保留测试集，开发集内进行5折交叉验证调参，最终在保留测试集上报告结果。IGStrokeNet取得了平均准确率0.864、F1得分0.272、AUC 0.832，并在所有对比基准中获得了最高的F1得分和AUC。消融实验证实了科尔莫戈罗夫-阿诺德自动编码器（KAE）和动态图组件的有效性；可解释性分析（SHAP）显示年龄、工作类型、BMI和婚姻状况为最重要的预测因子。该研究的重要意义在于，IGStrokeNet通过联合优化特征重建与分类目标，在类别高度不平衡的临床数据上实现了对少数类（卒中）更好的检测能力，同时保持了可解释性，为早期风险预警提供了实用工具。

**关键技术方法概述（不超过250字）**

研究人员使用四个关键技术模块：（1）领域感知数据预处理流水线，包括基于四分位距（IQR）去噪、临床合理范围校验、缺失值全局均值插补（仅针对BMI特征）、类别变量独热编码，以及仅在训练集上应用SMOTE-ENN（合成少数类过采样技术结合编辑最近邻欠采样）缓解类别不平衡；（2）帧内-帧间特征编码模块，基于科尔莫戈罗夫-阿诺德网络（KAN）构建自动编码器（KAE），为每个特征学习非线性表示，同时通过解码器捕获跨特征依赖；（3）动态特征图构建模块，利用余弦相似度计算样本级特征嵌入间的成对相似性，结合top-k邻居选择和相似度阈值（τ=0.05）生成稀疏邻接矩阵；（4）图卷积网络（GCN）分类器，将特征嵌入矩阵和邻接矩阵输入两层GCN进行二分类，联合优化KAE重建损失与交叉熵分类损失（平衡系数λ=0.05）。

**研究结果**

- **对比实验结果（Comparison results）**：在5个随机种子下的保留测试集上，IGStrokeNet的F1得分为0.272±0.022，AUC为0.832±0.012，均高于所有对比模型（包括Logistic回归（LR）、随机森林（RF）、XGBoost、朴素贝叶斯（NB）、支持向量机（SVM）、人工神经网络（ANN）、多层感知机（MLP）、卷积神经网络（CNN）以及两个浅层交互模型HistGBDT-Depth2和XGBoost-Depth2）。结果表明IGStrokeNet在整体判别能力和少数类检测之间取得了最佳平衡。

- **缺失数据敏感性分析（Sensitivity analysis of missing data）**：对比BMI特征的三种缺失处理策略（列表删除、全局中位数插补、全局均值插补），性能差异较小，说明模型对BMI插补策略具有鲁棒性。

- **消融实验（Ablation experiments）**：
- **KAN的有效性（Effectiveness of the KAN）**：将KAE中的KAN替换为标准多层感知机（MLP）后（变为AE-GCN），F1得分从0.272降至0.206，AUC从0.832降至0.752，表明KAN有助于学习更具判别性的特征表示。
- **分类方法的影响（Impact of Classification Methods）**：将GCN替换为ANN、MLP、CNN（分别对应KAE-ANN、KAE-MLP、KAE-CNN）后，IGStrokeNet在精确率、灵敏度、F1和AUC上均最优，证实图卷积在利用结构感知特征依赖方面的优势。
- **类别平衡的重要性（Importance of Class Balancing）**：在不使用SMOTE-ENN的情况下（数据集不平衡），灵敏度从0.522降至0.437，F1得分从0.272降至0.260，说明类别平衡显著提升了少数类检测能力。

- **可解释性分析（Interpretability analysis）**：基于SHAP（Shapley Additive Explanations）的特征重要性分析显示，年龄的平均SHAP值最高，其次是工作类型、BMI和婚姻状况。具体而言，年龄越大预测风险越高；特定工作类型（如高强度体力劳动或压力型职业）与高风险相关；高BMI对应正向SHAP值；已婚状态可能具有保护效应。

**讨论与结论**

研究人员在讨论中指出，IGStrokeNet在无泄漏协议下取得了具有临床意义的性能，其优势源于对特征个体性的保持与特征间依赖关系的联合建模。消融实验确认了KAE和动态图组件的关键作用。研究局限在于：缺少数值缺失的明确建模（仅采用简单均值插补），且SHAP分析未提供归因稳定性的定量基准。未来方向包括：引入缺失感知学习策略、评估归因鲁棒性、采用生成对抗网络（GAN）进行数据增强、探索图变换器（Graph Transformer）等更先进架构，以及扩展到其他模态的医学数据。研究结论翻译如下：本文提出了IGStrokeNet，一个有效且可解释的卒中风险预测框架。该方法包括四个主要组件：（1）一个鲁棒的数据预处理流水线以增强少数类识别；（2）一个新颖的帧内-帧间特征编码模块用于判别性表示学习；（3）一个动态特征图构建模块以捕获潜在特征关系；（4）通过基于GCN的分类器进行结构感知学习。实验结果表明，IGStrokeNet在无泄漏评估协议下取得了具有竞争力和临床意义的性能，特别是在对比基准中获得了最佳的AUC和F1得分，表明其在全局判别和少数类检测之间实现了强平衡。

联系信箱：

粤ICP备09063491号

热点排行