基于可解释机器学习的心房颤动亚型早期鉴别：一项多中心回顾性研究及其对精准诊疗的启示

《BioData Mining》：Early differentiation between paroxysmal and persistent atrial fibrillation based on interpretable machine learning: a multicenter retrospective study

【字体：大中小】 时间：2026年02月22日 来源：BioData Mining 6.1

编辑推荐：

　　本研究为一项多中心回顾性研究，旨在开发一种基于结构化电子健康记录（EHR）的可解释机器学习模型，以在初诊时精准区分阵发性与持续性心房颤动（AF）。研究筛选了11,986例疑似AF患者，最终纳入4,155例初诊AF患者进行分析。CatBoost模型表现出最佳性能，曲线下面积（AUC）达0.876，准确率达0.808。研究证实，利用临床人口统计学、血清学指标和超声心动图参数等变量建立的模型，可实现AF亚型的准确早期鉴别，为个体化治疗决策和风险分层提供了新工具，有助于改善AF患者预后。

引言

心房颤动（AF）是最常见的持续性心律失常，与卒中、心力衰竭、认知能力下降等风险增加密切相关。早期发现AF对于启动适当治疗至关重要。目前，根据最新欧洲心脏病学会（ESC）和美国心脏协会（AHA）指南，大多数AF筛查是机会性的，且容易漏诊阵发性或短期持续性AF患者。现有指南强调，阵发性与持续性AF具有不同的治疗策略和远期临床预后。值得注意的是，在中国门诊AF病例中，阵发性AF和持续性AF分别约占38.9%和39.2%。因此，早期区分这两种AF亚型具有重要的临床价值。当前大多数研究者专注于通过分析心电图（ECG）信号中的AF发作现象来区分亚型，而较少从既往病史、血清学检查和心脏超声结果等多角度进行评估。近期人工智能（AI）和机器学习（ML）技术的进步为开发新工具提供了机遇。特别是利用电子健康记录（EHR）数据的ML模型，在心血管医学中的应用日益广泛。机器学习方法尤其适合于对高维异质的EHR数据进行建模，通过结合可解释性技术，这些模型不仅能提供更好的预测性能，还能提供对风险因素的临床见解。本研究旨在利用从中国三家三级医院收集的患者数据，开发一个可解释的ML模型，以准确区分初诊患者的阵发性与持续性AF，并确定新的AF相关风险因素，同时开发在线计算器以促进研究成果的广泛应用，为AF管理的个性化诊疗铺平道路。

方法

本研究是一项多中心回顾性研究，数据来源于中国不同地区的三家三级医疗机构：中山大学孙逸仙纪念医院（SYSMH）、中山大学东华医院（DH）和东莞松山湖东华医院（SSH）。

患者入组与数据收集

入组标准包括：2013年1月至2023年1月期间住院；有AF节律记录（通过心电图、24小时动态心电图或起搏器存储记录确认），均为首次诊断AF，但初始诊断时的具体AF亚型未明确；AF为出院诊断，根据国际疾病分类第十版（ICD-10）分类为阵发性或持续性AF。阵发性AF定义为自行终止、持续时间少于7天的发作，持续性AF定义为持续时间超过7天且需要医疗干预的持续发作。排除标准包括：有风湿性心脏病、先天性心脏病等病史；患有可能影响心脏结构或功能的全身性疾病；严重肝肾功能不全；或临床数据不完整。本研究所有程序均符合中国人体实验委员会的伦理标准和1975年《赫尔辛基宣言》。

变量选择

收集了所有纳入受试者的人口统计学数据、用药情况、血清学指标和基线心脏超声数据，共50个变量。首先对所有收集的变量进行Spearman相关性分析，初步筛选出与AF亚型诊断相关的变量（P< 0.05）。随后，基于先前研究，添加了几个被认为与AF亚型诊断相关的变量。接着，通过梯度提升树递归特征消除（RFE）和随机森林RFE进一步筛选变量。通过以上步骤，全面评估变量重要性，为后续模型构建提供支持。

机器学习算法

本研究使用了五种广泛采用的梯度提升机（GBM）算法：LightGBM、AdaBoost、GradientBoost、XGBoost和CatBoost。采用五折交叉验证来全面评估它们在数据集上的性能。

用于机器学习的SHAP可解释性分析

SHAP（SHapley Additive exPlanations）是一种基于博弈论的方法，用于量化每个特征对模型最终预测的贡献。通过计算Shapley值，SHAP将模型输出分解为每个特征的加性贡献，有助于解释模型并识别对结果影响最显著的特征。

统计分析

正态分布的连续变量用均数±标准差（SD）表示，非正态分布的用中位数（四分位距，IQR）表示。连续变量的分布采用Shapiro–Wilk正态性检验，比较采用Mann-Whitney U检验。分类变量用计数和百分比表示，比较采用χ²检验。双尾P值 < 0.05被认为具有统计学意义。使用受试者工作特征曲线下面积（AUC）、灵敏度（SEN）、特异度（SPE）、准确度（ACC）、精确度（PRE）、召回率和F1分数来评估ML模型区分阵发性与持续性AF的能力。使用具有4个节点的限制性立方样条（RCS）曲线检验自变量与结果之间的非线性关系。

结果

变量选择结果

经过筛选，最终纳入10个变量，可分为三类：人口统计学数据、心脏超声和血清学指标。人口统计学数据包括收缩压（SBP）。超声心动图参数包括左心房直径（LA）和左心室射血分数（LVEF）。血清学参数包括白细胞（WBC）、中性粒细胞（NC）、血红蛋白（Hb）、N末端B型利钠肽原（NT-proBNP）、尿酸（UA）、低密度脂蛋白胆固醇与高密度脂蛋白胆固醇比值（LDL-C/HDL-C）以及血浆动脉粥样硬化指数（AIP）。AIP是摩尔浓度（mmol/L）下甘油三酯（TG）与高密度脂蛋白胆固醇（HDL-C）比值的对数转换值，数学上来源于log（TG/HDL-C）。这些变量在三个独立中心的分布及其与AF诊断亚型的相关性在文中图表中清晰展示。

参与者的基线特征

最初从DH、SYSMH和SSH收集了11,986例患者。根据纳入和排除标准，最终入组4,155例患者，其中阵发性AF和持续性AF分别为2,565例（61.29%）和1,620例（38.71%）。三个中心阵发性与持续性AF的比例也接近60%和40%。最终纳入模型的所有变量的基线特征在文中表格展示。

AF亚型预测模型的结果

如方法部分所述，使用了五种机器学习方法构建模型。以样本量最大的DH数据集作为主要数据集，进行五折交叉验证。在每次交叉验证中，将DH数据集按8:2的比例分为训练集和内部验证集，并同时对SYSMH和SSH数据集进行独立外部验证。该策略有助于消除数据划分的影响，确保结果更可信。模型的输出变量是预测的AF诊断亚型，与出院时EHR中记录的诊断进行比较。比较评估指标发现，本研究中建立的模型具有良好的预测性能和稳定的泛化能力。

在基于DH数据集构建的总体模型中，GradientBoost模型的准确度最高，为0.791，其次是CatBoost模型，为0.789。在AUC值比较方面，GradientBoost模型的值为0.859，略低于CatBoost模型的最大值0.861。在灵敏度和特异度方面，GradientBoost模型和CatBoost模型分别表现最佳。对于两个独立验证集SSH和SYSMH，除了SSH的最高特异度由AdaBoost模型实现外，CatBoost模型获得了最高的准确度0.808、AUC值0.876、灵敏度0.802和特异度0.811。文中总结了每个中心及各算法五折交叉验证每一折的AUC结果。

AF亚型预测模型的解释

如图表所示，通过按绝对SHAP值降序排列，说明了不同变量对模型输出的影响。对区分不同AF类型诊断影响最显著的五个变量是LA、NT-proBNP、Hb、LVEF和UA。图表更直观地展示了这些变量与AF诊断类型的关系。可以观察到LA、LVEF和UA以某种模式影响AF的诊断。例如，LA显示出从蓝色到红色的渐变，在SHAP值0附近有明显的颜色边界，表明LA值与AF诊断类型之间存在规律性模式。具体而言，当LA值较低时，模型倾向于预测阵发性AF，而较高的LA值与持续性AF的诊断相关。图表显示了所有变量对所有样本分类的影响，其中红色表示对模型预测有正向影响（持续性AF），蓝色表示有负向影响（持续性AF）。图表进一步使用SHAP方法说明了每个变量对特定样本模型预测的影响。图表显示了在区分AF亚型方面影响最大的前五个变量如何随着每个变量的变化而影响模型的输出。例如，随着LA增加，其贡献将模型的预测推向持续性AF。

在早期区分AF亚型为阵发性或持续性的模型中，前五个变量是LA、NT-proBNP、LVEF、UA和SBP。对于这些变量，进一步获得了它们之间的相互影响关系并绘制成散点图。文中还通过限制性立方样条分析探讨了这五个变量在三个独立中心与AF诊断亚型的关系。

亚组中AF亚型预测模型的性能与解释

将每个中心的参与者分为六组：60岁以下男性、60岁以下女性、60-65岁男性、60-65岁女性、65岁及以上男性、65岁及以上女性。模型在不同亚组中均取得了良好的预测性能。文中按不同年龄亚组的男性或女性对不同中心之间的AUC结果进行了排序绘制。补充材料中展示了这些结果以及其他评估指标的具体数值。同样，使用SHAP方法可视化模型的可解释性。所有亚组的SHAP图汇总在补充材料中。任何年龄亚组中影响最大和第二大的因素都是LA和NT-proBNP，这与整体模型相似。

讨论

本研究整合了中国三家独立大型三级医院的EHR数据（临床病史、血清指标和心脏超声），建立了一个基于机器学习的可解释模型，以提前准确区分阵发性和持续性AF。筛选出了新的AF亚型相关因素，不仅为进一步的机制研究提供了依据，还帮助建立了一个在线网络计算器，可以准确区分首次发生AF的患者长期将是阵发性还是持续性AF，并给出概率。此外，评估了不同年龄和性别亚组中影响诊断的变量，以确认这些变量在早期区分阵发性和持续性AF亚型方面的重要性和特异性。

AF是卒中、心力衰竭、心血管死亡和痴呆的常见原因。全球AF负担正在上升，而亚太地区患者占全球AF患者的大多数，其中中国患者在亚太地区的估计患病率排名第五，绝对患病率排名第一。中国和亚太地区面临着挑战，包括医疗保健可及性和诊断技术可用性方面的巨大差异。基于本研究开发的模型和在线计算器有助于缩小不同地区之间的医疗保健差距，并改善因诊断技术不足导致的AF患者长期预后。

本研究发现了10个可以提前准确区分阵发性与持续性AF的变量，这与我们先前的研究结果部分相似。基于SHAP方法获得的模型中，LA是影响最大的关键变量。先前研究发现，LA是预测新发AF和早期区分AF亚型的最重要指标之一，其增加与AF从阵发性进展为持续性相关。我们的研究在全人群和不同亚组中验证了这一观点。最新研究表明，这种现象可能的致病机制是心房心肌病和心房纤维化，左心房直径是这些潜在机制的临床表现。

另一个关键变量是UA，我们的结果表明，较高的UA水平更可能被诊断为持续性AF。这一结论与最近发表的一篇综述的观点一致。阵发性AF和持续性AF之间的UA水平存在显著差异，这种剂量反应关系可以在不同疾病背景的人群中观察到。潜在机制可能是高UA不仅可能通过心血管疾病增加AF风险，还可能通过氧化应激、炎症、胰岛素抵抗和肾素-血管紧张素-醛固酮系统激活等机制直接影响AF的发展，最终导致电重构、自主神经系统改变、异常Ca²⁺处理和心房重构。全球高UA患者的发病率逐年上升，它影响着中国约14.0%甚至更多的成年人。因此，UA与AF亚型的关系应是进一步研究的重点。

我们的研究还进一步证实了SBP在区分AF亚型中的重要性，这与近期一项基于中国心血管医疗质量改进-心房颤动项目研究的结论一致。因AF入院患者的较高血压水平与卒中/短暂性脑缺血发作和心力衰竭（HF）风险增加相关，而较低的血压水平与HF和全因死亡率风险增加相关。SBP较低的患者更可能患有持续性AF，并伴有更大的HF风险。血压与AF类型及预后的关系需要进一步研究来阐明。

研究表明，AF的流行病学和风险因素存在明显的性别差异，且年龄增长与AF进展的关系已得到证实。我们结合性别和年龄进行了亚组分析。年龄分界点源自基于亚洲研究证据新发布的中国AF诊疗指南。我们通过在不同亚组中获得相似的模型性能，证实了模型的稳定性。组间比较也得出了一些有意义的结论，例如，男性在<60岁亚组的AUC最高，女性在60-64岁亚组的AUC最高。我们的研究在年轻年龄组实现了AF亚型的准确区分。最近一项研究得出结论，首次诊断AF时年龄较小与较高的卒中风险相关。因此，本研究有助于基于此结论对年轻年龄亚组进行早期抗凝治疗。

尽管如此，我们的研究也有一些局限性。我们只探讨了两种AF亚型的区分，而最新的ACC指南提出了AF演变的四个阶段。需要对更多亚型且具有长期随访的更大样本量AF患者进行研究，以实现AF亚型的准确多分类和进展预测。尽管患者来自不同省份，但本研究纳入的三个中心均在中国，这意味着未来需要添加其他地区和国家的更多中心，以使样本特征更加广泛。在增加研究中心和参与者的同时，不同中心之间样本占比的平衡也是我们进一步研究中需要注意的问题。

结论

在本研究中，我们收集了中国三家三级医院共11,986例患者的数据，开发了一种可解释的机器学习模型，能够准确区分初诊AF的早期阵发性AF与持续性AF亚型。此外，我们确定了新的AF相关风险因素，并实施了一个在线计算器，以促进我们的发现在整个中国乃至更广泛的亚洲人群中的应用。通过实现AF亚型的及时、精确识别，我们的方法旨在为临床决策提供信息，加强预防策略，并为AF管理的个性化诊疗铺平道路。

热点排行

新闻专题