《Cardiology Research and Practice》:Comparing the Performances of Support Vector Machines and Artificial Neural Networks for Predicting Coronary Artery Diseases: A Cross-Sectional Study
编辑推荐:
背景
冠状动脉疾病(CAD)被认为是一种炎症性疾病,且仍然是全球范围内发病和死亡的主要原因之一。更广义而言,心血管疾病(CVD)是全球死亡和功能障碍的重要贡献因素。本研究旨在比较多种无创技术在检出CAD方面的诊断性能。
方法
本研究采用横断面研究设计,共
背景
冠状动脉疾病(CAD)被认为是一种炎症性疾病,且仍然是全球范围内发病和死亡的主要原因之一。更广义而言,心血管疾病(CVD)是全球死亡和功能障碍的重要贡献因素。本研究旨在比较多种无创技术在检出CAD方面的诊断性能。
方法
本研究采用横断面研究设计,共纳入758名参与者,其中508例诊断为CAD,250例未患该病。研究人员评估了两种机器学习模型——人工神经网络(ANNs)和支持向量机(SVMs)的诊断表现。分类模型采用受试者工作特征(ROC)曲线、敏感度、特异度和总体准确度进行评价。
结果
本研究共纳入758名参与者。其中,250名个体被诊断为非CAD病例(男性33.6%,女性66.4%),508名参与者被判定为CAD病例(男性64%,女性36%)。采用ANN模型预测CAD时,ROC曲线下面积(AUC)为0.752(95%置信区间(CI):0.682–0.823);采用SVM模型时,AUC为0.793(95% CI:0.733–0.853)。两种模型在CAD预测性能方面存在统计学显著差异(p = 0.03),其中SVM模型表现出更优的预测性能(AUC = 0.793,95% CI:0.733–0.853)。
结论
在基于简单临床预测因子进行CAD风险预测时,SVM较ANN表现出更优性能。
该文发表于《Cardiology Research and Practice》,围绕冠状动脉疾病(CAD)的机器学习辅助诊断展开,核心目标是在真实临床数据基础上比较支持向量机(SVM)与人工神经网络(ANN)对CAD的预测能力。研究背景在于,心血管疾病(CVD)仍是全球过早死亡和伤残的首要原因之一,而CAD作为其中最常见且临床意义最突出的类型,其早期准确识别直接关系到药物治疗、生活方式干预、血运重建及长期生存结局。虽然冠状动脉造影仍是判断血管狭窄的金标准,但其临床可及性、侵入性及资源依赖性限制了其在部分地区的广泛应用,因此利用常规临床资料建立非侵入性预测模型具有重要现实意义。既往研究已经将决策树、ANN、SVM、贝叶斯算法、模糊神经分类器等多种方法用于CAD预测,但仍存在若干问题:一是许多模型基于样本量有限或高度筛选的数据集,外部适用性不足;二是部分研究过于强调准确率,未充分报告敏感度、特异度和ROC曲线下面积(AUC)等更具临床解释价值的指标;三是常用模型在统一评价框架下的直接比较仍相对缺乏。基于此,研究人员开展本项横断面研究,旨在用一致的训练和验证条件,对ANN与SVM进行系统比较,并据此识别更适合CAD早期识别的预测方法。
本研究纳入伊朗Sari市Fatemeh Zahra教学医院因疑似心血管疾病接受冠状动脉造影的758例受试者,其中508例被判定为CAD,250例为非CAD。CAD结局依据心脏科医师临床判断结合造影结果确定。研究人员收集人口学、病史及实验室指标,采用卡方检验比较分类变量,采用Mann–Whitney U检验比较连续变量,并以最小-最大标准化处理全部变量。数据按70%训练集、30%测试集随机划分,在MATLAB 2017中构建ANN与SVM模型。ANN采用误差反向传播(backpropagation)训练,并使用Levenberg–Marquardt(LM)算法优化;SVM则基于统计学习理论与结构风险最小化原理进行二分类。模型性能通过准确度、敏感度、特异度及AUC进行评价,AUC差异进一步进行统计学比较。样本来源为单中心医院造影人群。
研究结果部分首先在“3.1. Sample Characteristics”中展示了建模样本的基础特征。758例疑似CAD并接受造影者中,67.02%最终诊断为CAD。与非CAD组相比,CAD组男性比例更高,吸烟和非法药物使用比例显著升高,年龄更大,空腹血糖(FBS)、血尿素氮(BUN)、肌酐(Cr)、收缩压和舒张压均更高,而高密度脂蛋白(HDL)更低,差异均具有统计学意义。血型、Rh抗原、高血压病史、一级亲属心脏病家族史、糖尿病史、饮酒、总胆固醇(TC)和甘油三酯(TG)等变量在两组间未见显著差异,低密度脂蛋白(LDL)处于边界显著水平。该部分结果说明,研究样本中的CAD患者在人口学特征、代谢指标和血压水平上呈现出与既有临床认知相一致的风险分布特征。
在“3.2. Risk Factors for CAD”中,研究人员基于全部样本进行单因素Logistic回归分析,识别与CAD相关的风险因素。结果显示,HDL和体质指数(BMI)在统计学上表现为保护因素,其中HDL的比值比(OR)为0.96,BMI的OR为0.91。相对地,男性、年龄增长、吸烟、非法药物滥用、FBS升高、BUN升高、肌酐升高、收缩压升高和舒张压升高均与CAD风险增加相关。其中,男性发生CAD的可能性高于女性,OR为3.50;肌酐的OR为6.56,提示肾功能相关指标与CAD存在较强关联。该部分结果为后续模型输入变量与临床解释提供了依据,也反映出常规临床信息对CAD识别具有可利用价值。
在“3.3. Performance of Three Prediction Models”中,论文重点比较了预测模型的表现。尽管正文标题写作“三种预测模型”,但表格和摘要中主要报告的是ANN与SVM在测试集上的比较结果。ANN模型的准确度为0.758,敏感度为0.861,特异度为0.558,AUC为0.752(95% CI:0.682–0.823)。SVM模型的准确度为0.750,敏感度同样为0.861,特异度为0.532,AUC为0.793(95% CI:0.733–0.853)。AUC比较显示,SVM较ANN提高4.1%,差异具有统计学意义(p = 0.03)。这一结果表明,虽然两种模型在敏感度方面相同、准确度相近,且SVM特异度略低,但从整体判别能力看,SVM对CAD与非CAD个体的区分能力更强,因此在该研究条件下表现出更优的全局预测性能。
讨论部分围绕模型比较、文献对照和临床意义展开。研究人员指出,SVM在CAD预测中的总体表现优于ANN,尤其在AUC这一综合判别指标上具有显著优势。与此同时,各模型在准确度上的差异并不明显,提示单纯依赖准确率并不足以全面评价临床预测模型。作者将本研究结果与既往多项研究进行了对照,发现部分研究同样支持SVM优于ANN,而另一些研究则显示两者差异有限,甚至ANN在某些场景下具有更高敏感度。论文据此强调,模型性能与数据集结构、变量构成、样本量以及验证策略密切相关,因此统一条件下的直接比较尤为必要。研究还指出,基于真实世界临床数据的比较有助于研究者理解不同算法对数据结构的适应性,从而为疾病分类任务中的模型选择提供经验依据。根据文中总结,在常规非侵入性诊断手段之外,SVM可作为一种具有可接受准确度、敏感度和特异度的辅助预测工具,用于CAD识别。
论文还明确了研究局限。首先,本研究为基于登记资料的横断面研究,且缺乏患者用药前的基线实验室资料。其次,数据来自单中心医院,模型的泛化能力可能受限。再次,缺少临床症状和心电图(ECG)等额外信息。作者同时指出,样本量相对有限,且未纳入冠状动脉CT血管成像等影像学参数,这些因素都可能影响模型比较的稳健性与临床适用性。尽管如此,研究仍说明,仅利用住院患者中常规可得的临床指标,机器学习方法即可实现中等水平的CAD判别。
研究结论部分可译述为:ANN与SVM均表现出中等诊断效能。尽管两者敏感度相当,但SVM具有更优的判别能力,其AUC为0.793(95% CI:0.733–0.853),而ANN为0.752(95% CI:0.682–0.823),提升幅度为4.1%,且差异具有统计学意义(p = 0.03)。然而,SVM的特异度较低,提示整体判别能力与分类平衡之间存在权衡。总体而言,在本研究条件下,SVM对CAD提供了更好的全局预测性能。尽管如此,模型表现依赖于数据集特征,并受变量选择与验证策略影响;因此,在临床应用前,必须采用具有临床意义的指标进行严格评估,且仍需要更大规模、多中心并具有外部验证的研究以确认其普适性。