《Frontiers in Cardiovascular Medicine》:Predictive voting model for early diagnosis of diabetes dataset
编辑推荐:
本研究旨在构建预测投票模型(包括硬投票和软投票),以利用从阿曼一家政府医院收集的数据集中检索到的多个风险因素,改进糖尿病在初始糖尿病前期的诊断系统。研究聚焦于识别糖尿病的显著预测因子并提高早期诊断的准确性。利用知识发现数据库(KDD)模型进行实验。分析了一个包
本研究旨在构建预测投票模型(包括硬投票和软投票),以利用从阿曼一家政府医院收集的数据集中检索到的多个风险因素,改进糖尿病在初始糖尿病前期的诊断系统。研究聚焦于识别糖尿病的显著预测因子并提高早期诊断的准确性。利用知识发现数据库(KDD)模型进行实验。分析了一个包含N=4104名登记患者和14个变量的33个月历史数据集。用于糖尿病分类的特征包括年龄、身高、体重、性别、舒张压和收缩压、胆固醇水平、血糖水平和血红蛋白水平。应用了五种监督分类算法构建投票模型:决策树(J48)、K-近邻(KNN)、支持向量机(SVM)、随机森林和朴素贝叶斯。研究发现,硬投票模型相比软投票模型取得了最高的预测准确率(84.7%)。此外,糖化血红蛋白检测(HbA1c)、空腹血浆葡萄糖(FPG)和年龄被确定为预测糖尿病的最重要因素。提取的规则表明,HbA1c是糖尿病诊断的初始标准,阈值为6.3。研究表明,集成投票模型在改善糖尿病前期阶段的预测方面具有有效性。所识别的预测因子和提取的规则可能支持医疗专业人员做出更早、更准确的诊断决策。此外,领域专家的参与以及使用分类患者病例对规则进行验证,增强了所提出模型的可靠性和实际适用性。
糖尿病(Diabetes Mellitus, DM)是一种严重的慢性疾病,被定义为一种异常的代谢性疾病,其特征是由于胰岛素分泌不足或胰岛素功能无效导致血糖升高。在全球范围内,约10%的糖尿病患者发展为1型糖尿病,约90%的患者发展为Ⅱ型糖尿病。在阿曼苏丹国,由于糖尿病前期、超重和肥胖的高发病率,糖尿病的患病率已成为一个重大的健康问题。1991年,世界卫生组织(WHO)进行的首次全国糖尿病调查显示,20岁及以上阿曼人的糖尿病患病率为8.4%。2000年进行的一项类似的全国健康调查显示,糖尿病患病率上升至11.6%,并在2008年进行的后续研究中上升至13.2%。预计在未来二十年内,糖尿病患病率还将继续增长,从2020年的15.2%增长至2050年的23.8%。全球疾病负担报告显示,导致阿曼健康损失的主要疾病的流行病学转变中,糖尿病已从1990年的第12位上升至2010年的第2位。然而,目前用于诊断糖尿病患者的筛查系统非常有限。现有的筛查系统分为三种情况:一是患者出现典型症状时;二是针对40岁及以上人群,通过每三年举行一次的非传染性疾病(NCDs)项目进行;最后是对高风险人群的机会性筛查。因此,缺乏对年轻人群的常规筛查以及糖尿病的晚期诊断,导致该国发病率增高和治疗成本增加。预防和延缓糖尿病发生在诊断的初始阶段,通过简单的生活方式改变和饮食调整。因此,应实施有效的糖尿病筛查,以提高生活质量并最大限度降低医疗保健系统的成本。数据挖掘是一个重要的过程,被定义为从给定数据集中提取先前未知但可能有用的信息的过程。传统诊断依赖医生的经验,可能产生不准确的结果。因此,在医院中应用数据挖掘技术,特别是预测模型,可以利用患者可用的历史数据,在糖尿病前期的最早阶段准确诊断糖尿病。医疗保健中心的信息过载需要复杂的工具来分析和提供规划与决策报告。因此,需要数据挖掘技术来从海量数据集中提取隐藏的有趣模式。重要的是,数据挖掘已成为医疗保健领域的一种活跃研究工具,用于分析生物数据并解决生物学问题。因此,本研究旨在应用数据挖掘技术,构建预测集成模型,以改进糖尿病诊断系统,该系统能够使用从政府医院数据集检索的多个患者相关因素,在初始糖尿病前期阶段预测糖尿病。本研究的详细目标如下:使用在预测糖尿病中最常用的五种监督分类算法构建预测集成投票模型,并评估其性能,以识别基于最高预测准确率的最优集成模型;使用表现优异的集成模型,演示模型在临床环境中的应用,该环境使用一个由未知目标变量组成的新数据集;应用分类算法提取从苏丹卡布斯大学医院(Sultan Qaboos University Hospital, SQUH)收集的数据集中可用的有价值知识。
该研究的实验设计遵循KDD流程模型。首先进行数据选择,从SQUH仓库中选取包含12个糖尿病诊断特征(包括用于将患者分类为“真”或“假”的目标变量)的样本数据集。接下来是预处理和数据清理阶段,主要过程包括用0替换缺失值、移除离群值和极端值,并应用信息增益函数识别可纳入糖尿病预测和分类的重要属性。然后,使用十折交叉验证法将数据集划分,其中9折参与训练预测模型,1折用于验证模型的分类过程。该过程对每一折重复十次,并计算平均预测结果,为每个分类模型提供最终预测。最后,使用不同的评估指标评估模型,以识别实验中表现最佳的算法。为了提高模型的准确性,应用了合成少数类过采样技术(Synthetic Minority Oversampling TEchniques, SMOTE)来增加糖尿病实例的数量,以平衡目标变量(真、假)。重复第3、4和5步,以在不同场景下比较模型,从而提高模型的准确性和可靠性。此阶段的成果是获得最准确的算法,推荐用于临床预测患者是真糖尿病还是假糖尿病。最后一个阶段是模型的应用,即应用不包含目标变量的新数据集,评估在前面过程中获得最高准确率的模型的预测过程。将平衡后的数据集用于训练模型,同时将不含目标变量的数据集用于测试模型将患者分类为真或假糖尿病的能力。为了利用SQUH数据库中存储的糖尿病数据集,将知识发现过程应用于所选模型产生的预测结果。应用J48算法从数据集中提取有价值的知识,生成树状图的图形表示,并由此推导出临床规则。
实验数据集来自苏丹卡布斯大学医院(SQUH)的数据库,为Excel格式,涵盖了2019年1月至2021年10月在家庭与社区医学诊所(Family and Community Medicine Clinic, FAMCO)收集的患者记录。数据集包含4,104条患者记录和14个属性,包括13个自变量和一个指示糖尿病状态(真/假)的因变量类别标签。属性包括人口统计变量(患者序号、性别、年龄)、身体测量(身高和体重)、生命体征(收缩压和舒张压)以及实验室检查结果,包括低密度脂蛋白胆固醇、总胆固醇、随机血糖(Random Blood Glucose, RBG)、空腹血浆葡萄糖(Fasting Plasma Glucose, FPG)、HbA1c和甘油三酯。所有预测变量均为数值型,除性别和类别标签为名义型外。统计特征显示临床测量值范围广泛且变异性大;例如,年龄范围从21到84岁(平均=51.0,标准差=13.1),而收缩压平均值为133.6(标准差=31.2)。部分属性存在缺失值,最显著的是RBG(84%)、身高(34%)和FPG(31%),而年龄、性别和类别标签等核心变量没有缺失数据。类别分布包括1,451例糖尿病病例(40.7%)和2,653例非糖尿病病例(59.3%),患者中男性1,669例,女性2,435例。
研究应用了十折分层交叉验证。由于数据集存在类别不平衡问题(糖尿病病例1,088例,非糖尿病病例2,485例),应用SMOTE技术将少数类(糖尿病病例)的样本数量增加了125%,基于k=5个最近邻生成1,360个新样本,最终将总样本数增加到4,933个,其中非糖尿病样本2,485个,糖尿病样本2,448个。模型性能使用标准评估指标进行评估,包括准确率、精确率、召回率(灵敏度)、特异度、假阳性率和受试者工作特征曲线下面积(AUC)。
在实验1(不平衡数据集)中,硬投票模型正确分类的糖尿病患者为651例,非糖尿病病例为2,353例,预测准确率为84.1%,共正确分类3,004例。AUC曲线达到77.3%。在实验2(平衡数据集)中,投票模型的准确率有所提高。硬投票取得了最高的准确率84.7%,基于正确分类的糖尿病实例1,944例和非糖尿病实例2,235例。加权平均真正率(灵敏度)为84.7%,假阳性率为15.4%;结果表明模型的特异度为84.6%(1-假阳性率)。精确率达到85.1%。召回率和F值分别为84.7%和84.7%。因此,应用多数投票机制组合基分类器预测结果的投票模型可用于临床预测患者是真糖尿病还是假糖尿病。
与使用相同数据集的单个算法相比,在实验1中,硬投票方法取得了最高的准确率84.1%,而支持向量机(SVM)和朴素贝叶斯(NB)的预测准确率分别为83.7%和83.8%。J48和KNN的准确率分别为81.6%和75.9%。在实验2中,模型的整体性能有所提高。然而,J48、SVM和NB的准确率下降至81.4%、80.1%和79.1%。KNN的准确率从75.9%提高到82.9%。过采样技术为KNN提供了更准确预测的额外机会。KNN算法对不平衡数据集敏感,因为它基于最近邻预测新实例。随机森林(Random Forest, RF)被认为是一种强大的同质集成分类器,其贡献提高了投票集成模型的性能,因为它取得了最高的预测准确率86.3%。
根据KDD流程模型,最后一个阶段描述了从数据集中提取知识以及模型的应用。预测结果显示,硬投票模型取得了最高的可靠准确率。因此,选择它来演示模型在医院环境中的应用,因为它能够以84.7%的准确率准确预测患者是糖尿病还是非糖尿病。将平衡后的数据集用于训练硬投票模型。该数据集包含4,933个实例和12个属性,其中2,485个为假,2,448个为真。加载一个具有相同属性但输出变量被替换为“?”以代表未知目标变量的新文件,以预测未分类的患者并验证模型在医院应用中的有效性。预测结果可以被查看并导出到外部文件(如CSV文件或文本文件)以供进一步使用。从数据集中提取的图形表示显示了年龄、FPG和HbA1c这三个对糖尿病发展贡献最大的顶级特征。应用J48算法从数据集中提取有价值的知识。提取的规则表明:规则1:如果HbA1c > 6.3,则患者诊断为真(798例患者);规则2:如果HbA1c ≤ 6.3且FPG ≤ 6.7,则患者诊断为假(2,669例患者);规则3:如果HbA1c ≤ 6.3且FPG > 6.7,则患者诊断为真(106例患者)。结果表明,通过HbA1c和FPG测量的血糖升高被认为是显著的危险因素。相关性分析和特征选择也发现,HbA1c、FPG和年龄对糖尿病的发展贡献很大;然而,在提取的规则中,年龄并不显著。根据SQUH数据集,从实际患者数据中提取的HbA1c初始临界点为6.3,这与美国糖尿病协会(ADA)标准存在差异。为了验证硬投票集成模型在实验1中相比单个分类器的改进是否具有统计学意义,应用了麦克尼马尔(McNemar)显著性检验。结果表明,投票模型正确分类但单个分类器错误分类的实例数量始终高于反向情况,产生的χ2值高于临界阈值(3.84,p < 0.05)。这表明投票集成模型相对于单个算法在实验1中的性能提升是统计学显著的,而非随机变异所致。
讨论部分指出,集成投票方法,特别是硬投票策略,在平衡和不平衡数据集上均提供了强大的预测性能。实验2的性能改进表明,数据集平衡对分类可靠性有积极影响,特别是通过减少假阳性并提高特异性。集成方法优于大多数单个分类器,证实了组合多个模型的决策可以提高鲁棒性和预测稳定性。从临床角度来看,硬投票模型稳定的准确率以及灵敏度与特异性的平衡分布表明其适用于医院筛查场景的实际部署。与许多先前仅报告模型准确率的研究不同,这项工作使用未见过的患者记录演示了操作模型的实用性,支持了现实世界的适用性。提取的决策规则进一步增强了可解释性。HbA1c和FPG成为主要预测因子,这与既定的糖尿病诊断标准一致。有趣的是,推导出的HbA1c临界值(6.3)与卫生部和ADA指南的值略有不同,这表明存在数据集特异性的临床差异。最后,麦克尼马尔检验证实,集成模型相对于单个分类器的改进在统计学上是显著的,而非随机变异所致,这加强了对集成方法的信心。
外部验证表明,与使用相同投票算法的先前研究相比,本研究提出的模型取得了更高的准确率。Prema等人(2019)使用包含十一种算法的硬投票模型,在交叉验证过程中预测结果为80.95%,在训练/测试分割下为79.53%。Kumari等人(2021)使用包含三个基分类器的软投票模型,预测结果为79.04%。本研究中的硬投票模型在实验1中为84.1%,实验2中为84.7%;软投票模型在实验1中为83.5%,实验2中为83.9%。因此,硬投票优于软投票,它依赖于大多数基分类器正确分类的实例,而不是通过计算单个分类器的平均概率来组合预测结果。
研究结论部分指出,本研究提出了一个基于SQUH数据库真实临床数据的、用于早期糖尿病预测的稳健集成投票框架。实施了全面的知识发现数据库(KDD)流程,包括广泛的数据预处理、清洗、特征准备、偏差缓解和多模型集成构建。原始数据集包含不完整、不一致和有噪声的属性,需要大量预处理——超过80%的工作量——以生成高质量、无偏见的结果。该过程包括处理缺失值、离群值和极端值,移除不相关特征(如序号),将文本空值转换为数值型,平衡真和假糖尿病实例,并执行特征选择和相关性分析。分析确定了HbA1c,其次是FPG和年龄,作为糖尿病最显著的预测因子,其中HbA1c作为初始诊断标准,可能简化患者分类并指导门诊血糖控制。值得注意的是,从数据集中得出的HbA1c和FPG临界点与ADA标准不同,这表明阿曼社区特定的阈值可能通过早期干预降低糖尿病患病率。集成框架整合了五种不同的分类器——J48、KNN、SVM、随机森林和朴素贝叶斯——使用硬投票和软投票策略来提高预测可靠性并克服单个模型的局限性,如过拟合和高方差。硬投票模型取得了最高的准确率84.7%和AUC 84.7%,在区分真假糖尿病病例方面表现出强大的性能。随机森林也表现出强大的个体性能,为整体的集成鲁棒性做出了贡献。这些结果凸显了组合多样化的基分类器可以增强泛化能力,降低方差,并在平衡和不平衡数据集上产生稳定的预测。除了预测性能,这项研究还提供了一种方法论透明且临床适用的方法,包括可重现的参数配置、偏差处理以及使用未见过的患者记录进行的面向部署的验证。总体而言,所提出的集成投票框架为医疗环境中的AI辅助糖尿病预测提供了一个可靠、可扩展和实用的基础,支持早期诊断和个性化患者护理。