
-
生物通官微
陪你抓住生命科技
跳动的脉搏
关于尿路感染生物标志物筛查的研究以及基于机器学习算法的预测模型
《BMC Medical Informatics and Decision Making》:Research on biomarkers screening for urinary tract infection and the prediction model based on machine learning algorithms
【字体: 大 中 小 】 时间:2026年05月22日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
摘要背景尿路感染(UTIs)每年影响超过15亿人,然而对细胞因子组合作为生物标志物的系统筛查仍然有限。本研究旨在利用机器学习算法分析临床数据,识别与我们研究群体中尿路感染密切相关的细胞因子,并探索潜在的候选生物标志物,以便进一步验证其在尿路感染的早期诊断、治疗和预后评估中的作用。
尿路感染(UTIs)每年影响超过15亿人,然而对细胞因子组合作为生物标志物的系统筛查仍然有限。本研究旨在利用机器学习算法分析临床数据,识别与我们研究群体中尿路感染密切相关的细胞因子,并探索潜在的候选生物标志物,以便进一步验证其在尿路感染的早期诊断、治疗和预后评估中的作用。
临床数据被收集并分为训练集和测试集,比例为7:3。在训练阶段,应用了10折交叉验证技术(重复10次)结合网格搜索来筛选五种分类算法(即逻辑回归、随机森林、自适应提升、支持向量机和朴素贝叶斯)的最佳参数,并构建了相应的预测模型。最终模型得分通过多次迭代的平均准确率来确定,并生成了混淆矩阵。对于每个训练和测试的模型,都绘制了接收者操作特征(ROC)曲线,并计算了曲线下面积(AUC)。通过AUC评估选择了性能最佳的模型,并分析了每个特征对该模型的贡献权重。
在五种模型中,随机森林模型表现优异,其接收者操作特征曲线下面积(AUROC)达到0.836,精确度-召回率曲线下面积(AUPRC)高达0.942。支持向量机模型的精确度最高,为0.928。朴素贝叶斯模型在召回率和F1分数方面表现突出,分别为0.840和0.841。根据随机森林模型的变量重要性预测,确定年龄、IFN-γ、IL-6、IL-2和IL-10等因素具有相对较高的重要性得分。使用测试集评估模型的预测能力时,发现随机森林和AdaBoost模型的AUC和AUPRC值显著高于其他模型。校准曲线分析进一步证实了这些模型的高准确性和可靠性。
在五种模型中,随机森林模型的预测性能最佳。随机森林模型的变量重要性分析确定IFN-γ、IL-6、IL-2和IL-10等细胞因子是我们研究群体中的重要特征,表明它们可能与尿路感染的诊断相关。这些细胞因子有望成为尿路感染精准医学中极具潜力的生物标志物。
尿路感染(UTIs)每年影响超过15亿人,然而对细胞因子组合作为生物标志物的系统筛查仍然有限。本研究旨在利用机器学习算法分析临床数据,识别与我们研究群体中尿路感染密切相关的细胞因子,并探索潜在的候选生物标志物,以便进一步验证其在尿路感染的早期诊断、治疗和预后评估中的作用。
临床数据被收集并分为训练集和测试集,比例为7:3。在训练阶段,应用了10折交叉验证技术(重复10次)结合网格搜索来筛选五种分类算法(即逻辑回归、随机森林、自适应提升、支持向量机和朴素贝叶斯)的最佳参数,并构建了相应的预测模型。最终模型得分通过多次迭代的平均准确率来确定,并生成了混淆矩阵。对于每个训练和测试的模型,都绘制了接收者操作特征(ROC)曲线,并计算了曲线下面积(AUC)。通过AUC评估选择了性能最佳的模型,并分析了每个特征对该模型的贡献权重。
在五种模型中,随机森林模型表现优异,其接收者操作特征曲线下面积(AUROC)达到0.836,精确度-召回率曲线下面积(AUPRC)高达0.942。支持向量机模型的精确度最高,为0.928。朴素贝叶斯模型在召回率和F1分数方面表现突出,分别为0.840和0.841。根据随机森林模型的变量重要性预测,确定年龄、IFN-γ、IL-6、IL-2和IL-10等因素具有相对较高的重要性得分。使用测试集评估模型的预测能力时,发现随机森林和AdaBoost模型的AUC和AUPRC值显著高于其他模型。校准曲线分析进一步证实了这些模型的高准确性和可靠性。
在五种模型中,随机森林模型的预测性能最佳。随机森林模型的变量重要性分析确定IFN-γ、IL-6、IL-2和IL-10等细胞因子是我们研究群体中的重要特征,表明它们可能与尿路感染的诊断相关。这些细胞因子有望成为尿路感染精准医学中极具潜力的生物标志物。