利用机器学习和合成数据生成进行的数据驱动型水质评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Data driven water quality assessment using machine learning and synthetic data generation

【字体：大中小】 时间：2026年06月07日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要为所有人提供新鲜干净的水是可持续发展目标6的宗旨。饮用清洁的水可以改善全球所有生物的健康状况。因此，由于水质数据的动态特性、用于估算水质的物理或数据驱动模型的选择，以及缺乏用于训练数据驱动模型的大型水数据集，准确估计水质并对水质进行分类（即判断其是否适合饮用）被认为是一个具有

摘要

为所有人提供新鲜干净的水是可持续发展目标6的宗旨。饮用清洁的水可以改善全球所有生物的健康状况。因此，由于水质数据的动态特性、用于估算水质的物理或数据驱动模型的选择，以及缺乏用于训练数据驱动模型的大型水数据集，准确估计水质并对水质进行分类（即判断其是否适合饮用）被认为是一个具有挑战性的问题。本研究的主要目标是生成合成数据集，并提出先进的机器学习模型来预测水质。在本研究中，通过过采样技术生成合成数据，以平衡水质数据集，并在平衡的数据集上训练模型进行水质分类和预测。实验结果表明，使用SMOTE方法生成的合成饮用水最终数据集的质量令人满意，其最大平均差异（MMD）得分为0.0067。此外，GB和XGB机器学习模型在合成饮用水最终数据集上的测试准确率高达99.47%。GAN生成的合成饮用水最终数据集上的机器学习模型表现也非常出色；然而，MMD得分表明合成数据的质量略逊一筹。同样，使用SMOTE（MMD=0.0006）和GAN（MMD=0.0016）生成的合成水质分析数据集的MMD得分也值得关注。综合评估结果表明，通过过采样技术生成的合成数据集将提高模型的预测准确性。

联系信箱：

粤ICP备09063491号

摘要

热点排行