
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用机器学习和合成数据生成进行的数据驱动型水质评估
《Scientific Reports》:Data driven water quality assessment using machine learning and synthetic data generation
【字体: 大 中 小 】 时间:2026年06月07日 来源:Scientific Reports 3.9
编辑推荐:
摘要为所有人提供新鲜干净的水是可持续发展目标6的宗旨。饮用清洁的水可以改善全球所有生物的健康状况。因此,由于水质数据的动态特性、用于估算水质的物理或数据驱动模型的选择,以及缺乏用于训练数据驱动模型的大型水数据集,准确估计水质并对水质进行分类(即判断其是否适合饮用)被认为是一个具有
为所有人提供新鲜干净的水是可持续发展目标6的宗旨。饮用清洁的水可以改善全球所有生物的健康状况。因此,由于水质数据的动态特性、用于估算水质的物理或数据驱动模型的选择,以及缺乏用于训练数据驱动模型的大型水数据集,准确估计水质并对水质进行分类(即判断其是否适合饮用)被认为是一个具有挑战性的问题。本研究的主要目标是生成合成数据集,并提出先进的机器学习模型来预测水质。在本研究中,通过过采样技术生成合成数据,以平衡水质数据集,并在平衡的数据集上训练模型进行水质分类和预测。实验结果表明,使用SMOTE方法生成的合成饮用水最终数据集的质量令人满意,其最大平均差异(MMD)得分为0.0067。此外,GB和XGB机器学习模型在合成饮用水最终数据集上的测试准确率高达99.47%。GAN生成的合成饮用水最终数据集上的机器学习模型表现也非常出色;然而,MMD得分表明合成数据的质量略逊一筹。同样,使用SMOTE(MMD=0.0006)和GAN(MMD=0.0016)生成的合成水质分析数据集的MMD得分也值得关注。综合评估结果表明,通过过采样技术生成的合成数据集将提高模型的预测准确性。