通过超参数优化特征选择的机器学习模型用于地下水质量指数评估——以印度奥里萨邦贾杰普尔地区雨季后的案例研究为例

《Journal of Water Process Engineering》:Hyperparameter optimized feature selected machine-learning models for groundwater quality index – A post-monsoon case study in Jajpur, Odisha, India

【字体: 时间:2026年02月06日 来源:Journal of Water Process Engineering 6.7

编辑推荐:

  地下水质量指数预测中采用贝叶斯优化人工神经网络、随机森林和多元线性回归模型,基于印度贾普尔区12个样本的12项水文化学参数。结果显示ANN模型最优(R2=0.999),RF模型经特征选择后R2达0.936,验证了集成方法在数据有限情况下的有效性。

  
Sushree Sabinaya | Nageswar Sahu | Biswanath Mahanty | Naresh Kumar Sahoo | Sunil Kumar Sahoo | Vivekanand Jha
印度布巴内斯瓦尔Siksha 'O' Anusandhan大学化学系,环境科学项目,邮编751030

摘要

在工业和农业影响区域,地下水污染对饮用水的安全性和可持续性构成了严重威胁,因此需要快速可靠的水质评估。本研究基于奥里萨邦Jajpur地区一次雨季后的地下水样本采集(12个水化学参数),开发了贝叶斯超参数(HP)优化的人工神经网络(ANN)、随机森林(RF)和简单多元线性回归(MLR)模型来预测地下水质量指数(WQI)。HP优化的单隐藏层6神经元ANN模型的拟合度(R2:0.999,R2_CV:0.991)优于RF模型(R2:0.945,R2_CV:0.792)。在评估模型质量(韧性、验证和预测因子重要性)后,采用了不同的基于过滤器和包装器的特征选择策略来提高模型的可解释性和鲁棒性。贝叶斯HP优化结合特征选择后,ANN模型的R2_CV为0.981,RF模型分别为0.936和0.830,分别保留了8个和5个特征。本研究提供了一个透明且数据效率高的基于ML的WQI预测框架,对地下水监测和基于证据的政策干预具有实际价值。

引言

人为污染物通过农业活动、废水处理、工业运营以及无计划的城市化广泛排放到水体中[1],加上年降水量和补给量的不确定性[4],对地下水资源的数量和质量构成了威胁。这一问题在印度的工业化地区尤为明显,包括先前的研究报告中提到的Jajpur地区[5]。长期饮用含有高浓度硝酸盐(NO??)[6]、氟化物(F?)或放射性化合物的地下水会带来重大的公共卫生风险,表明地下水污染是一个国际性的而非局部性的公共卫生问题[7]。监测水质对于有效管理资源至关重要,使当局能够及时采取适当的补救措施[8]。 解读大量的水质参数可能很困难,将它们汇总成一个综合评分——即水质指数(WQI)——对于决策特别有吸引力。在WQI的构建中,每个水质参数都被缩放到一个无量纲的子指数,然后根据其相对重要性进行汇总。已经提出了多种参数化的WQI建模方法,包括加权算术指数和基于规则的指数,以满足区域或特定地点的需求[9]。尽管子指数生成步骤相对相似,但不同WQI模型在选择聚合权重时存在差异。 使用PCA分析的绝对载荷[10]或熵加权水质指数(EWQI)中的参数熵来确定WQI的参数权重本质上会受到样本大小和水质数据方差的影响[11]。变化较大的水质参数并不一定意味着具有更危险的影响。使用允许浓度来制定参数权重直观且直接,但仍受到“专家判断”偏差的影响[12]。尽管如此,WQI模型在水质指标选择、子指数生成、参数权重分配和汇总方面仍可能存在显著不确定性[13]。 近年来,监督学习(ML)方法越来越多地被用于水质预测[14],与传统方法相比显示出更好的预测性能[15],[16]。ML模型可以学习多变量水质数据中的潜在模式。WQI可以作为ML模型的有效目标变量,将多变量水化学信息整合为一个单一的、以决策为导向的指数。虽然传统汇总方法得到的WQI值需要作为“标记”信息[17],但ML模型的应用范围超越了仅仅用黑箱模型替代透明关系的局限[18]。基于ML的WQI预测的优势在于使用低成本替代测量、预测未来趋势、处理缺失数据以及使用较少的水质参数[19]。 支持向量回归器(SVR)[20]、人工神经网络(ANN)和基于集成的随机森林(RF)等多种分类和回归模型已被广泛用于WQI预测[21],[22]。特征选择和可调超参数(HPs)的识别对于开发简洁、鲁棒的ML模型至关重要,这些模型能够保持准确性、速度和泛化能力[23]。基于过滤器的特征方法(如最小冗余最大相关性(MRMR)在模型开发前对特征进行排序,而包装器方法则利用模型拟合度来指导特征选择,评估特征子集以确定最关键的组合[24]。另一方面,通常采用穷举网格搜索、随机搜索或高级元启发式搜索来进行HP优化。高斯过程驱动的贝叶斯优化在探索和利用之间提供了有效的权衡。然而,特征选择和HP优化通常独立进行,常常导致模型复杂化或过拟合[25]。 尽管先进的ML模型已被广泛用于水质和WQI预测[14],[15],[16],但大多数现有研究主要关注预测准确性,而对数据有限条件下的模型泛化能力、特征稳定性和对测量不确定性的鲁棒性关注较少。HP优化和特征选择往往被单独处理,这可能导致过拟合并降低可解释性,尤其是在样本量较小的情况下。在本研究中,开发了三个HP优化的机器学习模型(即ANN、RF和MLR),用于预测来自奥里萨邦Jajpur地区74个雨季后地下水样本的水质指数,这些样本包含了12个水化学特征。完整特征的模型系统地接受了准确性、敏感性、韧性和与参考WQI的一致性评估。随后采用了三种不同的HP优化结合的特征选择策略(基于过滤器和包装器的策略)。最佳特征选择的ML模型被用来预测WQI。

研究区域描述

Jajpur地区是印度奥里萨邦最工业化的地区之一,位于北纬20°51′至东经86°20′之间(20.85°N,86.33°E),面积达2888平方公里,划分为10个tehsils和10个blocks(见图1),海拔高度为8米,年降水量为1771.8毫米。该地区的西北部排水系统与Damsal Nala河相连,河流呈东北-西南方向流动,海拔高度在100–180米之间;南部的Mahagiri山海拔高达300米。地质详情可在地区调查报告中找到[26]。

水质参数的统计分析

本研究使用的物理化学参数包括pH值、电导率(EC)、溶解氧(DO)、Mg2?、Ca2?、HCO??、Cl?、NO??和SO?2?,对这些参数进行了统计分析(见表3)。测得的SO?2?(18.793 ± 24.400 mg/L)、PO?3?(0.651 ± 0.614 mg/L)和铀(0.974 ± 2.937 μg/L)浓度低于世界卫生组织规定的允许限值[46],表明这些地下水可以归类为淡水。样品的电导率范围为53.4至3000 μS/cm,其中35.1%的样品...

结论

本研究评估了奥里萨邦Jajpur地区的雨季后地下水质量,并使用ML模型(AWQI、RWQI、LWQI)建立了传统的GWQI模型。超过90%的样本在所有模型变体中被分类为“优秀”或“良好”质量。ANN模型实现了高预测准确性,而RF模型在特征选择方面表现更好。贝叶斯方法识别出了最佳的特征子集(R2:0.936,R2_CV:0.830),包括五个关键预测因子(EC、F?、NO??、MgH?和HCO??)...

CRediT作者贡献声明

:撰写原始草稿、方法论、调查、正式分析。 :撰写原始草稿、可视化、软件、正式分析。 :撰写原始草稿、可视化、软件、概念化。 :撰写原始草稿、监督、资源管理、项目协调。 :验证、资源管理、调查。 :验证、资源管理、调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

其中一位作者(NKS)感谢印度政府BARC下属的BRNS部门在国家铀项目下的财政支持,用于开展这项研究工作。项目编号为No.36(4)114/19/2014-BRNS/1169-I。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号