利用可解释的机器学习方法量化影响农村饮用水质量的因素
《Environmental Impact Assessment Review》:Quantifying drivers of rural drinking water quality using interpretable machine learning
【字体:
大
中
小
】
时间:2026年03月14日
来源:Environmental Impact Assessment Review 11.2
编辑推荐:
本研究基于四川217个农村水源地数据,采用GA-RF模型和SHAP分析,揭示铜、硒是水质主要驱动因素,坡度14-34°及年降水量813-1096mm/年存在显著阈值效应,为农村水质管理提供科学依据。
天子湖|刘一涵|肖恒斌|潘恒宇|高晓峰|陈志良
教育部三峡水库区域生态环境重点实验室,重庆大学环境与生态学院,重庆400045,中国
摘要
实现可持续发展目标6仍然是全球优先事项,然而农村饮用水质量经常受到多种因素的影响。尽管水质建模已经取得了进展,但量化这些因素对水质指数(WQI)的复杂非线性相互作用仍然具有挑战性,导致政策实施的可解释性有限。本研究系统地评估了中国四川省217个水源的农村水质影响因素。通过比较十一种机器学习算法,遗传算法优化的随机森林(GA-RF)被确定为最佳模型,显示出较高的预测准确性(MAE = 0.04,RMSE = 0.08,R2 = 0.80)。利用Shapley加性解释(SHAP)方法,我们分离了生物物理、社会经济、土地利用和土地覆盖(LULC)以及景观因素的非线性影响。
研究结果表明,铜(Cu)和硒(Se)是决定水质等级的主要因素。生物物理因素,特别是坡度(贡献率为33%)和年降水量(16%),是WQI变化的主要决定因素。值得注意的是,SHAP依赖性分析确定了关键阈值:坡度在14°到34°之间通常对WQI有正面影响,而年降水量在813–1096毫米之间与水质显著恶化相关。这些结果强调了制定针对性管理策略以改善农村水质的重要性,为全球类似地区的流域管理和农村水资源安全干预提供了科学依据。
引言
安全饮用水对人类健康、社会稳定和经济进步至关重要,然而截至2022年,全球仍有22亿人无法获得安全管理的饮用水(联合国,2023年)。在农村地区,水源通常直接来自井、河流或水库,且没有集中处理,因此特别容易受到自然和人为因素的污染(Laauwen和Nowicki,2024年;Zhu等人,2023年)。例如,不可持续的农业实践导致了地下水富营养化和硝酸盐污染,影响了大约3亿中国农村居民(Smith和Siciliano,2015年)。农村地区频繁的水污染事件阻碍了实现可持续发展目标6(清洁水和卫生设施),特别是在缺乏基本水服务的地区(Gizaw等人,2022年;Ma等人,2020b;V?r?smarty等人,2010年)。世界卫生组织(WHO)强调了确保农村地区安全饮用水的紧迫性(世界卫生组织,2022年)。因此,了解农村饮用水质量的驱动因素对于制定有效的管理策略以支持可持续发展至关重要。
饮用水质量受到生物物理、土地利用和土地覆盖(LULC)、景观以及社会经济因素的影响(Huo等人,2025年;Lei等人,2021年;Zhang等人,2019年)。生物物理因素,如气候和地形,通过改变水文循环和污染物传输来影响水质(Li等人,2024年;Pratt和Chang,2012年)。LULC和景观模式影响污染物负荷和路径,以农作物为主的流域比以林地为主的地区表现出更高的氨氮和总磷水平(Campanh?o和Ranieri,2023年)。社会经济因素,如地区国内生产总值(GDP)和化肥使用,也间接影响水质(Zhou等人,2025年;Zuidema等人,2023年)。尽管传统的统计框架(例如冗余分析和主成分分析)已经量化了这些因素(Castrillo和García,2020年;Mostafaei,2014年;Nong等人,2020年;Tozer,2023年),但它们对线性和分布假设的依赖往往无法捕捉环境系统中的复杂非线性阈值(Zhang等人,2025b)。
为了解决这些复杂性,机器学习(ML)已成为识别非线性模式和阈值效应的强大方法(Huang等人,2021b;Zhang等人,2025a)。然而,为了克服阻碍ML在政策制定中应用的“黑箱”限制,使用可解释的ML算法来揭示潜在的驱动机制已成为一个重要趋势和广泛认可的方法(Choudhary等人,2025年;Hridoy等人,2025a;Hridoy等人,2025b)。在回顾相关研究后,我们确定了三个关键的研究空白:(1)现有方法未能充分捕捉多个水质驱动因素之间的复杂相互作用;(2)环境驱动因素与WQI之间的非线性关系和阈值效应仍然缺乏详细描述;(3)缺乏一个强大且透明的框架来量化每个驱动因素的相对贡献和单独效应,从而限制了将准确、可解释的ML模型转化为可操作的水资源管理政策。
为了解决这些挑战,我们采用了基于Shapley加性解释(SHAP)的可解释ML框架,来量化中国四川省217个农村水源中29个驱动因素的贡献(图1)。我们用于揭示复杂环境效应的定量方法受到了Moradi等人(2025年)在高山生态系统研究中使用的框架的启发。本研究的目标是通过WQI评估农村饮用水质量,通过比较11种机器学习模型来识别关键驱动参数,并使用SHAP分析阐明非线性关系。基于这些目标,我们的研究旨在提供以下核心贡献:(1)如何设计一个优化和简化的水质评估框架,准确优先考虑不同农村水源的最敏感参数。(2)如何使用可解释的机器学习方法系统地量化驱动因素对水质的贡献。(3)如何揭示驱动因素在WQI中的复杂非线性响应机制和具体阈值。(4)这些量化的阈值和识别的驱动因素对未来实施有针对性的缓解措施和可持续水资源管理规划有何影响。该框架为全球可持续农村水资源管理提供了可行的见解。
研究区域
本研究评估了2015年5月至2020年4月期间从中国四川省217个农村饮用水源收集的301个水样。采样点分布在达州市(n = 152)、简阳市(n = 72)和雅安市(n = 77),以捕捉不同的生态和社会经济条件。这些地点代表了未经处理的地表水,供应给约250万居民。详细信息见表S1。
采样
饮用水质量状况
我们评估了中国四川省217个农村水源的301个样本中的13个水质参数和WQI(图3,表S10)。在这项研究中,共收集了301个水样,来自三个代表性地区:简阳市(n = 72)、达州市(n = 152)和雅安市(n = 77)。大多数物理和化学参数,包括pH值和F?,均符合中国的I类标准。水样主要为碱性(平均pH值7.69),溶解氧水平也令人满意。
影响农村饮用水质量的关键参数
尽管中国农村地区占土地面积的90%,居住着41.5%的人口,但其水资源安全仍然严重受损。主要原因包括监测不足、农业造成的广泛非点源污染,以及与畜牧业和生态旅游相关的水源退化(Dickson等人,2016年;Evans等人,2019年)。我们的研究确定铜(Cu)、硒(Se)、总磷(TP)和氨氮(NH?-N)是中国四川省农村水质的主要影响因素。
结论
我们评估了中国四川省217个农村饮用水源的301个水样的WQI,确定铜(Cu)、硒(Se)、总磷(TP)和氨氮(NH?-N)是评估农村水质的关键参数。通过比较11种机器学习算法,我们发现GA-RF模型在量化各种驱动因素的贡献方面最为准确。SHAP分析显示,生物物理驱动因素,特别是坡度(SL)和降雨量(PR),是影响WQI变化的主要因素,其次是土壤湿度指数(SHDI)。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号