利用一致性指数和交叉验证的特征选择框架,致力于开发适用于水质管理的、具备决策支持能力的可解释机器学习模型

《Environmental Research》:Towards decision-ready explainable machine learning for water quality management using a consistency index and cross-validated feature-selection framework

【字体: 时间:2026年03月10日 来源:Environmental Research 7.7

编辑推荐:

  可靠水质预测需结合可解释机器学习(XML)方法,但现有解释工具存在不一致性。本研究提出统一一致性指数(CI)量化多方法解释稳定性,并开发RFECV-XML流程实现数据驱动的特征筛选。在30年台湾东港溪数据上,对比发现:相关性筛选法(SHAP/PI/LIME)RMSE分别为0.77/0.64/1.07,而RFECV-XML保留85%特征(RMSE=0.75/0.57/1.20)。CI值0.42-0.72(相关性方法)与0.00-0.65(RFECV方法)显示,尽管特征重要性排序存在差异,但核心驱动因素(如NH4_1209、BOD_1209)通过α加权仍能保持稳定,为决策提供可靠依据。

  
赵晨辰 | 陈玉明 | 陈春宇
国立高雄科技大学安全、健康与环境工程系,台湾高雄市824

摘要

对水质动态的可靠预测和解释对于环境监测和基于风险的水资源管理至关重要。可解释机器学习(XML)提供了一种解释复杂预测模型的方法;然而,常用的解释方法往往会产生不一致的特征属性,而且特征选择通常依赖于主观的相关性阈值。本研究开发了一个统一的一致性指数(CI)和一个数据驱动的交叉验证递归特征消除(RFECV)工作流程,以定量评估和提高基于XML的解释的可靠性。使用一个30年的河水数据集和九种机器学习算法,评估了两种XML框架(基于相关性的XML和基于RFECV的XML)。基于相关性的模型取得了良好的预测性能(RMSE = 0.77、0.64、1.07),而RFECV将输入维度减少了69-85%(从6个特征减少到12个特征),同时保持了相当的准确性(RMSE = 0.75、0.57、1.20)。在整个基于相关性的工作流程中,CI值的范围分别为0.42至0.72、0.27至0.48和约0.60,表明解释工具之间存在较强的等级一致性。基于RFECV的XML保持了预测准确性,但产生了较低的CI值(0.00-0.65),反映了更紧密的top-k一致性,但全局排名连贯性较弱。这种模式代表了一种实际相关的可靠性形式,即在排名稳定性降低的情况下仍能保持对核心驱动因素的一致性。高和α稳定的CI值表明解释者之间的分歧是良性的,而低和α敏感的CI值则揭示了解释的不稳定性。通过提供对解释鲁棒性的定量诊断检查,本研究有助于确保基于XML的水质评估更加清晰、可信,并且更适用于实际决策。

引言

在过去十年中,由于机器学习(ML)模型在捕捉长期监测数据中的线性或非线性关系方面表现出色,因此越来越多地应用于水质预测(如表1所示)。然而,不仅准确的预测,而且对水质动态的可靠解释对于流域尺度的水资源管理也至关重要(Harken等人,2019年;Huang等人,2025年)。大多数现有的水质相关研究主要集中在使用各种ML算法提高预测准确性上,对模型可解释性的关注有限(表1)。虽然这些以预测为导向的方法提高了预测性能,但它们对主要水质驱动因素的洞察有限,从而限制了其在流域尺度管理中的实用性。此外,尽管一些水质相关研究开始采用可解释机器学习(XML),并整合了解释工具,如Shapley加性解释(SHAP)(Nourani等人,2025年)、排列重要性(PI)(Khan等人,2025年)和局部可解释模型不可知解释(LIME)(Infant等人,2025年),但它们通常依赖于单一的解释工具(主要是SHAP)。在少数研究中采用了两种解释工具,如SHAP和PI或SHAP和LIME(表1)。然而,没有一项研究系统地评估了多种XML解释工具之间的一致性。
然而,广泛使用的XML技术经常为相同的水质目标生成不同的特征排名或甚至相互矛盾的解释。这些分歧使得识别主要的水质驱动因素变得复杂,并在决策中引入了不确定性。尽管如此,考虑到每种方法都体现了不同的解释逻辑(全局加性效应、基于扰动的敏感性、局部实例行为),完美的共识既不预期也不理论上可实现。因此,XML中的一个关键未解决挑战是确定解释分歧是有意义的还是仅仅是方法论上的噪声,这个问题在以前的水质XML研究中尚未得到定量探讨。
据我们所知,现有的水质和环境领域的XML研究很少对多种解释方法进行系统比较。在其他应用领域(例如医疗保健)中,只有少数方法学研究开始描述性地比较各种解释工具的输出(Ahmed等人,2024年;Mitra等人,2025年);然而,这些努力仍然没有为评估跨方法的一致性或在水文不确定性下诊断解释的可靠性提供定量基础。为了填补这一空白,本研究引入了一致性指数(CI),这是一种统一的定量指标,旨在量化XML解释在跨模型和跨方法维度上的鲁棒性。通过引入权重因子α,CI表征了水质解释对方法选择的敏感性,从而将XML的可解释性与可靠性分析联系起来。
XML中的解释可靠性还强烈依赖于输入变量的选择方式。基于相关性的过滤在水质建模中被广泛使用(Abuzir和Abuzir,2022年;Bui等人,2020年;Wang等人,2017年),它影响了结果特征集的水文意义。然而,相关性阈值是主观的,可能会无意中保留冗余的水文信号或移除相关但相关性弱的指标。这种变异性可能会增加预测和XML解释的不确定性。为了弥补这些局限性,我们进一步开发了一个递归特征消除与交叉验证(RFECV)-XML工作流程,它提供了一种数据驱动的策略,用于识别紧凑且具有物理意义的驱动因素集。通过在解释之前隔离必要的水文预测因子,RFECV能够更清晰地归因于水质过程,并有助于结构化地比较特征集组成如何影响解释的稳定性,这是可靠性分析的关键步骤。应该强调的是,在监督学习中,高预测准确性并不一定意味着对底层系统的机制理解。因此,事后可解释性方法描述了模型如何利用相关输入进行预测,而不是揭示真实的物理或生物地球化学关联。
总之,本研究旨在(1)建立CI作为第一个统一的、定量的、有意义的指标,用于评估在方法论不确定性下XML解释的稳定性;(2)评估两种互补的工作流程(基于相关性的XML和RFECV–XML)如何影响长期河流流域数据集中的解释可靠性。通过明确将XML稳定性与可靠性分析和决策相关的不确定性联系起来,本研究为可持续的水质管理提供了一个透明且可复制的XML框架。

部分摘录

数据收集和清洗

数据集来自东港河流域(表S1),其中包含五个从上游到下游分布的长期监测站(站点ID 1206、1207、1208、1209和1210)。记录时间跨度为30年(1994-2023年),为评估长期水质动态提供了具有水文意义的时间深度。每个监测参数都被视为一个独立的特征。核心水质指标包括生化需氧量(BOD)、化学需氧量

基于相关性过滤的目标选择和预测性能

为了确定适合解释分析的目标变量,构建了皮尔逊相关矩阵(图1),包括无过滤(|r| > 0)(图1A)、中等过滤(0.3 < |r| < 0.9)(图1B)和严格过滤(0.5 < |r| < 0.9)(图1C)。这些设置代表了从全面特征包含到高度相关、聚焦子集的逐步过渡。在所有参数中,NH4_1209、RPI_1208和BOD_1209在所有情况下都表现出一致的高相关性

结论

本研究并不声称能够识别“真实”的特征-目标关系。相反,我们的目标是评估XML衍生的重要性排名在不同方法和工作流程中的稳定性,这对于环境应用中的解释可重复性至关重要。我们通过将CI与RFECV–XML工作流程相结合,开发了一个统一的框架,用于评估河流水质建模中可解释机器学习分析的可靠性。CI量化了跨方法的一致性

CRediT作者贡献声明

赵晨辰:写作 – 审稿与编辑,撰写原始草稿,验证,监督,软件,资源,项目管理,方法论,调查,正式分析,数据管理,概念化。陈玉明:写作 – 审稿与编辑,软件,方法论,正式分析,数据管理。陈春宇:软件,方法论,调查,正式分析,数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本项目得到了台湾国立高雄科技大学的教师启动基金的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号