综述:利用可解释的机器学习:基于SHapley加性解释(SHAP)的洞察力、在基于吸附的环境修复领域带来的变革性影响以及相关争议

《Inorganic Chemistry Communications》:Harnessing interpretable machine learning: SHapley additive exPlanations (SHAP)-driven insights, transformative impact, and controversies in adsorption-based environmental remediation

【字体: 时间:2026年02月07日 来源:Inorganic Chemistry Communications 5.4

编辑推荐:

  机器学习通过预测污染物吸附行为优化环境修复工艺,但黑箱模型阻碍机理研究。SHAP分析能解释模型中关键参数(如pH、表面活性)对吸附效率的影响,为工艺设计提供理论支撑,但存在计算成本高、特征关联复杂等问题,需结合化学机理深化应用。

  
穆罕默德·卡贾维亚恩(Mohammad Khajavian)| 张真赫(Jin-Hyeok Jang)| 权在英(Jae-Young Kwon)| 李正民(Jung-Min Lee)| 李相佑(Sangyoup Lee)| 黄文贤(Moon-Hyun Hwang)| 杨恩泰(Euntae Yang)| 张在敬(Jae Kyung Jang)| 蔡圭贞(Kyu-Jung Chae)
韩国海洋与海事大学海洋科学与工程学院环境工程系,韩国釜山永道区泰钟路727号,49112

摘要

机器学习(ML)为环境修复提供了强大的预测能力,能够诊断污染源并优化重金属、染料和药品等污染物的处理过程。然而,许多ML模型的黑箱特性限制了其机制的可解释性,阻碍了其在过程设计中的应用。本文系统地综合并批判性地评估了Shapley Additive ExPlanations(SHAP)在基于吸附的水处理中的应用,以解决这一难题。尽管之前的研究已经证实了ML的广泛实用性,但专门针对SHAP方法论方面及其在揭示机制洞察力方面的作用的评估仍然不足。来自多项研究的综合证据表明,SHAP分析能够可靠地识别吸附行为的关键预测因子,包括决定污染物-吸附剂相互作用的表面面积和pH值等参数。对涉及SHAP可解释性争议和不同观点的研究的批判性回顾显示,尽管SHAP被广泛用于提取机制洞察,但其应用经常忽略了重要的方法论限制。本文最后概述了利用SHAP来深化基础理解和优化修复策略的未来研究方向。

引言

重金属、染料和药品是持久性的环境污染物,由于它们的高毒性、抗降解性和生物累积潜力,对生态系统和人类健康构成重大风险[1]、[2]、[3]、[4]、[5]、[6]。如果这些污染物没有得到适当的去除和控制,可能会导致慢性健康问题,包括神经系统疾病、器官功能障碍和致癌后果[7]、[8]、[9]、[10]。因此,有效的修复措施对于保护公共健康和维持生态平衡至关重要。在各种处理策略中,吸附技术因其操作简便性、成本效益以及在多种环境条件下的高效率而成为去除重金属、染料和药品的最常用方法[11]、[12]、[13]、[14]、[15]、[16]。基于吸附的技术还具备出色的可扩展性和灵活性,适用于工业规模应用和分散式水处理系统。吸附的选择性及其稳定的性能使其成为管理有害污染物的核心方法。基于这些优势,最近的研究利用机器学习(ML)显著改进了吸附过程[17]、[18]。
作为人工智能(AI)的一个子集,ML已成为吸附研究中的强大工具,能够准确预测和优化污染物去除过程[19]、[20]、[21]、[22]。随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGBoost)和人工神经网络(ANN)等算法已被广泛用于捕捉关键实验参数(如pH值、接触时间、温度和吸附剂剂量)之间的复杂非线性相互作用[23]、[24]、[25]、[26]。这些ML模型通过利用大型数据集,在多种操作场景下实现了高预测准确性。因此,基于ML的方法正在加速吸附系统的发展和优化。通过减少实验工作量,这些方法使得在水处理应用中能够基于数据做出决策。
高精度ML模型的黑箱特性[27]、[28]、[29]限制了其在环境中的应用。在公共卫生相关背景下,理解pH值和温度等关键变量的影响至关重要[30]、[31]、[32],而不仅仅是依赖预测性能。为了克服这一限制,越来越多地采用事后解释方法。这些方法将黑箱模型转化为可解释的工具,使研究人员能够识别关键变量,根据化学和物理原理验证预测结果,并揭示潜在的吸附机制[33]、[34]、[35]。通过量化特征贡献的幅度和方向,可解释的人工智能(XAI)在预测性能和机制理解之间架起了桥梁,增强了基于ML的吸附修复预测和优化。
为应对ML可解释性日益增长的需求,基于合作博弈论的Shapley Additive Explanations(SHAP)技术应运而生[36]、[37]、[38]、[39]。SHAP为每个特征分配了一个对模型预测的精确贡献值,提供了整个数据集的全球洞察和个别实例的局部解释。这种双层可解释性帮助研究人员评估模型准确性和其预测的基础。已经进行了多项研究,使用SHAP分析来解释重金属、染料和药品吸附过程的ML模型。在重金属吸附的背景下,多项研究表明SHAP分析在提高ML模型可解释性方面具有优势[40]、[41]、[42]。例如,一个基于文献的数据集包含了684个As3+在生物炭上的吸附数据和549个As5+在生物炭上的吸附数据(R2 = 0.90)。使用XGBoost对As3+和As5+吸附进行建模时,SHAP分析显示生物炭的组成和结构特性分别解释了40%和12%的As3+吸附变异性,以及21%和13%的As5+吸附变异性[43]。这些洞察使研究人员能够识别出控制砷去除的最重要特征,从而有助于优化处理受污染水的吸附条件。其他研究在染料和药品吸附过程的ML建模中使用了SHAP分析,以提高模型可解释性[44]、[45]。通过量化每个输入特征的贡献,SHAP有助于识别关键参数,指导吸附性能的优化和实验设计。将化学和物理吸附知识与SHAP输出相结合对于准确解释特征贡献和避免吸附建模中的误导性结论至关重要。
虽然之前的研究记录了ML在重金属、染料和药品等污染物吸附中的应用[46]、[47],但其重点主要集中在预测准确性上,对模型可解释性的分析有限。本文通过提供我们所知的首次全面综合和评估SHAP框架在基于吸附的环境修复中的可解释性,填补了这一空白。本研究探讨了SHAP的理论基础和可视化技术,并将其与其他可解释性和敏感性分析方法进行了比较,综合了已发表研究中使用SHAP识别关键特征和阐明吸附机制的发现。此外,还对SHAP驱动的可解释性进行了批判性评估,以突出关于SHAP解释的可靠性、目标和实际用途的不同观点。目的是指导研究人员应用SHAP来提高模型透明度、科学理解和吸附建模的可解释性,同时强调当前挑战并提出未来研究的方向。

部分摘录

机器学习在污染物吸附中的应用概述

图1a展示了ML技术在污染物吸附过程中的应用。ML通过先进的曲线拟合来建模等温线,优化过程参数,预测动力学速率,并根据吸附剂的结构特性筛选吸附剂。各种ML算法已被应用于模拟重金属吸附,其中RF、SVM、XGBoost和ANN使用最为广泛。这些模型因其能够从非线性、多变量数据中学习而受到青睐

机器学习模型可解释性在吸附研究中的重要性

近年来,由于ML能够识别多个系统变量之间的复杂非线性关系,它越来越多地被用于模拟和优化污染物去除过程[66]、[67]、[68]。这些模型提供了高预测准确性,并能够实现数据驱动的实验条件优化,从而减少时间和成本。然而,许多常用的ML算法(如RF、SVM和ANN)作为黑箱运行,其结果不透明

SHAP理论与分析

存在多种解释ML模型的工具,但基于博弈论的方法在量化单个特征对预测的影响方面被证明特别有效。博弈论可以大致分为合作和非合作框架(图3a)[78]。合作和非合作博弈论框架之间的主要区别在于玩家(特征)之间的互动方式:合作框架假设特征协同工作以实现共同目标

挑战

尽管SHAP已成为解释吸附科学中ML模型的变革性工具,但若干挑战限制了其在重金属、染料和药品去除研究中的更广泛和更有效的应用。
计算负担:随着数据集规模和模型复杂性的增加,SHAP的计算需求也会增加。例如,在涉及高维数据集和多种吸附剂及操作条件的研究中,SHAP的计算负担可能变得非常重,限制了其应用

结论

本研究表明,SHAP分析已成为解释和优化基于吸附的水处理系统的强大工具,扩展了ML的作用范围,超越了简单的预测功能。在多种研究中,SHAP一致地揭示了合成参数、材料特性和操作条件在塑造吸附性能方面的相对重要性。特别是,它突出了吸附剂结构、表面化学和溶液条件等关键因素的作用

CRediT作者贡献声明

穆罕默德·卡贾维亚恩(Mohammad Khajavian):撰写——审稿与编辑、撰写——初稿、可视化、验证、方法论、调查、正式分析、数据整理、概念化。张真赫(Jin-Hyeok Jang):撰写——审稿与编辑、可视化、验证、调查。权在英(Jae-Young Kwon):撰写——审稿与编辑、可视化、验证、调查。李正民(Jung-Min Lee):撰写——审稿与编辑、可视化、验证、调查。李相佑(Sangyoup Lee):撰写——审稿与编辑、验证

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了韩国政府(MSIT)资助的韩国国家研究基金会(NRF)(编号:RS-2023-00219497、RS-2023-00209009、RS-2023-00265777)的资助,以及韩国海洋与渔业部资助的韩国海洋科学技术促进院(KIMST)(编号:20210500)的资助,还有农村发展部资助的“农业科学技术发展合作研究计划”(编号:RS-2021-RD009997)的资助
穆罕默德·卡贾维亚恩(Mohammad Khajavian)是韩国海洋与海事大学的研究教授。他的研究重点是机器学习在预测建模中的应用、使用SHAP进行模型可解释性分析、超参数优化以及基于ML的过程优化。他的专长还包括分子动力学模拟、密度泛函理论(DFT)计算,以及在水相和气相环境中吸附过程的实验研究,应用于膜工程等领域
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号