综述:用于环境空气污染建模的可解释机器学习方法:系统综述

【字体: 时间:2026年03月04日 来源:Atmospheric Research 4.4

编辑推荐:

  可解释机器学习在空气污染建模中的应用综述,探讨其解释框架与化学传输模型、统计模型的差异,分析当前研究在概念和技术细节上的不足,提出需提升解释结果的可靠性和科学一致性。

  
邵延川|刘瑞阳|黄慎远|方文|杨建勋|刘淼淼|毕俊|马宗伟
中国江苏省南京市南京大学环境学院,水污染控制与绿色资源回收国家重点实验室

摘要

机器学习(ML)已广泛应用于空气污染建模。与传统方法相比,它能够提供高精度的时空预测。然而,由于其黑箱特性,ML的内部机制难以解释。可解释机器学习(IML)方法的出现可以提高对ML中变量关系的理解。尽管一些最近的综述中提到了IML,但与其他可解释方法相比,其概念和技术细节尚未得到充分探讨。这种理解上的差距可能会阻碍IML在空气污染建模中的有效和适当应用,因此需要全面审视其在该领域的能力和局限性。在本综述中,我们介绍了IML方法的概念、方法和应用。我们强调了化学传输模型、统计模型和ML在空气污染研究中的解释框架之间的差异。IML方法扩展了ML模型的适用范围,使其可用于预测和因果推断任务。我们认为,相关研究应明确在空气污染建模中使用IML方法时变量关系的解释范围和稳健性。需要进一步努力提高从IML方法得出的解释结果的可靠性和科学一致性。本综述为可解释空气污染建模的方法论进展提供了基础。

引言

空气污染是全球疾病负担中最重要的健康风险因素之一,据估计2019年导致11.3%的女性和12.2%的男性死亡(GBD 2019 Risk Factors Collaborators, 2020)。然而,由于缺乏空间和时间上的现场观测,关于空气污染健康影响的研究可能受到限制(Martin et al., 2019)。为了填补空气污染数据在空间和时间上的覆盖空白,当前的研究采用了各种方法,如化学传输模型(CTMs)和统计模型(Rybarczyk and Zalakeviciute, 2018)。使用统计方法进行空气污染建模,特别是那些基于机器学习(ML)算法的方法,因其高度灵活性(Li et al., 2020; Xu et al., 2021)以及捕捉空气污染物与预测因子之间非线性和高阶关联的能力而脱颖而出(Liu et al., 2022; Ma et al., 2022; Xue et al., 2019)。ML是一组允许计算机通过学习数据来进行和改进预测的方法(Samuel, 1967)。环境科学和工程中常用的ML算法包括基于树的集成学习方法(如随机森林)、极端梯度提升(XGBoost)以及深度学习方法(如卷积神经网络(CNN)和循环神经网络(RNN)(Liu et al., 2022; Zhu et al., 2023)。这些方法已广泛用于预测不同类型的空气污染物,包括颗粒物(Di et al., 2016; Geng et al., 2020; Meng et al., 2018b; Wei et al., 2019; Yu et al., 2022)和气体污染物(Ghahremanloo et al., 2021; Liu et al., 2020; Wu et al., 2021; Zhu et al., 2022)。与传统的统计模型相比,ML模型的预测准确性得到了提高。
尽管ML方法在空气污染领域得到了广泛应用,但仍存在一些固有的局限性。ML模型常被称为“黑箱模型”,这意味着很难理解其内部机制。可解释机器学习(IML)方法旨在以人类可理解的方式解释或呈现ML模型(Doshi-Velez and Kim, 2017),在空气污染建模中越来越受到关注。“IML”或“可解释机器学习(EML)”这些术语在相关研究中经常被使用(Hou et al., 2022a; Stadtler et al., 2022; Zhang et al., 2022a)。解释算法和范围也可能因所使用的ML模型而异(Park et al., 2020; Yan et al., 2021, Yan et al., 2021b)。在之前的综述中,IML方法被视为开发ML模型的典型工作流程中不可或缺的步骤(Zhong et al., 2021)。目前,大多数IML方法作为补充工具用于验证空气质量预测的可靠性。尽管一些综述介绍了IML在空气污染建模中的应用(Agbehadji and Obagbuwa, 2025; Houdou et al., 2024; Tasioulis and Karatzas, 2024),但相关领域往往缺乏对其概念和技术细节的讨论。此外,不正确的IML算法应用可能会产生意外结果,从而误导政策相关研究中的利益相关者(Hall and Gill, 2018; Liu et al., 2022)。因此,需要进行一项关键的文献综述来讨论IML在空气污染建模中的进展。
在本综述中,我们努力回答关于IML方法的三个主要问题:(1)在空气污染建模中,可解释性意味着什么?现有研究是如何探索这一概念的?(2)如何在ML中实现可解释性?IML方法是如何应用于空气污染建模的?(3)IML方法目前面临哪些挑战以及未来的发展方向?第2节介绍了综述的方法论,第3、4和5节分别讨论了这三个问题。

章节摘录

文献搜索策略和数据示例

在本综述中,我们旨在纳入那些认识到或强调模型可解释性的已发表研究。因此,我们使用以下查询在Web of Science Core Collection中进行了文献搜索:“TS = (空气污染) OR TS = (空气质量) OR TS = (PM2.5) AND (TS = (机器学习) OR TS = (深度学习) OR TS = (集成学习) OR TS = (数据驱动)”

空气污染建模中的可解释性

空气污染建模中的可解释性通常指的是我们如何解释空气污染对各种驱动因素的响应。空气污染是一个复杂的环境问题,受到多种排放源和不同气象条件的影响。已经开发了多种方法来探索空气污染物的潜在机制。CTMs和统计模型是相关研究中常用的两种方法。需要注意的是,大多数ML模型都基于

ML中可解释性的概述

与传统的统计模型相比,ML的潜在机制更为复杂。在将ML应用于空气污染研究的早期阶段,这些方法主要用于预测任务(Hu et al., 2017b; Just et al., 2020; Meng et al., 2018a; Ren et al., 2020a; Yan et al., 2020)。研究人员通常使用特征重要性或相关性指数等指标来评估所开发的ML模型的有效性(Chen et al., 2021; Yan et al., 2020)。这些方法

解释范围

在空气污染建模中,可解释性的边界仍然模糊。例如,某些研究中的可解释性指的是模型结果的可靠性和特征重要性。然而,它也可以涉及具体问题,如政策控制和社会经济因素对空气污染物的影响。我们在表3中总结了现有IML方法在空气污染研究中的常见解释范围。由于解释范围广泛,

CRediT作者贡献声明

邵延川:方法论、调查、形式分析。刘瑞阳:方法论、调查、形式分析、数据整理。黄慎远:方法论、调查、形式分析、数据整理。方文:方法论、调查。杨建勋:方法论、调查。刘淼淼:方法论、调查。毕俊:监督、资源获取、资金筹集。马宗伟:监督、资源获取、资金筹集。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(72234003、52570239和72488101)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号