空气污染是全球疾病负担中最重要的健康风险因素之一,据估计2019年导致11.3%的女性和12.2%的男性死亡(GBD 2019 Risk Factors Collaborators, 2020)。然而,由于缺乏空间和时间上的现场观测,关于空气污染健康影响的研究可能受到限制(Martin et al., 2019)。为了填补空气污染数据在空间和时间上的覆盖空白,当前的研究采用了各种方法,如化学传输模型(CTMs)和统计模型(Rybarczyk and Zalakeviciute, 2018)。使用统计方法进行空气污染建模,特别是那些基于机器学习(ML)算法的方法,因其高度灵活性(Li et al., 2020; Xu et al., 2021)以及捕捉空气污染物与预测因子之间非线性和高阶关联的能力而脱颖而出(Liu et al., 2022; Ma et al., 2022; Xue et al., 2019)。ML是一组允许计算机通过学习数据来进行和改进预测的方法(Samuel, 1967)。环境科学和工程中常用的ML算法包括基于树的集成学习方法(如随机森林)、极端梯度提升(XGBoost)以及深度学习方法(如卷积神经网络(CNN)和循环神经网络(RNN)(Liu et al., 2022; Zhu et al., 2023)。这些方法已广泛用于预测不同类型的空气污染物,包括颗粒物(Di et al., 2016; Geng et al., 2020; Meng et al., 2018b; Wei et al., 2019; Yu et al., 2022)和气体污染物(Ghahremanloo et al., 2021; Liu et al., 2020; Wu et al., 2021; Zhu et al., 2022)。与传统的统计模型相比,ML模型的预测准确性得到了提高。
尽管ML方法在空气污染领域得到了广泛应用,但仍存在一些固有的局限性。ML模型常被称为“黑箱模型”,这意味着很难理解其内部机制。可解释机器学习(IML)方法旨在以人类可理解的方式解释或呈现ML模型(Doshi-Velez and Kim, 2017),在空气污染建模中越来越受到关注。“IML”或“可解释机器学习(EML)”这些术语在相关研究中经常被使用(Hou et al., 2022a; Stadtler et al., 2022; Zhang et al., 2022a)。解释算法和范围也可能因所使用的ML模型而异(Park et al., 2020; Yan et al., 2021, Yan et al., 2021b)。在之前的综述中,IML方法被视为开发ML模型的典型工作流程中不可或缺的步骤(Zhong et al., 2021)。目前,大多数IML方法作为补充工具用于验证空气质量预测的可靠性。尽管一些综述介绍了IML在空气污染建模中的应用(Agbehadji and Obagbuwa, 2025; Houdou et al., 2024; Tasioulis and Karatzas, 2024),但相关领域往往缺乏对其概念和技术细节的讨论。此外,不正确的IML算法应用可能会产生意外结果,从而误导政策相关研究中的利益相关者(Hall and Gill, 2018; Liu et al., 2022)。因此,需要进行一项关键的文献综述来讨论IML在空气污染建模中的进展。
在本综述中,我们努力回答关于IML方法的三个主要问题:(1)在空气污染建模中,可解释性意味着什么?现有研究是如何探索这一概念的?(2)如何在ML中实现可解释性?IML方法是如何应用于空气污染建模的?(3)IML方法目前面临哪些挑战以及未来的发展方向?第2节介绍了综述的方法论,第3、4和5节分别讨论了这三个问题。