近地表臭氧(O3)污染的持续恶化对生态系统和人类健康构成严重威胁,因此研究其形成机制和控制策略成为大气环境科学的热点(Lu et al., 2020; Zhang et al., 2023)。尽管自2013年实施《大气污染防治行动计划》以来,中国的细颗粒物污染得到了有效控制,但O3污染问题却日益突出(Ni et al., 2024)。研究表明,2015至2022年间,全国及重点城市群中以O3为主要污染物的天数比例增加了4.7%至6.6%。在长江三角洲(YRD),以O3为主要污染物的天数比例从2015年的20.1%增加到2022年的63.4%(Ni et al., 2024; Wang et al., 2025)。因此,O3已成为影响该地区空气质量的主要污染物,其防治成为进一步提升空气质量的关键(Xiao et al., 2024)。O3的形成是前体物排放、光化学转化和气象条件共同作用的结果。氮氧化物(NOx)和挥发性有机化合物(VOCs)是主要前体物,光化学氧化是O3形成的核心机制(Zhang et al., 2022)。气象因素通过影响前体物排放、污染物传输、化学反应速率和干沉降过程来影响O3浓度(Lee et al., 2023; Wang et al., 2017)。因此,准确且智能的O3预测以及量化各种驱动因素对O3形成的影响对于有效控制O3污染至关重要。
传统的O3预测方法(如化学传输模型CTMs)受到高计算成本和排放清单及化学机制不确定性的限制(Hou et al., 2022; Qian et al., 2022)。传统的统计模型(如多元线性回归和时间序列模型)基于历史数据建立O3浓度与影响因素(气象条件和前体物水平)之间的参数关系,但它们在捕捉复杂非线性相互作用方面存在局限性(Chen et al., 2020; Han et al., 2020)。机器学习(ML)模型因其在模拟复杂非线性系统方面的优势以及灵活性和高计算效率而越来越被用于O3预测(Grange et al., 2021; Wang et al., 2020b)。ML模型在墨西哥边境对对流层O3预测中的表现优于线性模型,RMSE降低了32.8%,R2提高了21.1%(Salazar-Ruiz et al., 2008)。同样,当随机森林(RF)模型用于修正Goddard地球观测系统-成分预测(GEOS-CF)时,次日O3预测的准确性显著提高,R2从约0.2提高到0.66。然而,单一ML模型常常存在较大预测误差,在复杂气象条件或高浓度期间难以准确反映污染事件(Watson et al., 2019)。为克服这些限制,开发了集成多种ML算法的多模型集成方法以减少偏差并提高预测稳健性(Xu et al., 2019)。例如,一种基于聚类的集成模型在全球O3预测中实现了0.92的R2(Liu et al., 2022);交叉堆叠集成方法在小时级预测中的表现优于单个模型,R2达到0.97(Ning et al., 2024);可解释的集成机器学习(EML)模型在杭州O3预测中表现出色,R2达到0.91(Zhang et al., 2024b)。
然而,ML模型的“黑箱”特性限制了其可解释性。为了解决这个问题,Lundberg和Lee引入了Shapley加性解释(SHAP)(Lundberg and Lee, 2017),这是一种基于博弈论的方法,用于量化每个输入特征对预测结果的贡献。近年来,可解释的EML模型在大气科学研究中得到广泛应用。例如,使用Light Gradient Boosting Machine-SHapley Additive exPlanations(LightGBM-SHAP)算法发现太阳辐射(SR)、温度(T)和蒸发是杭州湾地区O3污染的主要气象驱动因素(Yao et al., 2024)。在杭州,气象条件是O3形成的主要因素,占比58%(Zhang et al., 2024b)。此外,使用SHAP和因果森林模型量化了2022年中国O3反弹中温度升高(38.9%)和太阳辐射增强(18.5%)的贡献(Wang et al., 2025)。
当前基于ML的研究主要集中在O3浓度的预测上,而对特定情景下O3与其前体物(VOCs和NOx)之间的敏感性关系关注较少(Wang et al., 2023b)。O3形成敏感性通常通过经验模型(如臭氧生成效率OPE和HCHO/NO2比率)或光化学模型(如Observation-Based Model (OBM))进行评估(Martin et al., 2004; Wang et al., 2010)。然而,这些方法高度依赖于O3观测数据和详细的化学机制,其计算复杂性限制了它们的广泛应用(Wang et al., 2017)。目前,越来越多的研究使用ML模拟O3形成敏感性曲线。例如,LightGBM方法应用于南京的O3-VOC-NOx敏感性模拟,发现夏季和秋季主要受VOCs限制(Zhang et al., 2024a)。同样,在兰州应用EML-SHAP算法表明,O3形成受VOCs控制(Wang et al., 2023b)。ML方法可以探索O3-VOC-NOx之间的复杂非线性关系,且数据需求较低,能够高效生成O3敏感性曲线,为识别O3污染原因和制定控制策略提供更灵活、更可解释的工具。
上海是中国人口最密集、排放量最高的地区之一,工业和交通集中。近年来,上海的O3污染呈反弹趋势(Lu et al., 2023)。尽管多年来进行了大量研究(Xiao et al., 2024; Xue et al., 2023),但O3-VOC-NOx关系随着前体物排放的变化而持续变化。基于2021至2024年5月至9月的气象、空气污染物和VOCs观测数据,本研究采用堆叠EML框架结合SHAP(Stacking EML-SHAP)进行O3预测,并探讨上海持续性O3污染事件的驱动因素。本研究旨在:(1)基于气象因素和O3前体物建立高性能的实时预测模型;(2)引入SHAP方法量化典型持续性O3污染事件期间气象和化学因素对O3形成的影响;(3)利用训练好的堆叠EML模型建立O3-VOC-NOx敏感性,揭示2021至2024年间O3与其前体物之间的年度关系。论文结构如下:第2节和第3节描述数据和方法;第4节介绍模型性能及气象和化学因素对上海城市站O3形成和O3-VOC-NOx的影响;第5节给出结论。本研究旨在为上海的O3污染预防和控制提供科学依据和战略支持。