基于可解释堆叠集成机器学习的上海臭氧生成机制研究：OVOCs的作用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月04日 来源：Atmospheric Environment 3.7

编辑推荐：

　　地面臭氧污染预测与形成机制解析基于气象及挥发性有机物数据集，采用Stacking EML模型结合SHAP分析，建立上海地区高精度臭氧浓度预测体系，揭示VOCs主导（占比42%）的化学驱动机制，气象因素贡献率40%，证实VOCs限制特征，为协同控制NOx和VOCs提供科学依据。

沈晨苏|王彦宇|高雅琴|马长文|雷亚丽|王倩|闫如莎|吴宇航|王洪利

上海工程技术大学资源与环境工程学院，中国上海

摘要

近年来，中国东部的地表臭氧（O₃）污染问题日益严重，尤其是在上海，这凸显了建立准确模型以预测O₃浓度并研究其形成机制的必要性。本研究利用2021至2024年的气象数据和空气污染物数据，开发了一种基于堆叠集成机器学习（Stacking EML）方法的O₃预测模型。随后，通过Shapley加性解释（SHAP）分析量化了在典型O₃污染事件期间气象和化学因素对O₃形成的影响。引入挥发性有机化合物（VOCs）后，模型性能显著提升，R²值从0.74增加到0.81。SHAP分析显示，在污染天气中，化学因素对O₃形成的影响占主导地位（60%），高于气象因素（40%）。总VOCs（TVOCs）是主要化学驱动因素（42%），其中氧化型挥发性有机化合物（OVOCs）占比27.1%，其中反应性醛类物质是主要成分。2021至2024年的O₃形成敏感性曲线表明，上海处于VOCs限制阶段，但趋势趋于弱VOCs限制状态。堆叠EML与SHAP分析的结合被证明是预测和解释O₃形成的有效工具，为制定协调的NOx和VOCs减排策略提供了科学依据。

引言

近地表臭氧（O₃）污染的持续恶化对生态系统和人类健康构成严重威胁，因此研究其形成机制和控制策略成为大气环境科学的热点（Lu et al., 2020; Zhang et al., 2023）。尽管自2013年实施《大气污染防治行动计划》以来，中国的细颗粒物污染得到了有效控制，但O₃污染问题却日益突出（Ni et al., 2024）。研究表明，2015至2022年间，全国及重点城市群中以O₃为主要污染物的天数比例增加了4.7%至6.6%。在长江三角洲（YRD），以O₃为主要污染物的天数比例从2015年的20.1%增加到2022年的63.4%（Ni et al., 2024; Wang et al., 2025）。因此，O₃已成为影响该地区空气质量的主要污染物，其防治成为进一步提升空气质量的关键（Xiao et al., 2024）。O₃的形成是前体物排放、光化学转化和气象条件共同作用的结果。氮氧化物（NOx）和挥发性有机化合物（VOCs）是主要前体物，光化学氧化是O₃形成的核心机制（Zhang et al., 2022）。气象因素通过影响前体物排放、污染物传输、化学反应速率和干沉降过程来影响O₃浓度（Lee et al., 2023; Wang et al., 2017）。因此，准确且智能的O₃预测以及量化各种驱动因素对O₃形成的影响对于有效控制O₃污染至关重要。

传统的O₃预测方法（如化学传输模型CTMs）受到高计算成本和排放清单及化学机制不确定性的限制（Hou et al., 2022; Qian et al., 2022）。传统的统计模型（如多元线性回归和时间序列模型）基于历史数据建立O₃浓度与影响因素（气象条件和前体物水平）之间的参数关系，但它们在捕捉复杂非线性相互作用方面存在局限性（Chen et al., 2020; Han et al., 2020）。机器学习（ML）模型因其在模拟复杂非线性系统方面的优势以及灵活性和高计算效率而越来越被用于O₃预测（Grange et al., 2021; Wang et al., 2020b）。ML模型在墨西哥边境对对流层O₃预测中的表现优于线性模型，RMSE降低了32.8%，R²提高了21.1%（Salazar-Ruiz et al., 2008）。同样，当随机森林（RF）模型用于修正Goddard地球观测系统-成分预测（GEOS-CF）时，次日O₃预测的准确性显著提高，R²从约0.2提高到0.66。然而，单一ML模型常常存在较大预测误差，在复杂气象条件或高浓度期间难以准确反映污染事件（Watson et al., 2019）。为克服这些限制，开发了集成多种ML算法的多模型集成方法以减少偏差并提高预测稳健性（Xu et al., 2019）。例如，一种基于聚类的集成模型在全球O₃预测中实现了0.92的R²（Liu et al., 2022）；交叉堆叠集成方法在小时级预测中的表现优于单个模型，R²达到0.97（Ning et al., 2024）；可解释的集成机器学习（EML）模型在杭州O₃预测中表现出色，R²达到0.91（Zhang et al., 2024b）。

然而，ML模型的“黑箱”特性限制了其可解释性。为了解决这个问题，Lundberg和Lee引入了Shapley加性解释（SHAP）（Lundberg and Lee, 2017），这是一种基于博弈论的方法，用于量化每个输入特征对预测结果的贡献。近年来，可解释的EML模型在大气科学研究中得到广泛应用。例如，使用Light Gradient Boosting Machine-SHapley Additive exPlanations（LightGBM-SHAP）算法发现太阳辐射（SR）、温度（T）和蒸发是杭州湾地区O₃污染的主要气象驱动因素（Yao et al., 2024）。在杭州，气象条件是O₃形成的主要因素，占比58%（Zhang et al., 2024b）。此外，使用SHAP和因果森林模型量化了2022年中国O₃反弹中温度升高（38.9%）和太阳辐射增强（18.5%）的贡献（Wang et al., 2025）。

当前基于ML的研究主要集中在O₃浓度的预测上，而对特定情景下O₃与其前体物（VOCs和NOx）之间的敏感性关系关注较少（Wang et al., 2023b）。O₃形成敏感性通常通过经验模型（如臭氧生成效率OPE和HCHO/NO₂比率）或光化学模型（如Observation-Based Model (OBM)）进行评估（Martin et al., 2004; Wang et al., 2010）。然而，这些方法高度依赖于O₃观测数据和详细的化学机制，其计算复杂性限制了它们的广泛应用（Wang et al., 2017）。目前，越来越多的研究使用ML模拟O₃形成敏感性曲线。例如，LightGBM方法应用于南京的O₃-VOC-NOx敏感性模拟，发现夏季和秋季主要受VOCs限制（Zhang et al., 2024a）。同样，在兰州应用EML-SHAP算法表明，O₃形成受VOCs控制（Wang et al., 2023b）。ML方法可以探索O₃-VOC-NOx之间的复杂非线性关系，且数据需求较低，能够高效生成O₃敏感性曲线，为识别O₃污染原因和制定控制策略提供更灵活、更可解释的工具。

上海是中国人口最密集、排放量最高的地区之一，工业和交通集中。近年来，上海的O₃污染呈反弹趋势（Lu et al., 2023）。尽管多年来进行了大量研究（Xiao et al., 2024; Xue et al., 2023），但O₃-VOC-NOx关系随着前体物排放的变化而持续变化。基于2021至2024年5月至9月的气象、空气污染物和VOCs观测数据，本研究采用堆叠EML框架结合SHAP（Stacking EML-SHAP）进行O₃预测，并探讨上海持续性O₃污染事件的驱动因素。本研究旨在：（1）基于气象因素和O₃前体物建立高性能的实时预测模型；（2）引入SHAP方法量化典型持续性O₃污染事件期间气象和化学因素对O₃形成的影响；（3）利用训练好的堆叠EML模型建立O₃-VOC-NOx敏感性，揭示2021至2024年间O₃与其前体物之间的年度关系。论文结构如下：第2节和第3节描述数据和方法；第4节介绍模型性能及气象和化学因素对上海城市站O₃形成和O₃-VOC-NOx的影响；第5节给出结论。本研究旨在为上海的O₃污染预防和控制提供科学依据和战略支持。

数据

本研究使用的数据包括三个部分：VOCs数据（体积浓度，ppbv）、主要空气污染物（NOx、O₃、PM_2.5、SO₂，单位μg/m^{3；CO，单位mg/m³）以及气象变量（温度T，单位°C；太阳辐射SR，单位W/m²；相对湿度RH，单位%；降水量Rain，单位mm；气压Pres，单位hPa；风速WS，单位m/s；风向WD，单位°）。前体VOCs数据和气象数据由上海环境科学研究院（SAES，31.52°）的监测站提供}

特征筛选

在模型训练之前，对输入特征进行共线性检查以确保模型稳定性。计算每个气象和化学变量的方差膨胀因子（VIF）。如表S2所示，所有VIF值均低于10，表明所选变量之间没有显著的多共线性（Shrestha, 2020）。尽管如此，为应对潜在的隐式共线性，仍在构建的堆叠EML中加入了内在正则化机制

模型性能

为了研究输入对O₃预测的影响，配置了两个实验：1）11个变量：气象因素和主要污染物（T、SR、RH、P、WD、WS、Rain、PM_2.5、NOx、SO₂和CO）；2）17个变量：上述11个变量加上六种VOCs（烷烃、烯烃、芳烃、炔烃、卤代烃和OVOCs）。使用五种集成算法（RF、Extra Trees、XGBoost、LightGBM和Stacking EML）评估预测性能，结果总结在表1中

结论

基于2021至2024年5月至9月的气象、空气污染物和VOCs数据，本研究利用堆叠EML模型结合SHAP分析来预测每小时O₃浓度，并量化气象和化学因素在典型O₃污染事件期间对O₃形成的影响。引入VOCs后，模型性能显著提升，整体R²从0.74增加到0.81。值得注意的是，堆叠EML框架显示出

CRediT作者贡献声明

沈晨苏：数据整理、正式分析、方法论、初稿撰写。王彦宇：概念构思、资金获取、方法论、审稿与编辑。高雅琴：正式分析。马长文：撰写、审稿与编辑。雷亚丽：数据整理。王倩：正式分析。闫如莎：正式分析。吴宇航：数据整理。王洪利：撰写、审稿与编辑。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究得到了国家自然科学基金（项目编号：42405196）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

数据

特征筛选

模型性能

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行