甲基乙醇酸在大气中的反应性以及在有无NO?条件下形成的烷氧基自由基的命运

《Atmospheric Environment》:Atmospheric reactivity of methyl glycolate and the fate of the alkoxy radicals formed in presence and absence of NO 2

【字体: 时间:2026年02月24日 来源:Atmospheric Environment 3.7

编辑推荐:

  臭氧污染预测与形成机制研究:基于Stacking EML-SHAP模型分析上海大气污染

  
沈晨苏|王彦宇|高亚琴|马长文|雷亚莉|王倩|严如莎|吴宇航|王红丽
上海工程技术大学资源与环境工程学院,中国上海

摘要

近年来,中国东部的地表臭氧(O3)污染问题日益严重,尤其是在上海,这凸显了需要准确模型来预测O3浓度并研究其形成机制的必要性。本研究利用2021年至2024年的气象数据和空气污染物数据,开发了一种基于堆叠集成机器学习(Stacking EML)方法的O3预测模型。随后,通过Shapley加性解释(SHAP)分析量化了气象和化学因素在上海典型O3污染事件中对O3形成的影响。集成挥发性有机化合物(VOCs)数据显著提升了模型性能,R2值从0.74提高到了0.81。SHAP分析显示,在污染日,化学因素对O3形成的影响占主导地位(60%),高于气象因素(40%)。总VOCs(TVOCs)是主要的化学驱动因素(42%),而氧化型挥发性有机化合物(OVOCs)占27.1%,其中反应性醛类是主要成分。2021年至2024年的O3形成敏感性曲线进一步表明,上海处于VOC限制状态,但趋势趋向于弱VOC限制条件。堆叠EML与SHAP分析的结合被证明是预测和解释O3形成的强大工具,为制定协调的NOx和VOCs减排策略提供了科学依据。

引言

近地表臭氧(O3)污染的持续恶化对生态系统和人类健康构成了严重威胁,因此研究其形成机制和控制策略成为大气环境科学领域的当前研究热点(Lu等人,2020年;Zhang等人,2023年)。尽管自2013年实施《大气污染防治行动计划》以来,中国的细颗粒物污染得到了有效控制,但O3污染问题却日益突出(Ni等人,2024年)。研究表明,2015年至2022年间,全国及重点城市群中以O3为主要污染物的天数比例增加了4.7%至6.6%。在长江三角洲(YRD),以O3为主要污染物的天数比例从2015年的20.1%上升至2022年的63.4%(Ni等人,2024年;Wang等人,2025年)。因此,O3已成为影响YRD地区空气质量的主要污染物,其预防和控制对于进一步改善空气质量至关重要(Xiao等人,2024年)。O3的形成是前体物质排放、光化学转化和气象条件共同作用的结果。氮氧化物(NOx)和挥发性有机化合物(VOCs)是主要的前体物质,光化学氧化是O3形成的核心机制(Zhang等人,2022年)。气象因素通过影响前体物质排放、污染物传输、化学反应速率和干沉降过程来影响O3浓度(Lee等人,2023年;Wang等人,2017年)。因此,准确的O3预测以及量化各种驱动因素对O3形成的影响对于有效控制O3污染至关重要。
传统的O3预测方法,如化学传输模型(CTMs),受到高计算成本和排放清单及化学机制不确定性的限制(Hou等人,2022年;Qian等人,2022年)。传统的统计模型,如多元线性回归和时间序列模型,基于历史数据建立O3浓度与影响因素(气象条件和前体物质水平)之间的参数关系。然而,它们在捕捉控制O3形成的复杂非线性相互作用方面存在局限性(Chen等人,2020年;Han等人,2020年)。机器学习(ML)模型因其在建模复杂非线性系统方面的优势以及灵活性和高计算效率而越来越多地被用于O3预测(Grange等人,2021年;Wang等人,2020b)。ML模型在墨西哥边境对对流层O3预测中表现出优于线性模型的性能,RMSE降低了32.8%,R2提高了21.1%(Salazar-Ruiz等人,2008年)。同样,当随机森林(RF)模型用于校正Goddard地球观测系统-成分预测(GEOS-CF)预测时,也显著提高了次日O3预测的准确性,R2从约0.2提高到了0.66。然而,单一ML模型往往存在较大的预测误差,在复杂气象条件或高浓度期间难以准确描述污染事件(Watson等人,2019年)。为了克服这些限制,已经开发了结合多种ML算法的多模型集成方法来减少偏差并提高预测的稳健性(Xu等人,2019年)。例如,一种基于聚类的集成模型在全球O3预测中实现了0.92的R2(Liu等人,2022年);交叉堆叠集成方法在小时级预测中的表现显著优于单个模型,R2达到0.97(Ning等人,2024年);可解释的集成机器学习(EML)模型在杭州的O3预测中表现出优于任何单一模型的性能,R2=0.91(Zhang等人,2024b)。
然而,ML模型的“黑箱”特性常常限制了其可解释性。为了解决这个问题,Lundberg和Lee引入了Shapley加性解释(SHAP)(Lundberg和Lee,2017年),这是一种基于博弈论的方法,可以量化每个输入特征对预测结果的贡献。近年来,可解释的EML模型在大气科学研究中得到了越来越多的应用。例如,使用Light Gradient Boosting Machine-SHapley Additive exPlanations(LightGBM-SHAP)算法确定太阳辐射(SR)、温度(T)和蒸发是杭州湾地区O3污染的主要气象驱动因素(Yao等人,2024年)。在杭州,气象条件是O3形成的主要因素,占58%,这一点通过结合SHAP分析的EML模型得到证实(Zhang等人,2024b)。此外,使用SHAP和因果森林模型量化了2022年中国O3反弹中温度升高(38.9%)和太阳辐射增强(18.5%)的贡献(Wang等人,2025年)。
目前基于ML的研究主要集中在O3浓度的预测上,对于特定情况下O3与其前体物质(VOCs和NOx)之间的敏感性关系关注较少(Wang等人,2023b)。O3形成敏感性通常使用经验模型(如Ozone Production Efficiency(OPE)和HCHO/NO2比率)或光化学模型(如Observation-Based Model(OBM)进行评估(Martin等人,2004年;Wang等人,2010年)。然而,这些方法高度依赖O3观测数据和详细的化学机制,其计算复杂性限制了它们的广泛应用(Wang等人,2017年)。目前,越来越多的研究使用ML来模拟O3形成敏感性曲线。例如,LightGBM方法应用于南京的O3-VOC-NOx敏感性模拟,发现夏季和秋季主要受VOC限制(Zhang等人,2024a)。同样,在兰州应用EML-SHAP算法表明,O3的形成主要受VOCs控制(Wang等人,2023b)。ML方法可以探索O3-VOC-NOx之间的复杂非线性关系,且数据需求相对较低,能够高效生成O3敏感性曲线。它们可以为识别O3污染的原因和制定控制策略提供更灵活和可解释的工具。
上海是中国人口最密集、排放量最高的地区之一,工业和交通高度集中。近年来,上海的O3污染呈现出反弹趋势(Lu等人,2023年)。多年来,人们已经做了很多努力来研究O3污染的形成机制(Xiao等人,2024年;Xue等人,2023年),然而,随着前体物质排放的变化,O3-VOC-NOx的关系也在不断变化。此外,ML模型在上海城市地区研究O3形成机制的适用性仍然有限。基于2021年至2024年5月至9月的气象空气污染物和VOCs观测数据,本研究采用堆叠EML框架结合SHAP(Stacking EML-SHAP)进行O3预测,并探索上海持续O3污染事件的驱动因素。本研究旨在:(1)基于气象因素和O3前体物质建立高性能的实时预测模型。(2)引入SHAP方法来量化典型持续O3污染事件期间气象和化学因素对O3形成的影响;(3)基于训练有素的Stacking EML模型建立O3-VOC-NOx敏感性,揭示2021年至2024年间O3与其前体物质之间的年度关系。本文的结构如下:第2节和第3节描述了数据和方法。第4节介绍了模型性能,以及气象和化学因素对上海城市站O3形成和O3-VOC-NOx的影响。第5节给出了结论。本研究旨在为上海的O3污染预防和控制提供科学依据和战略支持。

数据

本研究使用的数据包括三个部分:VOCs数据(体积浓度,ppbv)、主要空气污染物(NOx、O3、PM2.5、SO2,单位为μg/m3;CO,单位为mg/m3),以及气象变量,包括温度(T,单位为°C)、太阳辐射(SR,单位为W/m2)、相对湿度(RH,单位为%)、降水量(Rain,单位为mm)、气压(Pres,单位为hPa)、风速(WS,单位为m/s)和风向(WD,单位为°)。前体VOCs数据和气象数据由上海环境科学研究院(SAES,31.52°)的监测站提供

特征筛选

在模型训练之前,对输入特征进行了共线性检查以确保模型稳定性。计算了每个气象和化学变量的方差膨胀因子(VIF)。如表S2所示,所有VIF值均低于10,表明所选变量之间没有显著的多共线性(Shrestha,2020)。尽管如此,为了应对潜在的潜在共线性,仍在构建的Stacking EML中加入了内在的正则化机制

模型性能

为了研究输入对O3预测的影响,配置了两个实验:1)11个变量:气象因素和主要污染物(T、SR、RH、P、WD、WS、Rain、PM2.5、NOx、SO2和CO);2)17个变量:上述11个变量加上六种VOCs(烷烃、烯烃、芳烃、炔烃、卤代烃和OVOCs)。使用了五种集成算法(RF、Extra Trees、XGBoost、LightGBM和Stacking EML)来评估预测性能,结果总结在表1中

结论

基于2021年至2024年5月至9月的气象、空气污染物和VOCs数据,本研究利用堆叠EML模型结合SHAP分析来预测每小时O3浓度,并量化气象和化学因素在典型O3污染事件中对O3形成的影响。集成VOCs显著提升了模型性能,整体R2从0.74提高到了0.81。值得注意的是,Stacking EML框架展示了

CRediT作者贡献声明

王彦宇:撰写——审稿与编辑、方法论、资金获取、概念化。沈晨苏:撰写——初稿、方法论、正式分析、数据整理。王倩:正式分析。雷亚莉:数据整理。马长文:撰写——审稿与编辑。高亚琴:正式分析。吴宇航:数据整理。严如莎:正式分析。王红丽:撰写——审稿与编辑

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

数据可用性

本研究使用的所有相关数据和代码均可向相应作者索取(wangyy@saes.sh.cn)。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了国家自然科学基金(项目编号:42405196)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号