一种新型的可解释集成框架，用于中国东部大气硝酸盐的估算：整合化学机制与时空动态特征

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月02日 来源：Atmospheric Environment 3.7

编辑推荐：

　　本研究提出一种融合化学机制与集成学习的创新框架，通过整合地面观测、卫星数据及再分析数据，构建2013-2020年中国东部地区1公里分辨率月度硝酸盐浓度高精度数据集。模型采用随机森林、XGBoost等四类树基模型与ElasticNet元学习器的集成策略，结合SHAP可解释性分析，有效捕捉硝酸盐污染的空间集聚与季节异质性（R2=0.74，MAE=2.39 μg/m3），为大气监测与污染控制提供科学支撑。

Kun Cai|Jufan He|Shenshen Li|Yang Liu

河南大学大数据分析与处理重点实验室，中国开封475004

摘要

硝酸盐是PM_2.5的主要二次无机成分，在区域雾霾形成中起着关键作用，并对公众健康构成重大风险。然而，由于地面观测数据的稀缺以及大气环境因素的复杂耦合，其浓度的准确估计仍然具有挑战性。在这项研究中，我们提出了一种创新的集成学习框架，该框架结合了化学机制来实现高分辨率（1公里）的月度硝酸盐估计。基于这一框架，我们整合了地面观测数据、卫星反演数据（TAP和CHAP）、ERA5再分析结果以及社会经济数据，构建了2013年至2020年中国东部（沪皖蓉线以东）的高分辨率月度硝酸盐浓度数据集。所提出的堆叠集成模型结合了随机森林（Random Forest）、XGBoost、CatBoost和GBDT作为基础学习器，并使用ElasticNet作为元学习器。为了提高模型的可解释性，我们进行了变量消融实验，并利用SHAP（Shapley Additive Explanations）系统评估了化学指标、气象变量和前体污染物的贡献。结果表明，该模型具有稳健的性能（R² = 0.74，MAE = 2.39 μg/m³），有效捕捉了硝酸盐污染的空间聚集性和显著的季节性变化。这项研究揭示了区域硝酸盐污染的时空动态，为大气监测、环境评估和制定有针对性的空气污染控制政策提供了宝贵的科学支持。

引言

随着工业化的持续发展，空气污染已成为最紧迫的全球环境挑战之一，对人类健康和生态系统构成严重威胁，并对气候系统产生深远影响。在中国，一系列针对二氧化硫（SO₂）的排放控制政策显著减少了硫酸盐对大气气溶胶的贡献，使得硝酸盐成为PM_2.5的主要二次无机成分（Fu等人，2020年）。多项研究证实了硝酸盐在雾霾事件中的核心作用（Z. Sun等人，2019年；Xu等人，2019年），高浓度的硝酸盐通常与空气质量迅速恶化和公众健康风险增加相关（Pope III等人，2004年；J. Zhang等人，2021年）。因此，准确估计硝酸盐浓度并了解其时空变化及其根本驱动因素对于表征污染过程和支持有效的缓解策略至关重要。

已经开发了多种方法和手段来监测和估计大气中的硝酸盐，包括地面测量、实验室化学分析、数值模拟和卫星遥感。虽然地面仪器能够提供高时间分辨率的数据，但由于部署限制和维护成本，其空间覆盖范围仍然有限（Dabek-Zlotorzynska等人，2011年；Malm等人，1994年）。基于实验室的化学分析方法（如离子色谱法）具有高灵敏度和特异性（Jackson，2000年），但它们劳动强度大，不适合大规模、长期监测。像GEOS-Chem这样的数值模型结合了排放清单和气象数据来模拟硝酸盐分布（Pye等人，2009年；Walker等人，2012年），但其准确性常常受到参数化方案和输入数据质量的限制。相比之下，卫星遥感提供了更广泛的空间覆盖范围和更低的运营成本，是对地面观测的宝贵补充（Hoff和Christopher，2009年；Lin等人，2015年）。从MODIS产品中获得的气溶胶光学厚度（AOD）与PM2.5水平表现出强相关性，因此在空气质量评估中被广泛使用（Hu等人，2014年）。在此基础上，早期研究尝试通过耦合模型将AOD与化学成分联系起来，以估计PM_2.5的组成（Geng等人，2017年）。然而，气溶胶的复杂化学性质，以及气象条件和转化系数的时空变化，继续限制了基于遥感的硝酸盐估计的精度。

为了解决这些限制，机器学习（ML）技术越来越多地应用于大气成分的估计，提供了捕捉非线性关系和变量相互作用的强大工具（Li等人，2017年；G. Lin等人，2022年）。例如，Meng等人（2018a）使用广义加性模型（GAM）整合遥感数据进行区域硝酸盐预测，而随机森林（RF）因其强大的特征选择和非线性拟合能力而被广泛采用（Meng等人，2018b；Wei等人，2023年）。Li等人（2020年）使用RF和卫星提供的气象输入数据，构建了中国0.25°分辨率的月度硝酸盐数据集，揭示了排放政策对华北平原硝酸盐趋势的影响。类似基于ML的方法也在韩国使用地面测量数据得到了验证（Lee等人，2024年）。最近的进展还扩展到了集成学习和深度学习技术（Lin等人，2022b；Lin等人，2022c）。Liu等人（2022年）通过整合WRF-CMAQ模拟和多源数据，为中国开发了10公里分辨率的PM_2.5成分数据集。在台湾，Lin等人（2022d）提出了多种神经网络架构，如长短期记忆（LSTM）和非线性自回归外生模型，用于动态时间序列预测和NO_x相互作用评估。

尽管取得了这些进展，但仍存在几个关键挑战。首先，缺乏长期、空间范围广泛的地面硝酸盐测量数据限制了模型开发和政策评估，因为大多数可用数据集中在台湾和京津冀地区等局部区域。其次，硝酸盐的形成受到复杂化学过程和气象条件的控制，包括白天的NO₂光化学氧化、夜间的N₂O₅水解，以及温度和湿度对反应动力学和气溶胶形成的影响（Guo和Xie，2023年；Wang等人，2023年）。然而，许多现有的数据驱动模型未能纳入关键的颗粒物变量（NH₄⁺、SO₄^2-）和相关的气象驱动因素，导致输出在物理上不一致。第三，目前大多数研究仍然主要依赖单一的机器学习模型，没有结合集成框架来利用不同模型的互补优势，这可能限制了在处理复杂和异构数据时进一步提高性能和稳健性的潜力。

为了解决这些挑战，我们提出了一种创新的可解释集成框架，通过化学机制指导的建模来解码时空动态。通过利用多源数据，这种堆叠集成方法不仅提高了中国东部硝酸盐浓度估计的精度，还确保了可解释性。除了区域应用外，该框架还为数据有限的地区提供了可转移的方法论，用于可操作的空气质量评估和有针对性的缓解措施。

研究区域

沪皖蓉线以东的地区代表了中国人口密集的经济核心区，包括主要的工业集群、城市聚集区和广阔的农业区。长江三角洲（YRD）、京津冀（BTH）地区和华北平原等关键区域尤为突出。工业、交通和农业部门的密集排放显著增加了NO_x和NH₃等硝酸盐前体物质的水平。

特征选择和数据划分

图4展示了输入变量与硝酸盐浓度之间的皮尔逊相关性及其显著性水平，并使用随机森林模型计算了特征重要性得分。采用了两步特征选择策略来提高可解释性和预测性能。首先，保留了与硝酸盐浓度相关性大于0.3且具有统计学显著性的变量。然后，使用RF来评估特征重要性。

结论

本研究通过整合多源数据集和集成机器学习方法，开发了2013年至2020年中国东部的高分辨率（1公里）月度硝酸盐浓度数据集，解决了中国地面硝酸盐数据有限的问题。建模框架采用了双重特征选择（皮尔逊相关性和随机森林重要性）和多个基于树的模型的堆叠集成，并通过ElasticNet回归和SHAP分析进行了增强。

CRediT作者贡献声明

Shenshen Li：撰写 – 审稿与编辑，资金获取。Yang Liu：撰写 – 审稿与编辑。Kun Cai：撰写 – 原始草案，方法论，资金获取，数据管理，概念化。Jufan He：撰写 – 审稿与编辑，验证，数据管理

未引用参考文献

Sun等人，2019年；Zhang等人，2021年。

利益冲突声明

作者未报告任何潜在的利益冲突。

数据可用性

数据集（1公里，2013–2020年）将通过私人链接提供：https://www.scidb.cn/en/s/QrmmYv，供同行评审（He，2025年）。源代码可在以下链接获取：https://github.com/ikyrie1110/Nitrate-estimate。

利益冲突声明

作者声明没有已知的利益冲突或个人关系可能影响本文所述的工作。

致谢

本工作得到了中国国家重点研发计划（2022YFF0606404）和河南省自然科学基金（项目编号242300420215）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

研究区域

特征选择和数据划分

结论

CRediT作者贡献声明

未引用参考文献

利益冲突声明

数据可用性

利益冲突声明

致谢

热点排行