高效的堆叠集成机器学习方法，用于每日1公里范围内的北京-天津-河北地区5点、下午5点和10点的地图绘制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Atmospheric Environment》：Efficient stacking ensemble machine learning for 1 km daily PM 2. 5 and PM 10 mapping in Beijing-Tianjin-Hebei

【字体：大中小】 时间：2026年01月28日 来源：Atmospheric Environment 3.7

编辑推荐：

　　PM2.5和PM10污染对京津冀地区环境健康威胁严重，传统监测网络覆盖不足制约了高分辨率评估。本研究开发堆叠集成机器学习模型，融合多源卫星、气象及地面观测数据（2014-2024），生成1km日度PM网格产品，验证显示R2达0.89-0.935，空间泛化能力优于单一模型，揭示人为排放是污染下降主因，验证了大气污染防治政策成效。

李玉萌|苏欣|王伦车|冯兰|马晓宇|张明|金世宽

中国地质大学地理与信息工程学院区域生态与环境变化重点实验室，武汉，430078，中国

摘要

中国京津冀（BTH）地区的PM_2.5和PM₁₀污染对环境和健康构成了严重威胁，尽管政策推动了空气质量改善，但地面监测网络分布稀疏，限制了高分辨率和空间评估的实现。本研究开发了一种堆叠集成机器学习模型，整合了2014年至2024年的多源数据和国家站点观测数据，生成了覆盖整个BTH地区的无缝1公里分辨率的每日PM_2.5和PM₁₀网格。该集成模型结合了多种机器学习方法，其性能与现有单一模型相当或更优，在10折交叉验证下的准确率（R²分别为0.935和0.916，RMSE分别为12.8和22.4 μg/m^{3²分别为0.89和0.87）均表现出色。结果显示，从2014年到2024年，PM_2.5浓度下降了56.3%（从81.4 μg/m³降至35.6 μg/m³），PM₁₀浓度下降了50.9%（从136.7 μg/m³降至67.1 μg/m³），近年来趋于稳定但仍有波动。分析表明，人为排放是导致PM污染减少的主要因素。超过70%的地区空气质量显著改善，证实了《大气污染防治行动计划》的有效性。总之，该集成模型具有高准确率和强大的空间泛化能力，支持整个BTH地区的PM_2.5和PM₁₀映射及政策影响分析。}

引言

细颗粒物（PM_2.5，空气动力学直径≤2.5 μm）和可吸入颗粒物（PM₁₀，直径≤10 μm）是主要的大气污染物，与心血管和呼吸系统疾病等严重健康问题密切相关（Orellano等人，2024年）。本研究将PM_2.5和PM₁₀统称为PM。近几十年来，中国的快速发展严重恶化了空气质量，使PM成为主要的城市污染物和公众关注焦点（Bartell等人，2013年；Pascal等人，2014年）。因此，自2013年以来，国家地面监测网络大幅扩展，2012年至2014年间从113个城市增加到335个城市。该网络提供每小时PM观测数据（Li等人，2019年；Yang等人，2024年）。尽管地面监测网络从2013年的460个站点增加到2022年的1590个站点，但这些站点主要集中在东部大城市，空间代表性不足，超过85%的城市超过一半的人口未覆盖在监测范围内，限制了全面的时空暴露评估（Bai等人，2025年；Su等人，2022年；Yan等人，2025年）。

目前估计空气中PM浓度的方法主要分为三类：统计回归模型（如土地利用回归、地理和时间加权回归以及广义加性模型）（Guo等人，2021年；Lepeule等人，2014年；Liu等人，2009年）、化学传输模型（CTM，如WRF-Chem）（Grell等人，2005年）和机器学习方法。然而，统计回归模型和CTM存在局限性。统计回归模型的数据挖掘能力有限，导致PM浓度估计精度较低（Wei等人，2021a）。此外，许多模型无法充分捕捉时间变化或有效整合时间稀疏的监测数据（如住宅区的测量数据，Wang等人，2025年）。CTM计算要求高，对气象输入的不确定性非常敏感（Gao和Zhou，2024年）。此外，这些方法受可用输入数据的数量和类型的限制。相比之下，机器学习方法具有更强的数据挖掘能力，即使在空间代表性有限的地区也能进行PM浓度估计。它们对特征关系的假设较少，能够直接学习模式。例如随机森林（Bai等人，2019年；Bi等人，2020年）、Light梯度提升机（LightGBM）（Liu等人，2023年；Wei等人，2021b）和极端梯度提升（XGBoost）模型（Chen等人，2019年；Wang等人，2022年）。然而，大多数研究仅依赖XGBoost或随机森林等单一算法，由于未能充分利用不同模型的互补优势，导致精度不够理想；例如，Chen等人（2018年）的研究表明，在0.5°分辨率下，单独使用随机森林的PM₁₀估计精度仅为R² = 0.78，RMSE为31.54 μg/m³（2005–2016年），远低于集成多种学习器的模型。验证通常仅限于10折交叉验证（CV），忽略了空间泛化能力。例如，Geng等人（2021年）报告的10公里分辨率下的R²为0.69–0.83，RMSE为27.5 μg/m³，显示出对农村地区的低估偏差，以及其他针对未建模突变情况的鲁棒性测试。此外，大多数研究未量化计算效率，缺乏推理时间或硬件的基准测试，从而阻碍了可扩展的政策监测应用（Ma等人，2022年）。这些不足突显了使用多种CV策略和优化流程的堆叠集成模型在数据稀疏地区进行稳健高效PM映射的价值。

为了解决这些问题，本研究开发了一种堆叠集成机器学习模型，整合了2014年至2024年的多源遥感和气象数据以及国家站点数据，目标是生成覆盖整个BTH地区的无缝1公里分辨率的每日PM_2.5和PM₁₀产品。为此，开发了一个集成机器学习框架，整合了多源卫星数据、再分析数据和辅助数据与地面观测数据。本文的其余部分组织如下：第2节描述研究区域和多源数据集；第3节详细介绍了模型开发、验证策略和计算实现；第4节展示了模型性能、特征解释、长期趋势和归因分析；第5节总结了研究结果。

研究区域

本研究区域为京津冀地区（图1）。该地区位于中国北部，是中国重要的经济核心地带，也是PM_2.5和PM₁₀污染最严重的地区之一。复杂的地形（西北部为山区，东南部为平原，图1）阻碍了污染物的扩散。此外，密集的工业活动和不利的气象条件进一步加剧了该地区的空气污染。

模型性能

本研究首先使用10折交叉验证（CV）评估了模型整体性能（图3）。模型的PM_2.5准确率为R² = 0.916，PM₁₀准确率为R² = 0.935，回归斜率分别为0.911和0.883，表明模型有轻微的低估高浓度趋势。这种高浓度低估现象在机器学习估计方法中较为常见（Geng等人，2021年）。

模型性能

集成模型实现了高精度（10折CV下的R²分别为0.935/0.916）和强大的空间泛化能力（空间CV下的R²分别为0.89/0.87）。其准确率与CHAP相当，并优于LGHAP。标准XGBoost和随机森林合计贡献了71–80%的预测能力，反映了它们在捕捉BTH地区多源预测因子复杂相互作用方面的强大能力。

SHAP分析（见图9）揭示了各组分的显著贡献

结论

PM_2.5和PM₁₀污染对中国京津冀地区构成了重大的环境和健康威胁。尽管政策有所成效，但稀疏的监测网络限制了时空评估。本研究构建了一个堆叠集成机器学习模型，整合了2014年至2024年的多源数据和站点观测数据，生成了覆盖整个BTH地区的无缝1公里分辨率的每日PM网格。模型在10折交叉验证下的R²分别为0.935（PM_2.5）和0.916（PM₁₀），以及在留一法验证下的R²分别为0.89（PM_2.5）和0.87（PM₁₀）。

作者贡献声明

李玉萌：撰写——初稿、验证、方法论、调查、数据分析、概念化。苏欣：撰写——审稿与编辑、验证、方法论、调查、数据分析、概念化。王伦车：撰写——审稿与编辑、资源协调、项目管理、资金筹措、概念化。冯兰：撰写——审稿与编辑、资源协调、项目管理、资金筹措、概念化。马晓宇：撰写——审稿与

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究得到了国家自然科学基金（编号42371354和42375129）、中国地质大学基本研究基金（编号2024XLA57和2025XLB84）、广东省普通高等学校青年创新人才计划（编号2025KQNCX147）以及电子科技大学中山学院高等教育教学改革项目（编号JY202509）的财政支持。作者

热点排行

新闻专题

联系信箱：

粤ICP备09063491号