高效的堆叠集成机器学习方法,用于每日1公里范围内的北京-天津-河北地区5点、下午5点和10点的地图绘制

《Atmospheric Environment》:Efficient stacking ensemble machine learning for 1 km daily PM 2. 5 and PM 10 mapping in Beijing-Tianjin-Hebei

【字体: 时间:2026年01月28日 来源:Atmospheric Environment 3.7

编辑推荐:

  PM2.5和PM10污染对京津冀地区环境健康威胁严重,传统监测网络覆盖不足制约了高分辨率评估。本研究开发堆叠集成机器学习模型,融合多源卫星、气象及地面观测数据(2014-2024),生成1km日度PM网格产品,验证显示R2达0.89-0.935,空间泛化能力优于单一模型,揭示人为排放是污染下降主因,验证了大气污染防治政策成效。

  
李玉萌|苏欣|王伦车|冯兰|马晓宇|张明|金世宽
中国地质大学地理与信息工程学院区域生态与环境变化重点实验室,武汉,430078,中国

摘要

中国京津冀(BTH)地区的PM2.5和PM10污染对环境和健康构成了严重威胁,尽管政策推动了空气质量改善,但地面监测网络分布稀疏,限制了高分辨率和空间评估的实现。本研究开发了一种堆叠集成机器学习模型,整合了2014年至2024年的多源数据和国家站点观测数据,生成了覆盖整个BTH地区的无缝1公里分辨率的每日PM2.5和PM10网格。该集成模型结合了多种机器学习方法,其性能与现有单一模型相当或更优,在10折交叉验证下的准确率(R2分别为0.935和0.916,RMSE分别为12.8和22.4 μg/m32分别为0.89和0.87)均表现出色。结果显示,从2014年到2024年,PM2.5浓度下降了56.3%(从81.4 μg/m3降至35.6 μg/m3),PM10浓度下降了50.9%(从136.7 μg/m3降至67.1 μg/m3),近年来趋于稳定但仍有波动。分析表明,人为排放是导致PM污染减少的主要因素。超过70%的地区空气质量显著改善,证实了《大气污染防治行动计划》的有效性。总之,该集成模型具有高准确率和强大的空间泛化能力,支持整个BTH地区的PM2.5和PM10映射及政策影响分析。

引言

细颗粒物(PM2.5,空气动力学直径≤2.5 μm)和可吸入颗粒物(PM10,直径≤10 μm)是主要的大气污染物,与心血管和呼吸系统疾病等严重健康问题密切相关(Orellano等人,2024年)。本研究将PM2.5和PM10统称为PM。近几十年来,中国的快速发展严重恶化了空气质量,使PM成为主要的城市污染物和公众关注焦点(Bartell等人,2013年;Pascal等人,2014年)。因此,自2013年以来,国家地面监测网络大幅扩展,2012年至2014年间从113个城市增加到335个城市。该网络提供每小时PM观测数据(Li等人,2019年;Yang等人,2024年)。尽管地面监测网络从2013年的460个站点增加到2022年的1590个站点,但这些站点主要集中在东部大城市,空间代表性不足,超过85%的城市超过一半的人口未覆盖在监测范围内,限制了全面的时空暴露评估(Bai等人,2025年;Su等人,2022年;Yan等人,2025年)。
目前估计空气中PM浓度的方法主要分为三类:统计回归模型(如土地利用回归、地理和时间加权回归以及广义加性模型)(Guo等人,2021年;Lepeule等人,2014年;Liu等人,2009年)、化学传输模型(CTM,如WRF-Chem)(Grell等人,2005年)和机器学习方法。然而,统计回归模型和CTM存在局限性。统计回归模型的数据挖掘能力有限,导致PM浓度估计精度较低(Wei等人,2021a)。此外,许多模型无法充分捕捉时间变化或有效整合时间稀疏的监测数据(如住宅区的测量数据,Wang等人,2025年)。CTM计算要求高,对气象输入的不确定性非常敏感(Gao和Zhou,2024年)。此外,这些方法受可用输入数据的数量和类型的限制。相比之下,机器学习方法具有更强的数据挖掘能力,即使在空间代表性有限的地区也能进行PM浓度估计。它们对特征关系的假设较少,能够直接学习模式。例如随机森林(Bai等人,2019年;Bi等人,2020年)、Light梯度提升机(LightGBM)(Liu等人,2023年;Wei等人,2021b)和极端梯度提升(XGBoost)模型(Chen等人,2019年;Wang等人,2022年)。然而,大多数研究仅依赖XGBoost或随机森林等单一算法,由于未能充分利用不同模型的互补优势,导致精度不够理想;例如,Chen等人(2018年)的研究表明,在0.5°分辨率下,单独使用随机森林的PM10估计精度仅为R2 = 0.78,RMSE为31.54 μg/m3(2005–2016年),远低于集成多种学习器的模型。验证通常仅限于10折交叉验证(CV),忽略了空间泛化能力。例如,Geng等人(2021年)报告的10公里分辨率下的R2为0.69–0.83,RMSE为27.5 μg/m3,显示出对农村地区的低估偏差,以及其他针对未建模突变情况的鲁棒性测试。此外,大多数研究未量化计算效率,缺乏推理时间或硬件的基准测试,从而阻碍了可扩展的政策监测应用(Ma等人,2022年)。这些不足突显了使用多种CV策略和优化流程的堆叠集成模型在数据稀疏地区进行稳健高效PM映射的价值。
为了解决这些问题,本研究开发了一种堆叠集成机器学习模型,整合了2014年至2024年的多源遥感和气象数据以及国家站点数据,目标是生成覆盖整个BTH地区的无缝1公里分辨率的每日PM2.5和PM10产品。为此,开发了一个集成机器学习框架,整合了多源卫星数据、再分析数据和辅助数据与地面观测数据。本文的其余部分组织如下:第2节描述研究区域和多源数据集;第3节详细介绍了模型开发、验证策略和计算实现;第4节展示了模型性能、特征解释、长期趋势和归因分析;第5节总结了研究结果。

研究区域

本研究区域为京津冀地区(图1)。该地区位于中国北部,是中国重要的经济核心地带,也是PM2.5和PM10污染最严重的地区之一。复杂的地形(西北部为山区,东南部为平原,图1)阻碍了污染物的扩散。此外,密集的工业活动和不利的气象条件进一步加剧了该地区的空气污染。

模型性能

本研究首先使用10折交叉验证(CV)评估了模型整体性能(图3)。模型的PM2.5准确率为R2 = 0.916,PM10准确率为R2 = 0.935,回归斜率分别为0.911和0.883,表明模型有轻微的低估高浓度趋势。这种高浓度低估现象在机器学习估计方法中较为常见(Geng等人,2021年)。

模型性能

集成模型实现了高精度(10折CV下的R2分别为0.935/0.916)和强大的空间泛化能力(空间CV下的R2分别为0.89/0.87)。其准确率与CHAP相当,并优于LGHAP。标准XGBoost和随机森林合计贡献了71–80%的预测能力,反映了它们在捕捉BTH地区多源预测因子复杂相互作用方面的强大能力。
SHAP分析(见图9)揭示了各组分的显著贡献

结论

PM2.5和PM10污染对中国京津冀地区构成了重大的环境和健康威胁。尽管政策有所成效,但稀疏的监测网络限制了时空评估。本研究构建了一个堆叠集成机器学习模型,整合了2014年至2024年的多源数据和站点观测数据,生成了覆盖整个BTH地区的无缝1公里分辨率的每日PM网格。模型在10折交叉验证下的R2分别为0.935(PM2.5)和0.916(PM10),以及在留一法验证下的R2分别为0.89(PM2.5)和0.87(PM10)。

作者贡献声明

李玉萌:撰写——初稿、验证、方法论、调查、数据分析、概念化。苏欣:撰写——审稿与编辑、验证、方法论、调查、数据分析、概念化。王伦车:撰写——审稿与编辑、资源协调、项目管理、资金筹措、概念化。冯兰:撰写——审稿与编辑、资源协调、项目管理、资金筹措、概念化。马晓宇:撰写——审稿与

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究得到了国家自然科学基金(编号42371354和42375129)、中国地质大学基本研究基金(编号2024XLA57和2025XLB84)、广东省普通高等学校青年创新人才计划(编号2025KQNCX147)以及电子科技大学中山学院高等教育教学改革项目(编号JY202509)的财政支持。作者
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号