无缝的每小时颗粒物(PM)监测 利用时空深度神经网络,实现对中国2.5颗粒物浓度的精确绘图

《Environmental Modelling & Software》:Seamless hourly PM 2.5 mapping across China with a graph spatiotemporal deep neural network

【字体: 时间:2026年02月15日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  本研究提出一种新型图基时空深度神经网络(G-STDNN),通过融合Himawari-8和MERRA-2 AOD数据填补夜间缺失,整合气象、地理及TROPOMI NO2数据,生成2019-2020年中国每小时PM2.5浓度,R2达0.942,显著提升夜间及全国覆盖精度,为污染评估和管理提供可靠数据。

  
滕梦凡|梁淼淼|王硕|丁宇
江西理工大学信息工程学院,中国赣州,341000

摘要

细颗粒物(PM2.5)对公众健康和环境构成严重威胁。现有的基于卫星的PM2.5估算方法往往缺乏夜间数据,导致时间上的不连续性。为了解决这一问题,本研究开发了一种基于图的时空深度神经网络(G-STDNN),能够生成中国范围内连续的每小时PM2.5浓度数据。首先,我们通过用MERRA-2的数据填充Himawari-8的AHI数据缺失部分,得到了连续的日间和夜间气溶胶光学厚度(AOD)数据。这种改进后的AOD数据,结合ERA5气象数据、TROPOMI NO2数据、夜间光照数据和地理信息,作为模型的输入。G-STDNN能够有效捕捉空气污染的复杂时空模式。在2019-2020年期间,该模型在样本数据上的准确率很高(R2=0.942,RMSE=10.81μg/m3)。使用填充后的AOD数据后,估算性能显著提高(R2值从0.74增加到0.85)。夜间估算的准确性也保持稳定(R2≈0.84)。本研究提供了一个连续的、高精度的每小时PM2.5数据集,对于中国的暴露评估和空气质量管理至关重要。

引言

细颗粒物(PM2.5),其空气动力学直径小于或等于2.5微米,对人类健康和生态系统构成严重风险(Song等人,2017年;Kim等人,2015年)。长期暴露于PM2.5与呼吸系统疾病、心血管疾病和死亡率增加有关(Lim等人,2011年;Crouse等人,2012年;Pope等人,2019年;Chen等人,2018年)。为应对这一日益严重的公共卫生问题,中国于2013年建立了全国性的地面监测网络,提供主要城市的每小时PM2.5和其他污染物的测量数据。然而,监测站分布不均,东部城市地区覆盖密集,而西部和农村地区覆盖稀疏。这种不均匀的空间分布限制了在全国范围内全面监测PM2.5的能力。
为克服这一限制,人们广泛采用卫星测量的气溶胶光学厚度(AOD)作为估算地面PM2.5浓度的代理指标(Yang等人,2020年;Chen等人,2019年;Jiang等人,2021年;Guo等人,2021年;He等人,2022年)。AOD代表了大气中气溶胶的总柱负荷,并与地面PM2.5浓度有明显的相关性(Wang等人,2024年)。在气象条件和垂直结构稳定的情况下,AOD可以作为PM2.5的有效空间扩展指标。尽管基于AOD的方法能够实现更广泛的空间覆盖,但其有效性受到数据可用性的限制,特别是在多云条件和夜间。大多数卫星产品(如Himawari-8 AHI和MODIS MAIAC AOD)仅提供日间观测数据,因此存在显著的时间不连续性(Long等人,2023年)。实现准确的每小时PM2.5估算,尤其是在夜间,具有重要的科学和实践意义,但仍是一个巨大的挑战。可靠的夜间估算对于评估24小时人口暴露和相关健康风险至关重要。此外,它还有助于理解完整的日循环污染过程,包括夜间积累过程和早晨峰值的形成。主要障碍在于缺乏直接的夜间AOD观测数据,而这些数据对于基于卫星的估算方法至关重要(Xu等人,2022年;Jiang等人,2022年)。夜间AOD数据的缺失仍然是实现全覆盖每小时PM2.5绘图的主要障碍(Xu等人,2022年;Jiang等人,2022年)。此外,为了提高PM2.5估算的准确性,研究通常在模型中纳入多个空间连续的协变量。尽管地面监测仅在离散点提供PM2.5测量数据,但整合气象再分析数据(温度、湿度和边界层高度)和土地利用覆盖可以有效地捕捉污染物的空间异质性(Zhang等人,2023年;Ding等人,2021年)。因此,将AOD与多源空间协变量结合成为生成高时空分辨率PM2.5浓度数据的关键方法。
近年来,基于遥感数据和机器学习技术的PM2.5估算模型发展迅速(Brokamp等人,2018年;Xiao等人,2017年)。早期的研究使用了线性回归和基于MODIS AOD的地理加权回归(Yang等人,2020年;Zhang等人,2022年,2023年;Shtein等人,2019年;Sun等人,2021年;Wang等人,2020年,2021年),但其性能受到AOD–PM2.5关系非线性特性的限制(Chu等人,2016年;Yi等人,2019年)。随着集成学习技术的出现,随机森林、XGBoost、CatBoost和LightGBM等模型被用来整合气象、土地利用和污染指标,提高了估算准确性(Ma等人,2023年;Heidari等人,2022年;Chu等人,2022年;Kumar等人,2020年;Guan等人,2023年;Wu等人,2022年;Dong等人,2022年)。虽然这些方法在特征整合方面有效,但它们通常将观测数据视为独立样本,缺乏明确建模污染物传输和演变的连续时空依赖性的机制。
本研究旨在生成包含夜间的连续、全国范围的每小时PM2.5浓度数据。实现这一目标需要处理大量高维、多源数据,并捕捉它们在空间和时间上的复杂非线性相互作用。深度学习架构天生适合从大规模数据集中学习层次化表示(Nguyen等人,2019年;Shen等人,2024年)。更重要的是,它们提供了结构化的框架(例如卷积操作、循环连接、基于图的消息传递)(Teng等人,2022a;Teng等人,2023年),可以直接编码空间自相关和时间连续性等物理约束,这对于数据稀疏区域或时期的准确插值和泛化至关重要。因此,最近的研究应用了包括多层感知器、卷积神经网络和长短期记忆网络在内的深度学习模型来捕捉复杂的时空模式(Chen等人,2021年;Wang等人,2022a)。特别是,图神经网络在通过构建监测站点之间的图结构来建模空间依赖性方面显示出强大潜力(Qi等人,2019年;Wang等人,2020年;Teng等人,2023年)。有一项研究使用图注意力网络估算PM2.5浓度并取得了有希望的结果(Zeng等人,2023年)。然而,这些应用大多限于短期预测或城市规模建模。很少有研究尝试生成连续的、全国范围的每小时PM2.5估算,尤其是在夜间性能方面。
除了上述算法限制外,从AOD准确估算PM2.5还受到复杂动态性的根本挑战,这种动态性受到气象条件、排放模式和局部地形协同作用的影响(Chu等人,2016年;Yi等人,2019年)。这些相互作用导致强烈的时空异质性,使得简单的反演或统计模型在应用于不同地区和时间时容易产生较大误差。尽管深度学习模型在近似这种非线性方面具有优越能力,但现有架构往往无法一致地建模耦合的时空过程;一些研究要么孤立地处理空间和时间依赖性,要么完全忽略站点间的空间相互作用(Yi等人,2019年;Li等人,2017年)。上述挑战和问题阻碍了开发一个稳健且通用的PM2.5浓度估算模型。
为了解决这些挑战,本研究提出了一种基于图的时空深度神经网络(G-STDNN),用于连续每小时估算中国范围内的地表PM2.5浓度。该模型将24小时的MERRA-2再分析AOD数据与Himawari-8 AHI AOD数据结合,生成包含夜间时段的连续、无间隙的AOD数据集。这种改进后的AOD数据,结合ERA5气象变量、地理指标、TROPOMI NO2数据和夜间光照数据,作为模型的输入。G-STDNN框架结合了图卷积层进行空间结构学习,长短期记忆网络进行时间特征提取,以及卷积层进行像素级输入表示。通过这种综合方法,模型有效地捕捉了PM2.5的时空动态,并实现了高精度的全覆盖每小时映射。

研究区域

本研究聚焦于中国大陆,该地区具有广阔的地理范围、多样的地形和复杂的气候条件。地形呈现出明显的三级阶梯状:西部的高海拔青藏高原构成第一级;中部盆地和高原构成第二级;东部平原和低丘陵构成第三级。这种从西向东下降的地形阶梯显著影响了大气环流

结果

在本节中,我们从多个角度评估了所提出的G-STDNN模型的性能,包括交叉验证准确性、对输入参数的敏感性、在典型区域的空间适应性、AOD数据完整性对反演结果的影响,以及从每小时到季节性的反演结果。

讨论

本研究提出了一种新颖的G-STDNN,通过整合空间依赖性、时间序列和丰富的辅助数据,显著提高了地表PM2.5浓度估算的准确性。该模型的有效性主要体现在三个方面。首先,G-STDNN模型提供了一个统一的框架,用于捕捉PM2.5污染的复杂时空动态。通过结合GCN和LSTM以及CNN,该模型能够明确学习监测站点之间的空间相互作用

结论

本研究开发了一种G-STDNN,用于生成2019年和2020年中国大陆连续的每小时PM2.5估算数据。通过图卷积整合空间依赖性,利用LSTM模型建模时间序列,并通过CNN模型增强输入表示,该模型有效地捕捉了空气污染的复杂特征。为了支持连续估算,本研究通过融合Himawari-8 AHI和MERRA-2产品构建了一个无间隙的AOD数据集,从而实现了

CRediT作者贡献声明

滕梦凡:撰写——原始草稿、验证、软件、方法论、调查、正式分析。梁淼淼:撰写——审稿与编辑、验证、调查、资金获取。丁宇:软件、资源、数据管理

未引用参考文献

Rosario Gonzalez-Moradas和Viveen,2020年;Teng等人,2023a;Wang等人,2020年;Van Geffen等人,2022年;Zhang和Yuan,2023年;Zhou等人,2021年。

软件和数据可用性

样本数据和代码(基于Matlab和python3.7)可在Zenodo网站上公开获取,地址为:https://doi.org/10.5281/zenodo.17337783

利益冲突声明

作者声明没有其他人或组织能够影响本研究的发表。

写作过程中使用生成式AI和AI辅助技术的声明

在准备本工作时,作者使用了deepseek R1来提高手稿的可读性。使用该工具后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。

利益冲突声明

作者声明没有其他人或组织能够影响本研究的发表。

致谢

本研究得到了江西理工大学高层次人才项目[编号:jxust-66]和江西省青年科学基金会【20252BAC200051】的资助。本工作还得到了江西省多维智能感知与控制重点实验室【编号:2024SSY03161】的支持。感谢中国环境部欧洲中期天气预报中心国家航空航天局提供的数据支持
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号