基于Sentinel-5P与地基气象数据的机器学习方法估算马德里地区近地表NO2浓度

【字体：大中小】 时间：2026年03月02日 来源：Atmospheric Environment 3.7

编辑推荐：

　　本研究聚焦城市空气质量评估中地面监测站空间覆盖有限的难题。为精确估算近地表氮氧化物(NO2)浓度，研究人员结合Sentinel-5P卫星观测与地基气象数据，系统评估了随机森林(RF)、支持向量机(SVM)、混合集成模型与人工神经网络(ANN)等四种机器学习模型的表现。研究通过对比不同时空预处理策略，发现纳入历史气象信息与采用环境一致性空间聚类可显著提升预测性能。最佳模型配置（ANN结合简化空间聚类）实现了RMSE=2.44 μg/m3, R2=0.87, MAE=1.61 μg/m3的高精度。该研究为无需依赖复杂排放清单或化学传输模型的城市空气质量监测提供了一个可迁移的框架，对优化监测网络资源配置、支持空气质量管理决策具有重要意义。

想象一下，你生活在一座繁华的大都市，每日穿梭于车水马龙之间。交通的便利带来了经济的活力，但也伴随着看不见的“隐形杀手”——空气中的污染物。其中，氮氧化物(NO₂)因其对人体呼吸系统、心血管系统的显著危害，成为城市环境中的重点监控对象。欧洲立法对其浓度设定了严格限值，世界卫生组织(WHO)的指南更为严苛。然而，一个现实的困境摆在面前：传统的空气质量地面监测站虽然数据精准，但建设和维护成本高昂（单个全功能站点需10万至25万欧元），导致其布设密度有限，许多人口超过5万的城镇甚至只有一个或完全没有监测站。这种“以点代面”的监测方式，难以捕捉污染物在城市中复杂多变的空间分布，限制了我们对空气污染真实暴露水平的评估以及减排政策效果的精准研判。

就在地面监测“捉襟见肘”之时，太空中的“眼睛”为我们提供了新的视角。自2018年起，欧洲哥白尼计划的哨兵5号先导星(Sentinel-5P)开始每日提供包括NO₂在内的多种大气污染物观测数据，其前所未有的空间分辨率带来了希望。卫星测量的是整个对流层（从地表到约10-15公里高度）的NO₂柱浓度，而我们更关心的是人们呼吸高度（近地表）的浓度。如何将卫星看到的“大气总量”准确转化为我们身边的“呼吸浓度”，成为了一个极具挑战性的科学问题。这其中的障碍在于强烈的空间异质性（城市、郊区、山区情况迥异）以及多变的气象条件（如风速、温度、辐射）对污染物扩散和转化的复杂影响。

在此背景下，一项题为“利用Sentinel-5P观测和地基气象数据及机器学习方法估算马德里地区近地表NO₂浓度”的研究在《Atmospheric Environment》期刊上发表。该研究以西班牙马德里大区为“试验场”，探索了一条结合卫星遥感与机器学习，低成本、高精度估算城市近地表NO₂浓度的新路径。研究团队提出了几个核心问题：仅凭哨兵5号观测和常规气象数据，能否准确估算近地表NO₂？不同的时间聚合策略（是否考虑历史大气状况）如何影响预测性能？在这样一个地理和环境异质性显著的地区，空间分层策略又如何左右模型的准确性？

为了回答这些问题，研究人员系统评估了四种主流的机器学习建模范式：作为基准的随机森林(RF)、结合RF与极限梯度提升(XGBoost)的混合集成模型（包括堆叠架构和贝叶斯超参数优化的XGBoost）、支持向量机(SVM)回归以及旨在捕捉高度非线性关系的人工神经网络(ANN)。所有模型都在两种时间配置和四种空间策略下进行了“同台竞技”。

研究人员开展此项研究主要依赖于几项关键技术方法：首先，数据获取与预处理，核心数据源包括来自哨兵5号TROPOMI传感器的对流层NO₂柱浓度数据，以及马德里大区52个空气质量监测站和50个气象站提供的近地表NO₂浓度和七种气象变量（风速、风向、温度、相对湿度、气压、太阳辐射、降水）的连续小时观测数据，时间跨度为2020年至2024年。其次，创新的时空预处理，研究特别设计并比较了两种时间聚合窗口（H1:卫星过境时段11:00-14:00；H2:前一日14:00至当日11:00的21小时历史窗口）以评估历史气象信息的影响；同时，系统比较了四种空间配置策略，从简单的全区聚合、规则的5公里网格，到基于地形、气象和城市化模式划分的七个地理扇形区，再到进一步简化的三个环境一致性空间聚类。最后，多样化的机器学习模型构建与评估，应用了包括RF、SVM、XGBoost和ANN在内的多种算法，并采用自动化机器学习工具AutoKeras辅助ANN架构搜索，通过均方根误差(RMSE)、决定系数(R²)和平均绝对误差(MAE)等指标全面评估模型性能。

3. 结果

3.1. 模型性能

结果显示，纳入历史气象窗口(H1+H2)在所有模型和空间配置下均能一致地提升预测性能。在特征选择中，卫星NO₂柱浓度及风速、温度、太阳辐射、气压等关键气象驱动因子被持续保留。综合比较，人工神经网络(ANN)模型在最佳空间配置下取得了最优的预测性能。特别是ANN与简化空间聚类策略相结合时，达到了RMSE为2.44 μg/m³，R²为0.87，MAE为1.61 μg/m³的精度。同时，基于树的混合集成模型（如优化后的XGBoost）也表现出色，在扇形区分区策略下R²可达0.90。

3.2. 最佳性能方案

ANN模型结合简化空间聚类策略被确定为最佳方案。对该模型的深入分析显示，其预测误差分布大致以零为中心，多数残差在±5 μg/m³以内，表明无明显系统偏差。观测值与预测值的散点图显示，在低、中浓度区间(0-35 μg/m³)拟合良好，但在高浓度(>35 μg/m³)时存在轻微低估趋势。对2024年测试期的时间序列分析表明，模型成功捕捉了NO₂浓度的主要日际和季节变化动态，尽管在污染峰值事件的量值上偶有偏差。

4. 讨论

4.1. 与现有文献对比

本研究的预测精度优于或媲美许多以往的同类研究。研究表明，性能提升的关键在于方法论上的两个设计：一是采用双时间窗口捕捉即时与历史气象条件，这尤其适合马德里盆地夜间逆温频发、污染物具有累积效应的气象特点；二是采用基于环境一致性的空间聚类，而非简单的几何网格或全域混合，这有效降低了训练数据内部的异质性，让模型能更专注于学习局部的大气过程。

4.2. 模型性能比较

ANN的优异表现凸显了深度学习在捕捉大气复杂非线性关系方面的潜力。然而，这并不否定传统机器学习方法的价值。SVM在扇形区分区下表现极具竞争力，而树模型（RF、XGBoost）则在不同配置下都提供了稳定、鲁棒的预测，并兼具特征重要性排序以增强模型可解释性的优势。

4.3. 空间聚合对模型精度的影响

研究发现，纯粹的几何网格划分并未改善模型表现，甚至可能劣于全域聚合。而将监测站点按相似的地形、城市化和排放特征进行分组的环境一致性聚类策略，显著提升了所有模型的精度。这证实了在马德里这样环境梯度显著的区域，让模型“因地制宜”地学习，比“一刀切”或“过于琐碎”的策略更为有效。

4.4. 理解预测误差与模型局限

尽管达到了高精度，模型在极端高污染事件中存在低估。这主要源于多方面的限制：卫星反演算法在高污染条件下的灵敏度下降；卫星像素(约3.5x5.5 km²)的空间分辨率无法完全解析城市内部的精细排放羽流；极端污染常伴随不利气象条件（如多云），导致卫星数据缺失或质量下降；空间聚类策略本身也会平滑掉集群内部的浓度尖峰。此外，本研究 deliberately 未使用交通流量、土地利用等辅助空间变量，以保持方法的简洁性和可迁移性，这在一定程度上也限制了对局部极端排放的刻画能力。

5. 结论

本研究成功证明，结合Sentinel-5P卫星NO₂观测与地基气象数据，利用机器学习方法可以有效估算马德里大区的近地表NO₂浓度。其中，纳入历史气象信息的双时间窗口策略普遍有益，而依据环境一致性（而非几何规则）对监测站点进行空间分层，是提升模型预测精度的关键。在多种机器学习模型中，人工神经网络(ANN)结合简化空间聚类的方案表现最佳。

这项研究的意义深远。首先，它提供了一种高性价比的补充方案，能够扩展现有地面监测网络的空间代表性，尤其适用于那些监测站稀疏或缺失的地区，有助于实现更公平、高效的环境治理。其次，该方法能够追踪污染物浓度的时空变化，为评估低排放区、可持续交通计划等空气质量政策的实施效果提供了有力的数据工具。最后，该框架主要依赖广泛可得的卫星和气象数据，无需复杂的排放清单或化学传输模型，具有良好的可迁移性，为西班牙乃至全球其他面临类似监测挑战的城市区域，提供了一套切实可行且精准的空气质量评估新范式。

热点排行