《Atmospheric Environment》:Evaluation for the machine learning based PM
2.5 estimation using different spatial resolution of geostationary satellite AOD over megacities in Korea
编辑推荐:
基于低成本低功耗传感器数据与高分辨率GOCI卫星AOD数据,本研究利用随机森林和梯度提升树模型评估首尔、釜山PM2.5估算精度,发现0.5×0.5 km2分辨率数据使R2提升至0.38(首尔)和0.45(釜山),RMSE降低至10.82(首尔)和10.13(釜山)μg/m3。
Juhee Lee|Jhoon Kim|Yeseul Cho|Seoyoung Lee|Drew C. Pendergrass|Daniel J. Jacob|Hyunkwang Lim|Hahn Chul Jung|Kwang-Min Myung|Young-Doh Kim|Kyung Man Han|Ja-Ho Koo
韩国延世大学大气科学系,首尔
摘要 本研究利用机器学习技术,评估了基于静止卫星AOD数据的地表PM2.5 估算性能,其中考虑了两种不同的空间分辨率。研究选取了韩国的两个大城市:首尔和釜山。我们使用了这些城市中数百个低成本传感器在19个月期间(2018年6月至2019年12月)收集的PM2.5 数据,并结合了静止海洋颜色成像仪(GOCI)提供的6×6 km2 (官方发布版本)和0.5×0.5 km2 (研究用途产品)分辨率的AOD数据。交叉验证和与国家地表PM2.5 观测数据(AirKorea)的独立验证结果显示,使用更高空间分辨率的模型性能有所提升。当将基于低成本传感器数据的机器学习PM2.5 估算结果与AirKorea数据进行比较时,0.5×0.5 km2 分辨率在两个城市的R2 值更高,RMSE值更低;首尔的R2 从0.32(0.44)提高到0.38,釜山的RMSE从11.36(10.18)降至10.82(10.13)μg/m3 。在评估变量重要性时,6×6 km2 分辨率的AOD贡献较大,而0.5×0.5 km2 分辨率的AOD贡献在机器学习过程中并不显著。这一发现表明,尽管不确定性较大,但使用更高空间分辨率的卫星数据可以提高PM2.5 估算的准确性。换句话说,如果未来能获得更高空间分辨率的更高质量AOD数据,预计将获得更好的结果。此外,我们还提供了每小时尺度的PM2.5 估算值,这也是使用静止卫星AOD数据的另一个优势。
引言 细颗粒物(PM)对人类健康有显著负面影响,尤其是对肺部健康,这一点已得到多项研究的证实[1]、[2]。长期暴露于细颗粒物可能导致严重健康问题,如心肌梗死和中风相关死亡。最近的研究表明,这些影响尤其与直径小于2.5微米的颗粒物(PM2.5 )浓度变化有关,这些颗粒物会增加患有呼吸系统疾病的人的早死率[3]。韩国根据世界卫生组织的标准实施了多项相关政策。然而,由于精确测量的限制、二次形成过程的不确定性以及细颗粒物的多种来源,准确估算PM2.5 仍面临挑战[4]。为此,包括韩国在内的许多国家建立了PM2.5 监测站,以持续监测气溶胶污染的程度,从而开展了相关研究[5]。
然而,由于监测站数量有限,PM2.5 只能在其所在位置进行测量。位于监测站之间的区域的PM2.5 无法直接评估。为了解决这个问题,人们开始研究将卫星数据与机器学习相结合来估算PM2.5 。先前的研究表明,机器学习模型比多元回归方法能提供更准确的估算结果,近年来使用机器学习和深度学习模型进行PM2.5 估算受到了更多关注[6]、[7]、[8]。通过整合卫星数据和机器学习来估算PM2.5 的技术优势在于能够准确捕捉卫星观测覆盖区域内的细颗粒物质量浓度。这凸显了高分辨率气溶胶光学深度(AOD)反演的重要性[9],许多最新研究探索了利用高分辨率卫星AOD数据与机器学习或深度学习技术相结合来估算高分辨率PM2.5 [10]、[11]、[12]、[13]、[14]、[15]、[16]。值得注意的是,Reid等人(2021年)[17]通过使用中分辨率成像光谱辐射计(MODIS)卫星AOD数据,在美国11个州的县级行政区、邮政编码区和人口普查区等小范围内估算1公里分辨率的PM2.5 ,展示了高分辨率PM2.5 的价值。这项研究强调了高分辨率PM2.5 估算的实用性。
近年来,随着PM2.5 观测重要性的增加,越来越多的研究开始探讨卫星AOD与PM2.5 之间的相关性,两者具有相似的时间变化特征[18]。许多研究将AOD作为机器学习模型中的关键输入变量[19]。虽然卫星AOD与观测到的PM2.5 的日变化有明显相关性,但这种相关性会因地区和环境条件而有所不同[20]。例如,在潮湿地区,细颗粒物的吸湿增长可能导致AOD值升高而PM2.5 值保持较低,从而降低两者之间的相关性[21]、[22]。此外,气溶胶的垂直分布变化也会降低地面PM2.5 观测值与AOD之间的相关性[23]。实际上,Kim等人(2023年)[24]仅使用气象数据和来自各种模型及观测站的气体数据,就预测了韩国半岛的高PM2.5 浓度。
本研究在2018年6月至2019年12月的19个月期间估算了PM
2.5 浓度,并将这些估算值与实际测量值进行了比较。虽然韩国之前的许多研究使用了环境部(MOE)AirKorea网络(AirKorea网站:
https://www.airkorea.or.kr/web/ ,最后一次访问日期:2023年12月19日)[25]、[26]、[27]、[28]、[29]、[30]的PM
2.5 观测数据,但本研究使用了韩国电信公司KT运营的物联网(IoT)传感器的PM
2.5 数据。KT的低成本IoT传感器基于光散射原理,相比AirKorea的重量测量站,具有重量轻、能耗低的优点,因此可以安装在更广泛的位置。然而,它们的精度可能低于AirKorea使用的重量测量方法。本研究假设使用KT传感器(可安装在更多位置)可以增加代表更广泛区域的训练数据量,从而提高PM
2.5 估算的准确性,尽管其数据质量可能较低。
截至2018年,韩国约有400个AirKorea监测站和约2000个KT低成本传感器。虽然每个区域通常只有0-3个AirKorea监测站,但KT传感器提供的观测点数量是前者的五倍以上。这一显著更多的传感器数量实现了更广泛的覆盖范围和更具代表性的数据,预计能通过增加训练数据量来提高PM2.5 估算的准确性。出于类似原因,最近有大量研究直接使用低成本传感器作为机器学习模型的输入数据来估算PM2.5 [31]、[32]。此外,许多研究还结合了低成本传感器观测数据和国家机构的更准确PM2.5 数据来估算PM2.5 [33]、[34]。
本研究使用了静止海洋颜色成像仪(GOCI)传感器提供的卫星AOD数据作为输入数据。具体来说,分别训练了两种空间分辨率的AOD数据(6×6 km2 和0.5×0.5 km2 ),并比较了它们的结果[35]。6×6 km2 分辨率的AOD是官方发布版本,而0.5×0.5 km2 分辨率的AOD是研究用途产品,因此验证程度较低。然而,使用0.5×0.5 km2 高分辨率卫星数据具有优势,因为它允许在更细的尺度上进行PM2.5 估算,例如在较小的行政单位(如区县)内,而不仅仅是国家级或州级。高分辨率卫星数据在空间分析方面提供了更大的灵活性。尽管使用高分辨率卫星数据作为机器学习模型的输入具有这些优势,但也带来了计算资源和精度方面的挑战[36]、[37]。为此,本研究使用0.5×0.5 km2 高分辨率卫星数据估算PM2.5 ,并将结果与使用6×6 km2 低分辨率卫星数据得到的结果进行了比较。研究采用了基于树的模型,这些模型以其经过验证的性能和计算效率而闻名,并结合了卫星AOD数据和低成本传感器PM2.5 数据来估算PM2.5 浓度。
研究区域 选定的研究区域是首尔和釜山,这两个城市分别代表韩国的西部和东部。与其他地区相比,这些城市的空气污染程度更高,因此它们是韩国受细颗粒物影响最严重的地区之一[38]。首尔是韩国最繁华的大都市,截至2018年人口为9,765,623人(内务安全部:
//jumin.mois.go.kr/ 机器学习方法 图3展示了算法的流程图。该算法旨在将KT的PM2.5 观测数据和ERA5数据与最近的GOCI网格单元在空间和时间上进行匹配。随后生成月度模型,最后一步是执行月度机器学习模型来估算PM2.5 浓度。每个地面观测值都被匹配到最近的卫星网格单元,以避免多个像素中目标值的重复。
10折交叉验证和AirKorea验证结果 使用RF模型对19个月内的每小时PM
2.5 浓度进行10折交叉验证和与AirKorea观测数据的独立验证,结果以密度散点图的形式呈现(图4)。GBT模型的结果显示在图S5中。每个模型、地区和分辨率的回归线、R
2 、RMSE、rRMSE和MAE在相应的散点图中进行了总结。按城市和模型对验证结果进行了解释。
10折交叉验证结果表明
总结与结论 本研究展示了2018年6月至2019年12月期间,针对韩国两大主要都市首尔和釜山的PM2.5 浓度估算结果。估算基于低成本传感器的PM2.5 观测数据、两种空间分辨率(6×6 km2 和0.5×0.5 km2 )的GOCI AOD数据、ERA5气象数据以及机器学习模型。10折交叉验证和与AirKorea观测数据的独立验证均表明,更高空间分辨率的模型表现更优
作者贡献声明 Hahn Chul Jung: 撰写——审稿与编辑、调查、数据分析。
Hyunkwang Lim: 软件、资源、方法论、数据管理。
Young-Doh Kim: 软件、资源、项目管理、资金获取、数据管理。
Kwang-Min Myung: 监督、软件、资源、项目管理、资金获取、数据管理。
Daniel J Jacob: 撰写——审稿与编辑、调查、数据分析。
Drew C Pendergrass: 撰写——审稿与编辑、调查、数据分析。
利益冲突声明 无
致谢 本项工作得到了韩国国家研究基金会(NRF)的资助(由韩国政府(MSIT)提供,项目编号RS-2023-00219830)。此外,本工作还得到了韩国国家环境研究院(NIER)的资助(由韩国环境部(MOE)提供,项目编号NIER-2025-01-02-032)。