《International Journal of Applied Earth Observation and Geoinformation》:Global daily seamless XCO
2 Mapping (2016–2020): Spatio-temporal trends and variations during wildfire events
编辑推荐:
本研究针对卫星观测XCO2存在空间覆盖不足的难题,利用堆叠机器学习方法,成功生成了2016–2020年全球0.1°空间分辨率的每日无缝XCO2数据集。验证结果显示该数据集精度高(交叉验证RMSE为0.9697 ppm,R为0.9868),能有效捕捉精细尺度变化,并应用于分析洲际、国家尺度时空趋势及野火事件期间的XCO2动态,对全球碳循环研究和气候变化监测具有重要意义。
随着全球气候变化的加剧,准确监测大气中的二氧化碳(CO2)浓度变得至关重要。二氧化碳是主要的温室气体之一,对生态系统变化和全球气候有着深远影响。为了获取全球范围的CO2数据,卫星遥感技术,例如温室气体观测卫星(GOSAT)和轨道碳观测站2号(OCO-2),已被广泛应用来监测柱平均干空气摩尔分数(XCO2)。然而,这种方法存在明显的局限性。卫星观测的幅宽通常很窄,例如OCO-2的幅宽仅为10.6公里,这导致全球卫星反演数据存在巨大的空间间隙和不连续性。此外,云层覆盖和严重的气溶胶污染也可能导致卫星XCO2观测反演失败。因此,生成一个全覆盖、高精度、具有精细时空分辨率的XCO2地图仍然是一个挑战。
为了填补这一空白,研究人员开始探索不同的方法来重建无缝的XCO2数据。主要方法包括基于插值的方法和数据驱动的方法。插值方法依赖于数据本身的时空连续性和相关性来填补空白,这种方法方便快捷,且不需要额外的辅助数据。然而,重建结果往往空间分辨率较粗,在卫星观测稀疏的区域精度可能较差,并且无法有效捕捉空间细节或精细尺度的梯度变化。近年来,数据驱动方法,特别是机器学习技术,因其强大的非线性拟合能力和高精度而成为获取无缝XCO2的主流方法。机器学习可以构建XCO2与相关解释变量(如气象数据、植被指数等)之间的复杂关系。尽管已有研究生成了区域性或月度、八日度的XCO2数据集,但全球尺度、每日、高空间分辨率的数据集仍然缺乏。这对于捕捉和分析快速变化的事件(如仅持续数日的野火)造成了障碍。因此,开发一个能够提供全球每日高分辨率XCO2数据的产品,对于理解时空格局和监测环境质量变化具有迫切需求。
在此背景下,李杰、张子依、李文同、袁强强和张良培等研究人员在《International Journal of Applied Earth Observation and Geoinformation》上发表了一项研究,旨在生成一个长期覆盖、高时空分辨率的全球每日无缝XCO2产品。该研究利用多源数据融合和集成机器学习方法,生成了2016年至2020年期间空间分辨率为0.1°的全球每日XCO2数据集。该研究不仅提供了高质量的数据集,还基于此数据集分析了全球XCO2的时空变化,并评估了发生在有限时间段内的野火事件。
为开展此项研究,作者团队整合了多源数据并应用了关键的机器学习技术。首先,对数据进行预处理以确保时空一致性,生成了连续的每日数据集。数据来源包括OCO-2卫星XCO2观测数据、模型模拟数据(CAMS EGG4和CT2022)、植被指数数据(GLASS FAPAR和GOSIF GPP)以及气象辅助数据(ERA5)。所有辅助数据都经过重投影、日均值计算,并重采样至与OCO-2网格数据相同的空间分辨率(0.1°),然后与XCO2数据进行时空匹配,形成用于训练和测试的数据集。
研究的核心技术方法是两层堆叠集成机器学习模型。第一层包含了六个基础机器学习模型:随机森林(RF)、深度森林(DF)、极端随机树(ERT)、极限梯度提升(XGB)、轻量梯度提升机(LGB)和类别提升树(CatBoost)。这些模型分别使用10折交叉验证数据集进行训练,以得出初步的XCO2预测值。第二层则采用线性正则化回归——岭回归(Ridge Regression),将第一层六个模型的预测结果作为新的输入特征,进行再次训练和预测,以整合各模型的优势,防止过拟合,最终生成全球连续的XCO2数据。
研究结果通过多种验证方法进行了全面评估。10折交叉验证结果显示,重建的XCO2数据具有很高的精度,相关系数(R)达到0.9868,均方根误差(RMSE)为0.9697 ppm。空间验证,包括区域留出验证和洲际交叉验证,证明了模型具有良好的空间泛化能力,在不同地理区域的测试中R均大于0.93。与地面站点(TCCON)观测数据的验证结果表明,重建数据与实测值高度一致,总体R为0.9717,RMSE为1.0855 ppm,在24个站点中有22个站点的R大于0.95。与CAMS和CT两种模型模拟的XCO2数据相比,本研究的重建结果与地面观测的一致性更好,且空间分辨率更高,能展现更丰富的空间细节。
基于生成的高质量数据集,研究人员深入分析了XCO2的时空变化规律。在时间趋势上,全球平均XCO2从2016年的400.82 ppm持续上升至2020年的411.66 ppm,年增长量也呈上升趋势。XCO2浓度呈现明显的季节性周期变化,通常在4月达到峰值,8月降至谷底,这与北半球植被光合作用的季节变化和人类活动(如化石燃料消耗)密切相关。北半球的季节性波动远高于南半球,因为北半球拥有更丰富的植被覆盖、更高的人口密度和工业活动。
在空间分布上,分析涵盖了洲际、国家和中国省级尺度。2016-2020年多年平均XCO2从高到低的大洲依次为亚洲、非洲、欧洲、北美洲、南美洲和大洋洲。美国、中国、日本和俄罗斯等主要经济体的五年XCO2增长量超过了全球平均水平,而印度和巴西的增长量相对较低,反映了不同国家碳排放贡献和趋势的差异。
研究的一个重要亮点是利用每日时间分辨率分析了两个典型的野火事件:2016年5月加拿大的麦克默里堡野火和2016年8月美国的蓝切火灾。分析显示,重建的XCO2数据能够有效捕捉到野火发生、发展和消退过程中引起的精细尺度XCO2浓度变化,其时空动态与火灾热点分布以及模型模拟的火灾CO2通量具有良好的一致性。这表明该数据集具备表征碳源汇变化的潜力,能够为快速变化的突发事件(如野火)的碳排放监测和评估提供重要数据支持。
在讨论部分,研究人员通过变量重要性分析探讨了各输入变量对模型预测的贡献。结果表明,模型模拟数据CT和CAMS是影响XCO2重建的两个最主要变量。同时,气象变量如下行短波辐射(ssrd)、2米露点温度(d2m)和地表气压(sp)也扮演了重要角色。进一步的分析证实,尽管CT和CAMS能够捕捉XCO2的主要变化趋势,但结合更高分辨率的ERA5气象变量和植被变量对于提升重建结果的空间细节表征和整体精度至关重要,体现了多源数据协同的优势。
综上所述,本研究通过先进的堆叠集成机器学习方法,成功创建了2016-2020年全球每日高精度无缝XCO2数据集。该数据集在交叉验证、空间验证和地面站点验证中均表现出色,优于现有的模型模拟数据。基于该数据集进行的多尺度时空趋势分析和野火事件案例研究,证明了其在捕捉精细尺度动态、理解全球碳循环过程以及监测突发碳排放事件方面的巨大价值。这项研究为全球碳监测和气候变化研究提供了宝贵的数据资源和分析方法,对支持制定科学的二氧化碳减排政策具有重要意义。该数据集已公开发布在Zenodo平台,可供全球研究人员自由获取和使用。