《Atmospheric Research》:Reconstructing hourly downward surface solar radiation, ultraviolet radiation, and photosynthetically active radiation using a transformer-based deep learning model in China
编辑推荐:
太阳能辐射重建方法与数据集开发:基于Transformer的多源数据融合模型生成中国2005-2023年每小时0.1°DSSR、UVR、PAR高分辨率数据,验证显示R2达0.78-0.98,时空分析揭示气溶胶减少使DSSR和UVR显著上升,PAR呈区域下降趋势,为能源、生态研究提供可靠基础。
Jiaxin Zhang|Lili Wang|Lei Zhang|Du Wupeng|Minghui Tao|Tao Qin|Xin Jin|Hu Bo
中国科学院大气物理研究所大气环境与极端气象国家重点实验室,北京 100029,中国
摘要
太阳辐射是生态和气候过程的基本驱动力,其中向下的地表太阳辐射(DSSR)、紫外线辐射(UVR)和光合有效辐射(PAR)对能量系统、人类健康、大气环境和生态系统动态有着不同的影响。然而,由于全国观测的复杂性和成本问题,高分辨率的辐射数据仍然十分稀缺。在这项研究中,我们开发了一种基于Transformer的深度学习模型(FT-Transformer),利用多源数据(如地面观测数据、再分析数据和卫星产品),生成了2005年至2023年中国每小时0.1°分辨率的DSSR、UVR和PAR数据集,其准确性很高,R2值分别在每小时、每天和每月的水平上达到0.78–0.83、0.87–0.89和0.96–0.98。此外,我们还采用了Shapley Additive exPlanations(SHAP)方法来解释模型估计的结果。这些产品通过与地面观测数据的独立验证以及与广泛使用的数据产品(如CERES、CAMS和ERA5)的比较,证明了其可靠性和准确性。对重建数据集的时空分析表明,2013年后大多数地区的DSSR和UVR显著增加,这主要是由于气溶胶污染的减少;而PAR则呈现出整体下降的趋势,并存在明显的地区差异。归因分析表明,气溶胶负荷和云量的年际变化解释了中国东部和中部地区DSSR和UVR变化的很大一部分,约占方差的80%–93%。这些数据集可免费向公众提供,为太阳能、气候和生态系统研究提供了宝贵的资源。
引言
太阳辐射是驱动生态过程和气候动态的关键能量来源(Wang等人,2016年)。向下的地表太阳辐射(DSSR)包括直射成分和散射成分,是地球表面的主要能量输入。根据波长范围,DSSR有三个主要的辐射通量流:紫外线辐射(UVR,290–400 nm)、光合有效辐射(PAR,400–700 nm)和近红外辐射(NIR,700–2800 nm)。其中,UVR通过光化学反应对人类健康、生态系统和大气环境有显著影响(Chen等人,2012年;Watson等人,2016年;Zhang等人,2024年);而PAR则驱动光合作用,从而调节植物生长、碳循环和地表-大气交换(Majasalmi等人,2014年;Zhang等人,2014年;Huang等人,2020年)。
目前,短波辐射成分主要来源于三个不同的来源:地面观测、大气再分析产品和卫星遥感。地面观测提供了最高的准确性,但在空间上分布稀疏且不均匀(Zhou等人,2021年)。因此,基于卫星和再分析的产品已成为主流数据来源。例如ERA5等大气再分析产品通过数据同化提供了连续的全球覆盖,但仍受到模型参数化的影响。在卫星遥感领域,全球陆地表面卫星(GLASS)产品套件(Liang等人,2021年)和广泛使用的云和地球辐射能量系统(CERES)数据集(Doelling等人,2013年)提供了有价值的长期全球辐射记录,其中地表辐射成分主要通过受卫星观测约束的物理辐射传输模型推断得出。哥白尼大气监测服务(CAMS)的辐射服务结合了地球静止卫星云观测和基于再分析的气溶胶信息,但没有包含明确的UVR或PAR产品(Qu等人,2017年)。同时,最近的地球静止卫星任务通过协调网络实现了高频率的区域地表太阳辐射监测(Letu等人,2023年;Shi等人,2025年)。然而,这些数据集在时间覆盖范围、时空分辨率和区域准确性之间存在一个关键的权衡。高频率的地球静止卫星产品通常仅限于最近的卫星时代,限制了它们用于多十年气候趋势分析的实用性。相反,长期全球产品或再分析数据往往具有相对粗糙的空间分辨率,或者依赖于在像中国这样地形复杂的地区可能引入不确定性的物理假设(Wang和Wang,2025年)。因此,通过融合多源数据重建高分辨率、长期的数据集仍然是一个迫切的需求。
在过去几十年中,已经开发了许多估计太阳辐射的方法,大致可以分为经验模型和物理模型(Zhou等人,2021年)。经验模型主要依赖于太阳辐射与其他气象变量(如日照时长、温度和湿度)之间的统计关系。最广泛应用的模型是Angstr?m-Prescott模型,例如Ren等人(2018年)使用该模型生成了1981年至2010年中国每月和每年的DSSR和PAR数据,空间分辨率为10 km。然而,经验模型对特定地点的校准系数适应性有限,当外推到气候条件不同的地区时准确性会下降(Qin等人,2018年)。相比之下,物理模型通过明确考虑与气溶胶、水蒸气和云的相互作用来模拟辐射传输过程。例如,Tang等人(2019年)和Tang等人(2022年)使用这种方法生成了2000–2015年的10-km、3小时网格化的全球DSSR数据和1984–2018年的PAR数据。尽管物理模型具有高准确性,但它们涉及大量的参数冗余,这降低了效率并增加了计算成本(Liu等人,2023a)。为了克服这些限制,已经开发了结合物理和经验方法的混合模型用于长期数据重建。例如,Liu等人(2017年)和Hu等人(2018年)建立了1961年至2014年中国724个气象站的每日累积UVR和PAR估计。
近年来,机器学习作为一种有前景且越来越被采用的方法出现了(Liu等人,2023b)。这些方法能够有效捕捉辐射与气象或大气变量之间的非线性关系,在准确性和适应性方面通常优于传统模型(Zhou等人,2021年)。神经网络、核算法、基于树的模型和集成方法已被用于DSSR估计(Nie等人,2024年),而基于树的模型和梯度提升模型则广泛用于PAR估计(Hao等人,2019年;Parida等人,2024年)。Qin等人(2019年)使用反向传播神经网络构建了1961年至2014年中国2474个气象站的每日PAR数据集。此外,将机器学习与卫星图像相结合,使得高分辨率数据集的生成成为可能。例如,卷积神经网络能够从多层卫星图像中有效提取特征,比传统模型产生更准确的预测(Yuzer和Bozkurt,2023年)。同样,随机森林方法结合卫星数据生成了2018年中国15分钟、4公里分辨率的太阳辐射产品(Shi等人,2023年)以及2005–2020年中国10公里分辨率的每日UVR数据集(Jiang等人,2024年)。
尽管取得了这些进展,大多数基于机器学习的研究仍然局限于单个辐射变量,使用了不同的模型架构和不一致的预测因子集(Tang等人,2022年;Jiang等人,2024年;Song等人,2024年)。这种碎片化阻碍了DSSR、UVR和PAR之间的光谱分区的协同分析。此外,现有的产品主要限于日尺度,无法捕捉对建模非线性生态系统响应至关重要的快速日变化(Guermoui等人,2022年)。因此,迫切需要一致且具有高时空分辨率的数据集来量化区域和长期趋势,并分离它们的复杂驱动因素(例如,云层动态与气溶胶变化)。
在这项研究中,我们生成了2005–2023年中国每小时、空间连续、全天空、高分辨率的DSSR、UVR和PAR数据集。这些数据集是通过系统比较九个人工智能模型(包括五种基于树的算法和四种深度学习架构)确定的最佳机器学习算法生成的。这些模型由多源预测因子驱动,包括气象参数、大气组成、地理信息和时间变量。此外,我们还分析了这些辐射成分在中国的时空变化,并研究了导致年际辐射变化的驱动因素。图1展示了我们研究中重建每小时DSSR、UVR和PAR数据集的流程图。这些数据集为探索它们对能量系统、人类健康、生态系统和环境的影响提供了宝贵的基础。
部分摘录
辐射观测数据和质量控制
中国生态系统研究网络(CERN)成立于1989年,其主要目标是监测中国生态环境的长期变化(Fu等人,2010年)。自2004年以来,我们使用CM-11日射强度计(Kipp & Zonen,荷兰代尔夫特,准确度为3%)、CUV3辐射计(Kipp & Zonen,荷兰代尔夫特,准确度为5%)和LI-190SA量子传感器(美国内布拉斯加州林肯,准确度为5%)分别测量了DSSR、UVR和PAR。最佳模型
表2总结了九种机器学习模型在2005年至2023年每小时DSSR、UVR和PAR检索中的性能。五种算法的10折交叉验证R2值、RMSE、MAE和MRE值分别为:DSSR为0.75–0.78、133.43–141.20 W m?2、85.53–94.80 W m?2、0.49–0.62;UVR为0.78–0.83、5.26–5.71 W m?2、3.30–3.84 W m?2、0.36–0.45;PAR为0.75–0.79、50.45–56.40 W m?2、32.40–38.10 W m?2、0.46–0.61。在所有评估的模型中,FT-Transformer取得了最佳性能。
结论
本研究使用FT-Transformer模型生成了2005–2023年中国长期(2005–2023年)的DSSR、UVR和PAR数据集,时间分辨率为1小时,空间分辨率为0.1°×0.1°。该模型是在综合比较了五种基于树的算法和四种深度学习算法后选定的。与多个基于卫星、基于再分析和基于实测的数据集的对比评估一致表明,我们的辐射产品在准确性和可靠性方面表现更优。
CRediT作者贡献声明
Jiaxin Zhang:写作 – 审稿与编辑,撰写原始稿件,软件开发,方法论,数据管理。Lili Wang:写作 – 审稿与编辑,监督,方法论,资金获取,概念构思。Lei Zhang:验证,软件开发。Du Wupeng:写作 – 审稿与编辑,资源协调。Minghui Tao:写作 – 审稿与编辑,软件开发。Tao Qin:写作 – 审稿与编辑,软件开发。Xin Jin:验证,方法论。Hu Bo:写作 – 审稿与编辑,监督,资源协调。
致谢
本研究得到了中国科学院战略优先研究计划(项目编号:XDB0760100)和大气环境与极端气象国家重点实验室(项目编号:2024QN09)的共同支持。我们还要感谢高性能计算资源(2025-EL-PT-000988)来自国家关键科学技术基础设施项目“地球系统数值模拟设施”(EarthLab)。同时,我们也感谢Kaixu Bai提供了LGHAP_AOD数据。