PM2.5预测：迁移学习与Transformer模型以及面板数据方法在国家级预测中的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月11日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　PM2.5预测研究提出基于面板数据和Transformer的迁移学习框架，结果显示迁移学习在多数地区显著优于传统模型和标准深度学习模型，但存在数据稀缺区相对误差高及高变异性区持续异常值问题，为全球空气质量管理提供方法论突破与区域化应用启示。

韦纳·克里斯蒂安波勒（Werner Kristjanpoller）|亚历杭德拉·洛佩兹（Alejandra Lopez）|费利佩·莫拉（Felipe Mora）|马塞尔·C·米努托洛（Marcel C. Minutolo）

智利瓦尔帕莱索省圣玛丽亚市费德里科技术大学工业系

摘要

细颗粒物（PM_2.5）是空气质量的重要指标，也是导致呼吸系统和心血管健康风险的主要因素。尽管PM_2.5的预测建模已经取得了显著进展，但针对全球应用的现代方法的全面评估仍然很少。本研究引入了迁移学习（Transfer Learning）作为一种新的方法论贡献，用于全球PM_2.5预测，系统地比较了基于混合效应模型（Mixed Effects Models）和变量系数模型（Variable Coefficients Models）的迁移学习框架，这些框架利用Transformer架构和面板数据模型来应对训练数据有限或异质性的跨国预测挑战。通过使用104个国家1998-2019年的数据，分析整合了社会经济和气象变量，以评估每种方法的相对优势。迁移学习方法能够将来自全球丰富数据的环境知识转移到特定国家的目标领域，这一能力在空气质量预测文献中尚未得到充分探索。固定效应框架（Fixed-Effects Framework）补充了迁移学习方法，使得跨方法间的洞察更加稳健。结果表明，迁移学习代表了方法论上的重大进步，有效捕捉了复杂的时空依赖性，在大多数地区显著提高了预测准确性，超越了传统的计量经济学模型和标准深度学习模型。然而，性能存在明显的区域局限性：在PM_2.5浓度变化较小的数据稀疏地区，模型虽然绝对误差较低，但相对误差较高；而在变化极端的地区，持续的异常值表明在捕捉特定国家动态方面存在挑战。这些发现突显了迁移学习作为全球空气质量预测新框架的变革潜力及其面临的情境限制，为模型稳健性提供了平衡的视角，同时支持基于证据的政策干预。

引言

空气污染，尤其是细颗粒物（PM2.5），是一个严重的全球健康和环境问题。根据世界卫生组织（WHO）的数据，大约99%的全球人口生活在空气质量未达到推荐标准的地区，这导致了2019年约420万人过早死亡，主要发生在东南亚和西太平洋地区（WHO, 2024）。直径小于2.5微米的PM2.5颗粒可以深入呼吸系统和心血管系统，显著增加严重健康问题的风险。城市环境尤其脆弱，因为车辆排放、工业活动和家庭燃料燃烧等污染源集中，共同造成了巨大的公共卫生负担（Brook等人，2010年；Karagulian, Belis, Dora, Prüss-Ustün, Bonjour, Adair-Rohani, Amann, 2015年）。因此，准确预测PM2.5浓度对于设计有针对性的干预措施和制定数据驱动的环境政策至关重要。

由于PM2.5的动态时空行为，预测其浓度本质上非常复杂，需要采用稳健的方法论。早期的预测工作使用了传统的计量经济学模型，包括线性回归和LASSO（最小绝对值收缩和选择算子，LASSO）等正则化技术（Wood, 2024），为污染物变化提供了基础性见解。随着机器学习（ML）和深度学习（DL）的发展，新一代预测模型应运而生，提高了准确性和分辨率。Chen等人（2019年）和Di等人（2019年）的研究展示了集成方法（如随机森林RF和梯度提升机GBM）以及序列建模技术（如长短期记忆LSTM网络）的有效性。混合模型进一步提升了性能；例如，Zhao, Deng, Cai, 和 Chen（2019年）将LSTM与神经网络架构结合使用，而Qi, Li, Karimian, 和 Liu（2019年）将图卷积网络（GCNs）与LSTM集成，以更好地模拟空间相关性。最近的进展，包括最先进的3D卷积神经网络（3D-CNNs）和有状态LSTM，展示了改进的预测稳定性和稳健性（Wen等人，2019年）。同时，CNN-LSTM模型（Huang & Kuo, 2018年）和多变量方法（Li, Hua, & Wu, 2020年）等混合框架继续强调了整合空间和时间依赖性的重要性。

深度学习的进一步突破促进了能够捕捉更复杂关系的模型的发展。特别是Transformer-BiGRU（双向门控循环单元）架构采用了多尺度自适应降噪和误差校正机制，实现了高预测准确性（Chen & Liu, 2025）。类似地，CNN-Transformer模型结合了用于空间分析的卷积神经网络和用于时间序列建模的Transformer网络，在高分辨率、基于移动监测的PM2.5预测中表现出稳健的性能（Wang, He, Huang, Yang, & Peng, 2025）。

尽管有这些技术进步，文献中仍存在重要空白。最显著的是，缺乏传统计量经济学模型与现代深度学习方法之间的系统化、全球范围的比较。此外，将基于面板数据的迁移学习与Transformer模型相结合的潜力尚未得到充分探索。关于这些模型在不同时间和地理环境中的适应性以及它们的泛化能力等关键问题仍未得到解答，这突显了进行全面评估的必要性。

本研究通过系统地比较全球范围内传统和现代预测方法来建模PM2.5浓度，填补了这些空白。作为主要贡献，我们引入并评估了迁移学习作为一种新的方法论框架，用于全球PM2.5预测，解决了当特定国家的训练数据有限时的跨国预测这一根本挑战。具体来说，我们评估了基于面板数据的迁移学习框架和基于Transformer的深度学习模型在104个国家22年期间（1998-2019年）的性能。据我们所知，这是首次进行大规模、系统化的迁移学习与面板计量经济学方法在PM2.5预测方面的比较。本研究开发的迁移学习框架通过顺序参数冻结架构和Transformer模型的门控少样本校准，实现了从全球模式到特定国家环境的系统知识转移，这是一种超越简单微调或局部模型拟合的方法论进步。分析突出了每种方法的优势和局限性，特别关注区域差异、结构异质性以及预测结果在不同环境中的泛化能力。此外，我们纳入了社会经济和气象变量，以评估它们在塑造PM2.5动态中的作用，从而更深入地了解空气质量变化的根本驱动因素。通过阐明这些预测方法的比较效果，本研究有助于设计更准确、更具适应性和政策相关性的全球空气质量管理预测工具。我们在计量经济学稳定性和深度学习灵活性之间架起了桥梁。虽然我们的固定效应面板适应（FEPA）框架在结构上与传统的混合效应模型相似，但它引入了一种更适合高维、非线性预测的顺序优化范式。

除了内部交叉验证外，我们还采用了严格的留一区域法（Leave-One-Region-Out, LOReO）外部评估程序来测试模型在异质环境中的可转移性。结果表明，门控少样本校准显著提高了Transformer模型的零样本转移能力，使它们能够更有效地适应未见过的地区。相比之下，简单的计量经济学替代方法在缺乏局部结构信息时无法泛化。这种差异突显了深度学习方法（擅长捕捉复杂的时空动态）和面板计量经济学模型（保留可解释性和政策相关性）之间的互补性。这些方法共同为推进全球PM2.5预测和支持基于证据的环境政策制定提供了坚实的基础。

本文的其余部分结构如下：第2节回顾相关文献；第3节概述方法论和数据来源；第4节展示实证结果；第5节讨论发现和未来研究方向。

章节片段

文献综述

近年来，随着计量经济学模型、机器学习技术和面板数据分析的发展，PM2.5预测的研究取得了显著进展。此外，迁移学习和基于Transformer的架构等新方法的出现为更准确和可扩展的预测提供了新的机会。本节围绕这些主题回顾了相关文献。

PM2.5建模经常结合气象变量

方法论

本研究结合了面板数据模型和基于Transformer的框架，预测104个国家的PM2.5浓度。方法论包括数据预处理、模型构建和性能评估，所有面板数据分析均采用固定效应规格。

全球模型评估

有关Transformer Global和Panel Data Global框架的全球MSE分布和国家级性能的详细分析，请参考A节提供的图表。这些可视化结果突显了本节讨论的内容。

结果显示，Transformer Global框架在大多数国家和地区中的表现明显优于Panel Data Global框架，如表4中的指标所示。此外，图A.1和A.2也证实了这一点

结论

本研究对全球和迁移学习框架在PM2.5预测方面的应用进行了全面评估，重点关注基于Transformer的模型和面板数据方法。研究结果强调了利用先进的深度学习架构和迁移学习策略提高空气质量模型预测准确性的有效性，同时保持了计量经济学方法提供的可解释性。

Transformer Global框架显示出明显的优势

参与同意

本研究不涉及人类参与者，也不涉及动物实验。

资金

作者声明在准备本手稿期间未收到任何资金、资助或其他支持。

出版同意

作者同意内容，并明确同意提交手稿。

CRediT作者贡献声明

韦纳·克里斯蒂安波勒（Werner Kristjanpoller）：方法论、监督、撰写——审稿与编辑、正式分析、验证。亚历杭德拉·洛佩兹（Alejandra Lopez）：方法论、概念化、数据管理。费利佩·莫拉（Felipe Mora）：方法论、软件开发、撰写——初稿、正式分析、验证。马塞尔·C·米努托洛（Marcel C. Minutolo）：方法论、监督、撰写——审稿与编辑、正式分析、验证。

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言