空气污染,尤其是细颗粒物(PM2.5),是一个严重的全球健康和环境问题。根据世界卫生组织(WHO)的数据,大约99%的全球人口生活在空气质量未达到推荐标准的地区,这导致了2019年约420万人过早死亡,主要发生在东南亚和西太平洋地区(WHO, 2024)。直径小于2.5微米的PM2.5颗粒可以深入呼吸系统和心血管系统,显著增加严重健康问题的风险。城市环境尤其脆弱,因为车辆排放、工业活动和家庭燃料燃烧等污染源集中,共同造成了巨大的公共卫生负担(Brook等人,2010年;Karagulian, Belis, Dora, Prüss-Ustün, Bonjour, Adair-Rohani, Amann, 2015年)。因此,准确预测PM2.5浓度对于设计有针对性的干预措施和制定数据驱动的环境政策至关重要。
由于PM2.5的动态时空行为,预测其浓度本质上非常复杂,需要采用稳健的方法论。早期的预测工作使用了传统的计量经济学模型,包括线性回归和LASSO(最小绝对值收缩和选择算子,LASSO)等正则化技术(Wood, 2024),为污染物变化提供了基础性见解。随着机器学习(ML)和深度学习(DL)的发展,新一代预测模型应运而生,提高了准确性和分辨率。Chen等人(2019年)和Di等人(2019年)的研究展示了集成方法(如随机森林RF和梯度提升机GBM)以及序列建模技术(如长短期记忆LSTM网络)的有效性。混合模型进一步提升了性能;例如,Zhao, Deng, Cai, 和 Chen(2019年)将LSTM与神经网络架构结合使用,而Qi, Li, Karimian, 和 Liu(2019年)将图卷积网络(GCNs)与LSTM集成,以更好地模拟空间相关性。最近的进展,包括最先进的3D卷积神经网络(3D-CNNs)和有状态LSTM,展示了改进的预测稳定性和稳健性(Wen等人,2019年)。同时,CNN-LSTM模型(Huang & Kuo, 2018年)和多变量方法(Li, Hua, & Wu, 2020年)等混合框架继续强调了整合空间和时间依赖性的重要性。
深度学习的进一步突破促进了能够捕捉更复杂关系的模型的发展。特别是Transformer-BiGRU(双向门控循环单元)架构采用了多尺度自适应降噪和误差校正机制,实现了高预测准确性(Chen & Liu, 2025)。类似地,CNN-Transformer模型结合了用于空间分析的卷积神经网络和用于时间序列建模的Transformer网络,在高分辨率、基于移动监测的PM2.5预测中表现出稳健的性能(Wang, He, Huang, Yang, & Peng, 2025)。
尽管有这些技术进步,文献中仍存在重要空白。最显著的是,缺乏传统计量经济学模型与现代深度学习方法之间的系统化、全球范围的比较。此外,将基于面板数据的迁移学习与Transformer模型相结合的潜力尚未得到充分探索。关于这些模型在不同时间和地理环境中的适应性以及它们的泛化能力等关键问题仍未得到解答,这突显了进行全面评估的必要性。
本研究通过系统地比较全球范围内传统和现代预测方法来建模PM2.5浓度,填补了这些空白。作为主要贡献,我们引入并评估了迁移学习作为一种新的方法论框架,用于全球PM2.5预测,解决了当特定国家的训练数据有限时的跨国预测这一根本挑战。具体来说,我们评估了基于面板数据的迁移学习框架和基于Transformer的深度学习模型在104个国家22年期间(1998-2019年)的性能。据我们所知,这是首次进行大规模、系统化的迁移学习与面板计量经济学方法在PM2.5预测方面的比较。本研究开发的迁移学习框架通过顺序参数冻结架构和Transformer模型的门控少样本校准,实现了从全球模式到特定国家环境的系统知识转移,这是一种超越简单微调或局部模型拟合的方法论进步。分析突出了每种方法的优势和局限性,特别关注区域差异、结构异质性以及预测结果在不同环境中的泛化能力。此外,我们纳入了社会经济和气象变量,以评估它们在塑造PM2.5动态中的作用,从而更深入地了解空气质量变化的根本驱动因素。通过阐明这些预测方法的比较效果,本研究有助于设计更准确、更具适应性和政策相关性的全球空气质量管理预测工具。我们在计量经济学稳定性和深度学习灵活性之间架起了桥梁。虽然我们的固定效应面板适应(FEPA)框架在结构上与传统的混合效应模型相似,但它引入了一种更适合高维、非线性预测的顺序优化范式。
除了内部交叉验证外,我们还采用了严格的留一区域法(Leave-One-Region-Out, LOReO)外部评估程序来测试模型在异质环境中的可转移性。结果表明,门控少样本校准显著提高了Transformer模型的零样本转移能力,使它们能够更有效地适应未见过的地区。相比之下,简单的计量经济学替代方法在缺乏局部结构信息时无法泛化。这种差异突显了深度学习方法(擅长捕捉复杂的时空动态)和面板计量经济学模型(保留可解释性和政策相关性)之间的互补性。这些方法共同为推进全球PM2.5预测和支持基于证据的环境政策制定提供了坚实的基础。
本文的其余部分结构如下:第2节回顾相关文献;第3节概述方法论和数据来源;第4节展示实证结果;第5节讨论发现和未来研究方向。