基于Transformer-LSTM混合模型的PM2.5多时间尺度预测研究——以成都市为例

《iScience》：Evaluating deep learning time series models for PM2.5 forecasting across diverse horizons

【字体：大中小】 时间：2026年02月09日 来源：iScience 4.1

编辑推荐：

　　本研究针对成都市PM2.5污染预测难题，系统评估了LSTM、CNN-LSTM、Transformer和Transformer-LSTM四种深度学习算法在月、季、半年和年尺度上的预测性能。结果表明：Transformer-LSTM模型在多元配置（特别是结合温度、气压、降水、风速等气象因子）下预测精度最高（R2提升>0.15，误差降低>25%）；完整季节训练数据可显著提升预测可靠性，而训练与预测期间隔超过三个月将导致模型性能明显下降。该研究为复杂地形城市空气质量精准预测提供了方法论支持。

在盆地地形和密集排放源共同作用下，成都市的PM_2.5污染问题日益严峻。这些细颗粒物能够深入肺部，与呼吸系统及心血管疾病的发生密切相关，世界卫生组织已将浓度超过35 μg/m³的PM_2.5认定为危险水平。传统统计模型如自回归综合移动平均模型（ARIMA）虽可解释性强，却难以捕捉PM_2.5时间序列中复杂的时空依赖关系；机器学习方法如随机森林和支持向量机在精度上有所提升，但其泛化能力有限。近年来，深度学习模型如长短期记忆网络（LSTM）、卷积神经网络（CNN）与长短期记忆网络混合模型（CNN-LSTM）以及Transformer架构，凭借其强大的非线性建模能力，在时间序列预测领域展现出巨大潜力。然而，现有研究在多时间尺度预测、辅助变量（如气象因子与协同污染物）的系统比较，以及训练数据完整性对模型性能的影响等方面仍存在明显不足。

为填补上述研究空白，Ling Zeng团队在《iScience》上发表了最新研究成果，系统评估了四种深度学习时间序列模型（LSTM、CNN-LSTM、Transformer、Transformer-LSTM）在成都市PM_2.5预测中的表现。研究采用了两年（2022年11月至2024年10月）的每日数据，重点探讨了不同预测周期（月、季、半年、年）、训练数据完整性以及训练期与预测期之间时间间隔对模型准确性的影响。

研究团队主要运用了以下几种关键技术方法：长短期记忆网络（LSTM）用于捕捉序列依赖关系，卷积神经网络与长短期记忆网络混合模型（CNN-LSTM）结合了局部特征提取和时序建模优势，Transformer模型利用自注意力机制处理长程依赖，而Transformer-LSTM混合模型则整合了前两者的优点。数据来源于成都市五个环境空气质量监测站和两个气象监测站，涵盖了PM_2.5、CO、NO₂、O₃、SO₂以及温度、气压、降水、风速等变量。数据分析包括距离相关性分析以筛选预测变量，并采用均值绝对误差百分比（MAE%）、均方根误差百分比（RMSE%）和决定系数（R²）作为模型性能评估指标。

主要研究结果

辅助变量配置的影响

研究设置了单变量（仅PM_2.5）和四种多元配置（CO+NO₂、仅CO、O₃+SO₂、四种气象因子）来评估辅助变量的预测贡献。结果表明，气象因子配置（温度、气压、降水、风速） consistently 显著提升了所有深度学习模型的预测精度，而三种污染物配置则未表现出稳定改善。

时间敏感性分析结果

模型性能评估分为两类：第一类使用完整的全年四季数据（2022年11月至2023年10月）进行训练，预测下一年（2023年11月至2024年10月）不同时间尺度的PM_2.5浓度；第二类使用不完整的季节性数据（同一周期内部分数据）进行训练，预测剩余时间段。结果显示，使用完整数据训练的模型（第一类）其预测精度显著高于使用不完整数据训练的模型（第二类）。更重要的是，研究发现当训练期与预测期之间的时间间隔超过三个月时，所有模型的预测可靠性（以R²衡量）均出现显著下降，甚至出现负值，表明训练数据难以捕捉PM_2.5动态变化。

深度学习算法性能比较

在四种深度学习算法中，Transformer-LSTM混合模型在单变量和多元配置下均表现最优，尤其在结合气象因子时，其R²值最高，MAE%和RMSE%最低。该模型在从月度到年度的不同预测尺度上均展现出卓越的稳健性和准确性。CNN-LSTM模型在某些短期预测场景中也表现出较强的性能提升，而Transformer模型在长程依赖建模方面有优势，但在数据不完整时表现有所下降。LSTM模型作为基线模型，其性能相对较弱。

注意力权重分析

对表现最佳的Transformer-LSTM模型的注意力权重分析揭示了不同辅助变量的相对重要性。在气象因子组合中，温度被赋予最高的注意力权重（约0.2654），其次是气压（0.247）、风速（0.2055）和降水（0.0853）。在污染物组合中，SO₂的权重（0.42176）高于O₃（0.31576），而在CO和NO₂组合中，CO的权重（0.4724）高于NO₂（0.2546）。这些权重分布反映了模型对不同特征预测贡献的内在评估。

多地点验证

为验证模型的泛化能力，研究还将表现最优的气象因子增强的Transformer-LSTM模型应用于乌鲁木齐和杭州这两个中国污染较重的城市进行预测。结果显示，模型在不同城市环境下仍能保持稳定的预测性能（R²介于0.539至0.627之间），证明了其在实际空气质量管理中的潜在应用价值。

研究结论与意义

本研究通过系统性的评估，得出了若干关键结论：首先，Transformer-LSTM混合架构凭借其结合自注意力机制和序列建模的能力，在PM_2.5多时间尺度预测中表现最优。其次，气象因子（尤其是温度）的引入能显著提升预测精度，其作用远超协同污染物，这突显了气象条件在PM_2.5扩散和积聚中的因果作用。第三，训练数据的完整性至关重要，包含完整季节信息的训练集能显著提高模型的泛化能力和预测稳定性。第四，时间敏感性分析表明，预测的可靠性随着训练期与预测期间隔的增大而降低，特别是当间隔超过三个月时，模型性能急剧下降，这提示了数据时效性在空气质量管理中的重要性。

这项研究不仅为成都市及其类似地形复杂城市的PM_2.5精准预测提供了有效的深度学习解决方案，也为环境政策制定者提供了重要启示：应优先将实时气象数据整合到空气质量预测系统中，并确保使用完整、及时更新的数据集进行模型训练，以应对PM_2.5污染的动态变化。尽管本研究存在数据集时间跨度有限和地域特定性等局限性，但其提出的方法论框架和关键发现为未来在更广泛区域和更长时序数据上开展相关研究奠定了坚实基础，对推动基于人工智能的环境监测和精准治理具有重要意义。

热点排行

新闻专题