《Atmospheric Environment》:A Study on the Prediction and Driving Mechanisms of Typical Air Pollutant Concentrations in the Yunnan Plateau Region using Machine Learning
编辑推荐:
机器学习模型在云南高原四地O3、SO2、PM2.5浓度预测中的应用显示模型间性能差异小,RF整体最稳定但BP在特定场景表现不逊于深度学习模型。O3预测最优(R2>0.88),SO2次之(0.79-0.97),PM2.5最差(0.56-0.86),主要受多源非线性特征和跨境传输复杂性影响。
何彦秋|江英祥|曹强|刘泽伟|韩家成|李文才|陈志宏
中国云南省昆明市昆明科技大学环境科学与工程学院,邮编650500
摘要:
本研究采用机器学习方法预测了云南高原地区(迪庆、大理、普洱和班纳)四个典型地点的O3、SO2和PM2.5浓度,并探讨了其背后的驱动机制。通过使用四种模型——随机森林(RF)、反向传播(BP)、卷积神经网络(CNN)和长短期记忆网络(LSTM),并结合气象因素、排放数据和地形特征,预测结果显示所有模型的准确率都很高,且性能差距较小。尽管随机森林在整体稳定性上略胜一筹,但在特定场景下,结构更简单的反向传播模型与深度学习模型的表现相当,这表明复杂的架构并不总是更优。O3的预测效果最佳(R2 > 0.88),因为其光化学反应具有规律性;SO2的预测效果次之(R2 = 0.79–0.97),受排放源稳定性的影响;PM2.5的预测效果最差(R2 = 0.56–0.86),这归因于其多源非线性特征和跨界传输的复杂性。模型普遍存在“低浓度预测准确率高、高浓度预测偏差大”的特点。研究表明,高原地区污染物形成存在多因素协同作用机制,数据稀疏性、特征量化不足以及算法的非线性建模能力是当前模型的主要瓶颈。
引言
近年来,由O3、SO2和PM2.5引起的空气污染问题日益严重,其中O3污染已成为改善中国空气质量的关键障碍(Li等人,2020;Lu等人,2020)。地面O3主要是挥发性有机化合物(VOCs)与氮氧化物(NOx)在紫外线作用下发生一系列光化学反应产生的(Chen等人,2023)。高浓度的O3会对人类健康、植被生长和生态安全产生不利影响(Zheng等人,2023)。SO2主要来自工业排放、煤炭和化石燃料燃烧(Yang等人,2019)。SO2可导致人类呼吸系统和心血管疾病,也是酸雨的主要原因之一,会破坏生态系统和建筑物(Shima,2025;Wu等人,2022)。PM2.5的主要来源包括生物质燃烧、工业排放、机动车尾气和建筑施工粉尘(Shi等人,2024)。PM2.5可引发心血管和呼吸系统疾病,影响能见度,并加剧气候变化(Wang等人,2024)。因此,准确预测O3、SO2和PM2.5的浓度并研究其驱动机制对于控制空气污染至关重要。
不幸的是,传统的线性回归模型在预测空气污染物浓度时气象输入有限,且未考虑时间序列特性,无法满足受多种气象因素和污染物浓度影响的实际需求(Allabakash等人,2022;Kazi等人,2023)。ARIMA模型、加法模型和多元线性回归模型虽然结合了时间序列和外部因素,具有良好的数学形式和参数解释能力,但其数据关系是线性的,无法捕捉非线性关系(Pyae和Kallawicha,2024;Xu和Lan,2019;Yan和Enhua,2020)。这些传统模型在处理来自城市站点的大量时空数据时,似乎无法有效预测空气污染物浓度的空间分布。
鉴于传统模型的局限性,越来越多的研究转向了更灵活的机器学习方法。机器学习模型在时空预测方面具有显著优势,因为它们具有强大的非线性拟合能力和对高维数据的适应能力。例如,一些研究尝试将人工神经网络与数据驱动模型结合,以提高SO2的预测精度(Kafi等人,2025)。在工业废气处理领域,时间卷积网络(TCN)和非线性自回归外生模型(NARX)被用于预测和优化烟气脱硫系统的运行参数(Biancofiore等人,2017;Li等人,2023)。在O3浓度预测方面,阈值自回归(TAR)模型可用于预测次日的浓度,而堆叠长短期记忆网络(S-LSTM)也被证明能有效预测一天的O3浓度(Solihin等人,2023)。在O3预测任务中,长短期记忆网络(LSTM)通常比传统人工神经网络(ANN)表现更好(Guo等人,2023)。在颗粒物预测方面,相关研究采用了多种建模方法,包括基于时空信息的预测模型以及结合经验模态分解和双向LSTM的复合模型。这些方法已被应用于PM2.5浓度的时空分布预测和短期预报(Duo等人,2018;Giorgis-Allemand等人,2017)。然而,目前关于机器学习方法预测空气污染物的研究主要集中在城市化地区或全球尺度。系统定量分析高原地区不同海拔高度的O3、SO2和PM2.5浓度的时空分布和驱动机制仍较为缺乏。
由于反向传播(BP)神经网络结构简单且适应性强,常用于环境数据的非线性回归建模(Pan等人,2020;Zhang等人,2016;Zhao等人,2024)。卷积神经网络(CNN)因其在空间特征提取方面的优势而适用于分析O3浓度的空间分布(Liu等人,2021;Park等人,2021)。长短期记忆(LSTM)网络因其在时间序列建模方面的优势,能够捕捉O3浓度的周期性变化(Chen等人,2025;Lin等人,2024;Teng等人,2022;Zhao等人,2019)。随机森林(RF)因其良好的可解释性和鲁棒性而被用于变量重要性分析(Jain等人,2022;Ma等人,2019;Zhang等人,2023)。
基于此,本研究为云南高原地区不同海拔高度的四个城市(迪庆、大理、普洱和班纳)建立了四种机器学习模型——随机森林模型(RF)、反向传播神经网络模型(BP)、卷积神经网络模型(CNN)和长短期记忆网络模型(LSTM),以实现以下目标:(1)评估各种模型对不同类型污染物的预测能力;(2)分析不同地理条件下污染物的时空分布特征;(3)识别影响污染物浓度及其区域变化的关键因素。研究结果将为西南高原地区的精准空气质量管理提供科学依据,并为复杂地形条件下的污染物浓度预测提供参考。
数据
由于云南地区地形复杂且海拔差异较大,有必要研究该地区O3、SO2和PM2.5浓度的时空分布和驱动机制。本研究选择了四个具有代表性的海拔地点进行研究,分别是高海拔地区的迪庆、中海拔地区的大理、中低海拔地区的普洱以及低海拔地区的西双版纳(以下简称班纳)
拟合优度分析
本研究使用四种模型——随机森林(RF)、反向传播(BP)、卷积神经网络(CNN)和长短期记忆网络(LSTM)——建立了模型,并预测了云南省西南高原地区四个不同海拔位置(普洱站、大理站、班纳站和迪庆站)的O3、SO2和PM2.5浓度。模型性能通过决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)进行评估。
如表1所示,四种模型——随机森林(RF)、反向传播(BP)、卷积神经网络(CNN)和长短期记忆网络(LSTM)——表现出相似的趋势
作者贡献声明
曹强:项目管理、方法论、调查。何彦秋:写作——审稿与编辑、初稿撰写、正式分析、数据整理。江英祥:写作——审稿与编辑、监督、项目管理、资金获取。李文才:验证、监督、软件开发、概念构思。陈志宏:资源协调、项目管理、方法论。刘泽伟:监督、软件开发、资源调配。韩家成:数据可视化、验证、概念构思
未引用参考文献
Ye和Liao,2022;云南省统计局,2024;Zhou和Jun,2020;Zhen-sen等人,2023。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。