利用结合特征选择和极端样本增强技术的混合模型对华北地区的臭氧进行预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Atmospheric Environment》：Ozone prediction using a hybrid model incorporating feature selection and extreme sample enhancement in North China

【字体：大中小】 时间：2026年02月14日 来源：Atmospheric Environment 3.7

编辑推荐：

　　针对北中国臭氧污染预测中高浓度事件预测精度不足的问题，本研究提出EX-PIM-XGB混合模型，集成排列重要性特征筛选与极端样本增强技术，利用2020-2024年79个监测站小时数据，按季节划分训练集，实验表明该模型在高浓度臭氧预测中显著提升性能，夏季R2由0.79增至0.90，RMSE降低16%，为臭氧预警控制提供新方法。

李伟晓|安俊林

南京信息科学技术大学大气物理学院，南京，210044，中国

摘要

臭氧污染在华北地区已成为日益严重的问题。为了解决在高浓度条件下预测准确性不足和样本分布不平衡的挑战，本研究提出了一种名为EX-PIM-XGB（极端样本增强-排列重要性方法-极端梯度提升）的混合模型，该模型将特征选择与极端样本增强相结合用于臭氧预测。利用2020-2024年期间79个监测站的空气质量及气象数据，将数据集分为四个季节子集——春季、夏季、秋季和冬季，用于模型开发。结果表明，NO₂在所有季节中都表现出较高且稳定的重要性，最高得分为2.78，其次是T2M和D2M，而UVB、CDIR、PM₁₀、PM_2.5则表现出更强的季节性变化。春季、夏季、秋季和冬季模型的R²值分别为0.90、0.88、0.93和0.86，RMSE分别为17.53、19.93、17.50和10.67。增强后的模型在高浓度范围内的性能显著提高；例如，在夏季，R²从0.79增加到0.90，RMSE降低了16%，预测准确性提高了22%以上，优于传统的XGBoost模型和基于PIM的特征选择模型。这些发现表明，将特征稳定性筛选与极端样本增强相结合可以有效提高模型对极端污染事件的响应能力，为臭氧污染预警和控制提供了方法论上的见解和数据支持。

引言

地面臭氧（O₃）是一种典型的二次污染物，通过氮氧化物（NO_x）和挥发性有机化合物（VOCs）在太阳辐射下的光化学反应形成。随着细颗粒物（PM_2.5）污染控制的逐步进展，O₃污染呈现出上升趋势（Wu等人，2018年），这对中国进一步改善空气质量构成了严峻挑战。根据中国生态环境部发布的《大气环境质量状况公报》（2023年），2022年以O₃为主要污染物的天数占比达到47.9%，其中华北平原（NCP），特别是京津冀（BTH）地区及其周边地区受影响最为严重。O₃的形成效率受气象条件的影响很大。在NCP，夏季的高温、强烈的太阳辐射和低湿度为光化学反应创造了有利条件。研究表明，在高NO_x条件下，温度从20℃升高到40℃可使O₃的生成速率增加数倍（Coates等人，2016年）。密集的工业和交通排放，加上复杂的地形-气象相互作用，使NCP成为O₃污染的热点地区。在该地区，高温的夏季、强烈的紫外线辐射和较弱的大气扩散共同催化了O₃的形成（Li等人，2019年）。2023年，华北经历了自1961年以来最热的夏季，平均温度比气候平均值高2.1℃，炎热天数增加了12天，这显著延长了O₃污染季节（CMA，2023年）。此外，O₃的生成具有很强的非线性，因为它受到VOCs/NO_x比例、太阳辐射和湿度等多种相互作用因素的影响。这种复杂性导致在高O₃浓度下的预测性能普遍下降，因此提高高浓度条件下的预测准确性成为关键研究重点。

目前关于O₃预测的研究大致可以分为数值化学传输模型（CTMs）和统计方法。CTMs，如与化学耦合的天气研究和预报模型（WRF-Chem）和社区多尺度空气质量（CMAQ）模型，整合了气象、排放、化学和传输过程来模拟O₃浓度，在捕捉化学机制和区域传输方面非常有效。例如，Sayeed等人（2021年）开发了一种将CMAQ与卷积神经网络（CNN）相结合的混合模型，实现了最多提前14天的准确小时表面臭氧预测。然而，CTMs需要大量的计算资源、广泛的输入数据，并且对边界条件敏感。相比之下，统计方法更高效、更灵活，因为它们依赖于历史观测数据和气象变量通过回归和机器学习进行预测。在BTH地区的比较研究表明，统计方法在均方根误差（RMSE）和相关性方面通常优于CTMs（Ma等人，2021年；Zhu等人，2024年）。近年来，深度学习架构也被越来越多地应用于O₃预测，包括CNN、长短期记忆网络（LSTMs）及其混合形式（Yuan等人，2025年）。同样，多尺度深度学习框架也被证明能够更好地表征复杂的大气过程，特别是在污染条件快速变化的情况下，从而提高预测性能（Li等人，2025年）。尽管深度学习方法在捕捉复杂的时空依赖性方面具有很强的能力，但它们通常涉及更高的计算成本、过拟合风险和较低的可解释性（Agbehadji和Obagbuwa，2024年；Karmoude等人，2025年；Peinado等人，2025年）。相比之下，基于集成树的模型，如随机森林（RF）和极端梯度提升（XGBoost），通常在O₃预测任务中优于传统的统计模型（Pan等人，2023年；Petri?等人，2024年）。在这些方法中，XGBoost由于其效率和鲁棒性而成为最广泛采用的方法之一。Liu等人（2025年）比较了XGBoost、RF和LSTM在北京的臭氧预测中的表现，发现XGBoost由于结合了滞后特征而表现最佳。同样，Luo等人（2024年）报告称，在BTH地区，XGBoost的表现显著优于RF、支持向量回归（SVR）、多元线性回归（MLR）和其他回归模型。当引入滞后特征和变量交互信息时，XGBoost通常表现出更高的预测准确性和稳定性，被认为是短期和季节性O₃预测的竞争性基线模型（Liu等人，2025年）。XGBoost已广泛应用于臭氧预测研究，并经常与特征选择结合使用，以减少过拟合并提高预测准确性（Altmann等人，2010年；Liu等人，2025年；Pan等人，2023年；Zhang等人，2022年），显示出在表示高浓度O₃条件方面的增强能力，为本研究提供了方法论基础。同时，一些研究采用了季节性数据子集进行模型训练，认识到O₃污染的显著季节性差异。与全年混合训练相比，季节性训练通常表现出更高的预测能力，特别是在臭氧动态在不同季节间有明显变化的情况下。Li等人（2025年）和Juarez与Petersen（2021年）（Zhu等人，2024年）开发了季节性O₃预测模型，并报告了不同季节之间的不同驱动机制，表明季节性建模可以更好地表征季节依赖的O₃形成过程。

然而，统计模型在极端污染事件期间往往表现不佳。当每日最大8小时平均臭氧浓度（MDA8 O₃）超出正常范围时，传统的回归和机器学习模型经常出现系统性偏差，尤其是在高浓度时。例如，当MDA8 O₃浓度低于100 μg m^?3或超过200 μg m^?3时，预测准确性显著下降；而当浓度超过215 μg m^?3（即重度污染的阈值）时，预测准确性降至约28%（Zhu等人，2024年）。Vicente等人（2024年）也报告称，现有的机器学习方法在预测臭氧峰值事件时通常准确性较低。Kanayankottupoyil等人（2025年）进一步指出，尽管他们提出的混合深度学习框架能够可靠地捕捉臭氧变化的时间模式，但它倾向于低估极端峰值，这突显了改进极端浓度预测的必要性。这一问题的一个关键限制是极端事件样本的稀缺性，这阻碍了有效学习O₃的尾部分布。由于训练数据集中此类事件的罕见性和不平衡性，模型在捕捉超过条件方面的能力受到限制，导致在预测高浓度或极端臭氧事件时的性能下降（Zhen等人，2025年）。这种数据不平衡被广泛认为是极端条件下预测性能下降的主要原因。为了解决这一挑战，研究人员探索了各种混合框架和数据增强策略。Brown-Steiner等人（2021年）将广义加性模型与合成少数样本过采样技术（SMOTE）相结合，明确证明了SMOTE显著提高了高臭氧浓度的预测能力，使其适用于极端臭氧事件预测，尽管算法的稳定性和参数配置的复杂性可能限制其大规模实际应用。Zhen等人（2025年）引入了一种加权支持向量回归方法来提高高臭氧条件下的预测准确性。Cheng等人（2022年）开发了一个混合机器学习框架，结合了变分自编码器（VAE）和生成对抗网络（GAN），以改善中国的时空小时和日常臭氧预测。同样，为了应对高臭氧样本的稀缺性并提高极端O₃事件的识别能力，Deng等人（2024年）提出了一种合成增强策略，通过识别历史上的高臭氧事件并使用多维气象变量对其分布特征进行建模，从而增强了训练数据集中少数类样本的代表性。通过这种增强，模型对罕见事件的敏感性得到提高，最终提高了臭氧超过预测的鲁棒性和泛化能力。沿着类似的思路，Zavala-Romero等人（2025年）采用了针对高浓度事件的数据增强技术，以改善模型性能并更好地表示训练数据中的罕见高臭氧样本。

研究区域

华北平原（NCP）是中国政治和经济的核心区域，包括北京、天津、山东和其他五个省份。它从东经113.5°到120.67°，北纬32.26°到40.33°，面积约为30万平方公里，人口超过3亿。其以工业为导向的经济和独特的地理位置（西侧以太行山脉和黄土高原为界，东侧濒临渤海）形成了一个半封闭的地形，阻碍了污染物的扩散并加剧了排放。

数据分析

图2展示了2020-2024年间NCP各监测站O₃超过频率的空间分布，不同颜色表示每个站的累计超过事件次数。每小时浓度阈值设定为160 μg m^?3，超过此值的观测被归类为超过事件。超过次数在200到650之间，这些事件表现出明显的空间聚集和区域异质性。

结论

本研究提出了一个基于2020-2024年NCP空气质量及气象数据的臭氧预测模型EX-PIM-XGB。该模型将特征选择与极端样本增强相结合。优化后的模型在预测高浓度臭氧事件方面表现出显著改进。通过应用PIM方法和Spearman相关性来筛选季节性特征并消除冗余变量，特征选择策略增强了模型的稳定性。

资助

本工作得到了国家自然科学基金（资助编号：42075177）和国家重点研发计划（资助编号：2017YFC0210003）的支持。

CRediT作者贡献声明

李伟晓：概念构思、数据整理、形式分析、方法论、软件开发、验证、初稿撰写。安俊林：资金获取、项目管理、资源协调、监督、审稿与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

李伟晓（生于2001年），女性，硕士生，专攻机器学习和大气环境研究。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号