编辑推荐:
机器学习与深度学习正推动空气质量建模变革,通过数据驱动模型和ML辅助数值模型两种路径提升预测精度与效率。研究系统梳理了112篇文献,指出数据驱动模型在PM2.5和臭氧预测中表现突出,而ML辅助方法通过修正偏差和加速计算优化传统化学传输模型(CTM)。但模型黑箱、不确定性量化不足及物理方程融合仍是主要挑战,需借助可解释AI和物理信息神经网络等新兴技术突破。
德莱尼·纳尔逊(Delaney Nelson)| 尤努苏·崔(Yunsoo Choi)| 马赫萨·帕亚米(Mahsa Payami)| 德韦什瓦尔·辛格(Deveshwar Singh)| 里朱尔·迪姆里(Rijul Dimri)| 萨贡·戈帕尔·卡亚斯塔(Sagun Gopal Kayastha)| 西哈布·沙赫里亚尔(Shihab Shahriar)| 拉希克·伊斯兰(Rashik Islam)| 艾哈迈德·汗·萨尔曼(Ahmed Khan Salman)| 金哲哲(Jincheol Park)
美国德克萨斯州休斯顿大学地球与大气科学系,邮编77204
摘要
空气质量建模正在经历重大变革,因为机器学习(ML)和深度学习(DL)的出现解决了传统方法(包括统计方法和化学传输模型(CTM)的固有局限性。本综述系统地概述了这一演变过程,将112篇文献中的进展分为两大类:一类是纯粹的数据驱动模型,用于估算污染物浓度;另一类是借助ML的数值模型,用于改进CTM的输出或模拟这些模型本身。总体而言,文献表明,数据驱动方法显著提高了对细颗粒物(PM2.5)和臭氧等关键污染物的预测准确性。同时,ML辅助方法也在增强传统建模能力。偏差校正工作提高了模型在源分配等下游应用中的准确性,而基于DL的模拟器则提供了计算成本大幅降低的高保真模拟结果。尽管取得了这些进展,但在空气质量建模中应用ML仍面临诸多挑战,例如模型的“黑箱”性质、不确定性量化不足以及区域数据稀缺等问题。此外,整合控制大气物理的复杂化学常微分方程仍然是一个关键障碍。解决这些问题需要新的解决方案。可解释人工智能(XAI)提高了模型的透明度,而物理信息神经网络(PINN)则实现了数据驱动推理与基本物理定律的融合,推动了更快、更可靠、更易解释的空气质量建模系统的发展。最终,这些进步将推动下一代空气质量模型的发展,使其能够更及时、更准确地提供信息,以评估污染影响并指导缓解策略。
引言
在过去几十年中,人类活动显著改变了大气成分,导致人们对空气质量及其对公共健康的影响日益关注。空气污染物(如一氧化碳(CO)、二氧化碳(CO2)、挥发性有机化合物(VOCs)、氮氧化物(NOx)、二氧化硫(SO2)、臭氧(O3)以及不同空气动力学直径的颗粒物(PM))不断从化石燃料燃烧、工业过程、车辆活动和能源生产中排放出来,加剧了区域性和全球性的空气污染,并扰乱了大气化学平衡(Safieddine等人,2017;Safieddine和Viatte,2023;Whalley等人,2021)。这种改变不仅通过直接排放活性物质发生,还通过由太阳辐射引发的二次化学过程发生(Tsai等人,2021)。这些反应常常产生二次污染物,如O3和细颗粒物(PM2.5),进一步恶化了空气质量并增加了对人类健康的危害。暴露在高浓度空气污染物中不仅对人类有害,也对动物、植物以及更广泛的环境和生态条件产生不利影响(Liu和Desai,2021;Manisalidis等人,2020)。因此,准确表示空气污染物浓度对于诊断污染趋势、评估暴露风险和推进空气质量管理至关重要。
为满足对可采取行动的空气质量信息日益增长的需求,人们进行了大量建模工作,以更好地表征污染物的行为。空气质量建模方法主要分为三类:统计模型、数值模型和基于人工智能(AI)的模型。统计和数值模型采用成熟的数学公式来最佳描述控制大气中污染物传输、转化和沉积的物理和化学过程(Wang等人,2020)。在数值方法中,化学传输模型(CTM)被最广泛用于模拟和预测污染物的大气命运。CTM以气象场和污染物排放率为输入,通过求解偏微分方程组来描述决定污染物浓度的全方位三维(3D)过程(Pouyaei等人,2020;Kashfi Yeganeh等人,2024;Park等人,2024,Park等人,2025)。常用的CTM包括社区多尺度空气质量模型(CMAQ)(Byun和Scher,2006)、结合化学的天气研究和预报模型(WRF-Chem)(Grell等人,2005)以及带有扩展功能的综合空气质量模型(CAMx)(Emery等人,2024)。尽管CTM在多尺度空气质量模拟和预测中非常有用,但它们存在一些局限性。CTM需要来自独立排放处理系统和数值天气预报(NWP)模型的大量输入数据,计算资源需求高,并且依赖于简化的假设和大气过程表示,这往往限制了它们捕捉细尺度污染物行为的能力。统计模型同样存在通用性有限、对输入数据真实性敏感以及在更精细的时空尺度上准确性降低的问题(Bessagnet等人,2023;Sayeed等人,2022a)。
为了解决传统建模方法的这些局限性,大气科学家开始采用AI技术来提高空气质量建模的准确性、效率和灵活性(Payami等人,2024;Salman等人,2024;Sayeed等人,2021a)。AI泛指旨在执行模式识别、预测建模和自适应决策等任务的计算方法,这些任务传统上需要人类的推理或学习能力。在空气质量建模的背景下,特别是机器学习(ML),已被广泛用于识别观测数据和模型数据集中的模式和关系,从而实现预测能力,而无需依赖明确的物理和化学公式。这些能力使ML成为在降低计算负担的同时提高预测准确性的越来越有吸引力的选择,尤其是在高分辨率或数据受限的建模环境中。例如,ML模型可以通过学习输入和输出特征的小子集来复制数值模型的功能行为,从而在不求解全部控制方程的情况下快速估算空气污染物浓度(Payami等人,2024;Salman等人,2024)。图1总结了用于空气质量建模的AI驱动应用的层次结构。这些应用大致可分为两类:独立于数值建模框架运行的数据驱动ML模型,以及用于增强或加速数值模型特定组件的ML辅助模型(包括但不限于CTM)。这些方法之间的区别为本综述后续部分提供了结构基础。
部分摘录
综述范围和结构
为了确保文献选择过程的透明度和可重复性,本综述遵循了PRISMA 2020(系统评价和荟萃分析的优先报告项目)指南中的筛选工作流程,该指南为系统评价提供了标准化框架(Page等人,2021)(图2)。
我们进行了全面的文献综述,以识别和评估关于AI驱动空气质量建模的同行评审研究。这些研究主要发表在……期间
用于空气质量建模的数据驱动ML模型
用于空气质量建模的数据驱动ML技术具有一个共同的结构,即将多源环境数据与监督学习算法相结合。在本节回顾的研究中,卫星产品、再分析得到的气象场和地面观测数据、陆地表面和人为指标以及地面空气质量测量数据被整合并处理以构建输入协变量,而地面测量数据还提供了观测到的污染物浓度
用于空气质量建模的ML辅助数值模型
除了纯粹的数据驱动方法外,ML技术还越来越多地与传统的数值模型结合使用,以提高其模拟和预测的准确性、运行效率及功能灵活性。如图5所示,ML辅助数值建模旨在增强CTM的特定组件、CTM的输出或现有的数值建模流程,而不是完全替代它们,包括偏差校正和后处理(第4.1节)挑战与未来方向
尽管上述基于ML的空气质量建模取得了显著进展,但仍有一些基本挑战限制了其更广泛的应用和实际操作准备情况。如图7所示,未来的进展取决于解决五个相互关联的研究重点:XAI、不确定性量化(UQ)、迁移学习、数据稀缺性以及将物理方程纳入DL模型。这些领域共同指明了改进的方向结论
空气质量建模领域正在经历重大变革,这一变革是由ML和DL的整合推动的,以解决传统建模方法的局限性。正如我们对212篇文献的回顾所详细展示的,这些技术正在两个互补的研究方向上取得进展:一类是纯粹的数据驱动模型,它们在预测准确性方面设立了新的基准;另一类是ML辅助方法,它们改进了现有CTM的输出并加速了模拟过程。
文献清楚地表明
CRediT作者贡献声明
德莱尼·纳尔逊(Delaney Nelson):撰写——原始草稿、可视化、研究、概念化。尤努苏·崔(Yunsoo Choi):撰写——审阅与编辑、监督。马赫萨·帕亚米(Mahsa Payami):撰写——原始草稿、可视化、研究。德韦什瓦尔·辛格(Deveshwar Singh):撰写——原始草稿、可视化、研究。里朱尔·迪姆里(Rijul Dimri):撰写——原始草稿、可视化、研究。萨贡·戈帕尔·卡亚斯塔(Sagun Gopal Kayastha):撰写——原始草稿、可视化、研究。西哈布·沙赫里亚尔(Shihab Shahriar):撰写——原始草稿、可视化
写作过程中生成式AI和AI辅助技术的声明
在准备本文时,作者使用了Grammarly和ChatGPT来提高文章的可读性和语言表达。使用这些工具/服务后,作者根据需要对内容进行了审阅和编辑,并对出版物的内容承担全部责任。
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的财务利益或个人关系。
致谢
作者感谢尤努苏·崔博士的指导,以及休斯顿大学为这项研究提供的机构资源。