利用基于机器学习和可变输入的数据驱动方法预测森林燃烧产生的PM2.5排放

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Hazardous Materials》：Using the Data-driven Prediction of Forest Combustion PM 2.5 Emissions based on Machine Learning and Variable Input

【字体：大中小】 时间：2026年02月23日 来源：Journal of Hazardous Materials 11.3

编辑推荐：

　　本研究旨在通过熵权TOPSIS方法优化机器学习模型，提升PM2.5排放预测的准确性和计算效率。基于844次燃烧实验，对比六种算法发现，Extra Trees模型在气象、地形、燃料等变量下预测精度最高（MAE=717.7 μg/m3），而MLP模型在全部变量输入时计算最快（0.0025s）。最佳组合MLP+关键变量综合得分97.95，为快速预测PM2.5浓度、划定烟雾影响区及制定防火策略提供科学依据。

教育部可持续森林生态系统管理重点实验室，东北林业大学林业学院，哈尔滨，黑龙江，150040，中国

摘要

森林燃烧会释放大量PM_2.5，对在火线附近工作的消防员构成严重的烟雾暴露风险，并对更广泛地区的公共健康产生不利影响。准确量化野火产生的颗粒物排放量对于评估其全球影响至关重要。尽管许多当前的研究都致力于提高机器学习算法的性能以提升PM_2.5预测的准确性，但大多数算法的冗余性往往会降低计算效率。这在高度动态的森林火灾场景中是不利的，因为这些场景需要更高精度和更快的模型算法来预测PM_2.5。我们的研究旨在通过引入一种基于熵权重-TOPSIS方法的新颖综合性能指标，在保持准确性的同时提高计算速度，该指标用于评估模型的预测准确性和计算速度。本研究使用了844次燃烧实验，并应用了六种机器学习算法来分析六个变量类别（气象、地形、燃料、火行为、火焰特征和火强度）对PM_2.5排放量的影响。结果表明，当使用火强度、火蔓延速率、气象、燃料和地形数据作为输入变量时，Extra Trees（ET）算法在PM_2.5浓度预测方面取得了最高的准确性（MAE =717.7 μg/m3）。多层感知器（MLP）算法在提供所有变量的情况下，计算时间最短，仅为0.0025秒。同时，结合火强度、气象和燃料特征的MLP模型在预测准确性和计算效率之间达到了最佳平衡，综合性能得分为97.95。研究表明，高质量的数据输入和适当的算法选择对于实现高效性能至关重要，而变量冗余或模型复杂性过高可能导致预测结果不准确。本研究提供了一种有效的快速估算PM_2.5排放量的方法，能够快速预测PM_2.5浓度，划定烟雾污染影响区域，及时发布健康保护建议，并促进区域烟雾管理的有效响应。此外，通过对高森林火灾风险区域的动态监测，可以确定适当的计划燃烧时机，从而有效减少燃料。这种方法减轻了高强度野火及其相关高浓度烟雾排放的潜在风险，从而减少了森林火灾造成的颗粒物污染。这些发现为区域空气质量管理和森林火灾风险缓解提供了重要见解。

引言

主要由气候因素驱动，森林火灾的发生正逐渐从低风险向高风险条件转变。在生态敏感区域，如北方森林、温带林地和热带稀树草原，火灾扰动尤为明显。在这些地区，气温升高、干旱期延长和降水模式改变加剧了燃料干燥和野火蔓延的风险，从而在燃烧过程中增加了烟雾排放的强度。[58], [7]。这每年使数亿人暴露在与火灾相关的PM_2.5污染中，并导致全球约339,000例过早死亡[23], [4]。作为主要的大气污染物之一，森林火灾来源的PM_2.5影响着更广泛地区的空气质量和公共健康[40]。在农业与森林交织的地区（如东南亚和南非），以及北美野生动植物与城市交界处（WUI），PM_2.5的高威胁影响尤为严重，人类暴露风险显著增加[29]。森林火灾来源的PM_2.5已成为公共健康和环境可持续性的紧迫全球挑战，这突显了深入研究其排放机制和准确预测方法的必要性。

准确预测森林燃烧产生的PM_2.5排放量是关键的科学优先事项。随着计算机建模技术的进步，包括多元线性回归（MLR）[35], [55]、广义加性模型（GAM）、线性混合效应模型（LME）和地理加权回归（GWR）在内的线性统计模型通过阐明驱动因素与排放量之间的关系，进一步提高了预测能力[34]。尽管取得了这些进展，但仍存在关键不确定性和研究空白，限制了PM_2.5排放量预测的准确性和适用性。影响因素之间的非线性相互作用尚未得到充分量化；传统的线性模型和经验方法难以捕捉复杂的协同或拮抗效应。此外，参与排放预测的各种变量的敏感性也尚未完全阐明。

机器学习算法是一类能够自动从数据中识别和学习模式的计算方法，从而可以对未知数据做出预测或决策[45]。随着机器学习算法的发展，一些非线性模型也被用于预测森林火灾中的PM_2.5排放量，并取得了有希望的结果[10], [33], [47]。尽管机器学习（ML）算法在捕捉非线性关系和提高预测准确性方面表现出强大能力，但当前基于ML的研究仍存在一个关键缺陷：缺乏关于不同变量输入条件（如单个变量类别与组合变量类别，或关键变量子集）如何影响模型性能的系统性评估，包括准确性和计算效率。很少有研究明确比较了在不同变量输入情况下的机器学习算法，以确定实现快速准确PM_2.5预测的最佳算法-变量组合。

随着对复杂环境预测任务日益依赖机器学习，未优化的变量输入可能导致模型性能不佳和结果不可靠。为了解决这一研究空白，我们假设不同的机器学习算法对不同类型的输入数据具有不同的敏感性。高质量的输入变量（如森林燃料特性、气象、火蔓延、火焰特征和火强度）可能比单纯增加模型复杂性更能显著提高预测准确性，同时还能提高计算速度。为了验证这一观点，我们基于我们研究小组之前进行的实验室模拟燃烧实验收集的PM_2.5排放数据开发了机器学习模型。这些模型结合了六种不同的算法，并引入了一种综合性能评估指标，用于评估数据驱动的机器学习方法在预测PM_2.5排放量方面的综合效果，包括预测准确性和计算时间。我们的研究为提高火线附近PM_2.5排放量预测的准确性提供了重要支持。

研究区域

森林燃烧是一个由多种因素驱动的复杂现象。为了研究森林燃烧产生的PM_2.5排放的驱动因素并开发预测模型，本研究旨在满足研究算法对大样本量和多因素输入的要求，同时确保数据质量和节约研究资源。为此，本研究综合了我们研究小组之前进行的六项研究的数据。

异常值统计

根据本文建立的数据处理方法，首先对PM_2.5数据进行了标准化处理，并根据3σ原则筛选和移除了异常值。如补充图1所示，在所有844组实验数据中，有13组被识别为异常值。最终，831组实验数据被用于进一步分析。

基本数据统计

由于本研究整合了多项先前调查的实验数据，实验数据的测量存在差异

结论

基于对研究小组之前进行的844次燃烧实验的重新分析，本研究调查了森林燃料燃烧产生的PM_2.5排放的驱动因素，并评估了不同机器学习算法在预测PM_2.5水平方面的性能。结果表明，气象条件、燃料特性和地形特征共同影响了火行为和随后的PM_2.5浓度，其中火行为的影响最为显著

CRediT作者贡献声明

Zhaoguo Li：研究。Daotong Geng：研究、正式分析。Lixuan Wang：可视化。Yanpeng Zhang：正式分析、数据管理。Yi Ye：撰写——初稿、可视化。Jibin Ning：撰写——初稿、方法论、研究、正式分析、数据管理、概念化。Guang Yang：撰写——审稿与编辑、项目管理、资金筹集。Liqing Si：方法论、正式分析。Weike Li：方法论、正式分析。Xinyu Wang：

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究得到了国家自然科学基金（32371881, 32401584）、中国博士后科学基金会专项基金（2025T180545）和黑龙江省博士后基金（LBH-Z23051）的支持。

利益冲突声明

作者声明他们没有利益冲突。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号