基于逐步虚拟样本生成的可解释框架,用于在小样本条件下加速精确预测多氯联苯/呋喃(PCDD/Fs)并评估排放控制策略的有效性

《Journal of Environmental Chemical Engineering》:Interpretable framework based on stepwise virtual sample generation for accelerating accurate PCDD/Fs prediction and assessing emission control strategies under small-sample conditions

【字体: 时间:2026年02月05日 来源:Journal of Environmental Chemical Engineering 7.2

编辑推荐:

  准确预测城市固体废物焚烧炉烟气中多氯二苯并二恶英和二苯并呋喃(PCDD/Fs)排放受限于高维数据和小样本集,导致传统机器学习模型预测精度和泛化能力不足。本研究提出分步虚拟样本生成(VSG)可解释框架,通过迭代优化避免一次性生成低质量虚拟样本的局限性,使随机森林模型RMSE降低60.52%,MAPE降低68.47%,并揭示最佳虚拟样本量与原始样本量呈指数关系。基于Shapley值解释和部分依赖图分析,确定了多参数协同控制策略,将PCDD/Fs排放降低至0.023 ng TEQ/Nm3。该框架为小样本场景下高精度预测模型开发和排放控制策略制定提供可靠工具。

  
董露露|吴玉佳|侯东|王孔昭|张伟|张晋|尚凡杰|唐少福|唐明珠|卢胜勇
浙江大学清洁能源利用国家重点实验室,杭州,310027,中国

摘要

由于高维性和有限的离线数据集,准确预测城市固体废物焚烧烟气中多氯二苯并-p-二噁英和二苯并呋喃(PCDD/Fs)的排放量受到限制,导致传统机器学习模型的预测准确性和泛化能力不佳。为了解决这一小样本问题,本研究提出了一种基于逐步虚拟样本生成(VSG)的可解释框架。与传统方法不同,该框架不是一次性生成所有虚拟样本,而是每一步只生成50个虚拟样本,并通过迭代优化预测模型,从而突破了初始模型对虚拟样本质量的限制。综合验证实验表明,逐步VSG具有更好的有效性和鲁棒性。生成的虚拟样本在减少预测误差方面表现出有效性和跨模型适用性,使得均方根误差和平均绝对百分比误差分别降低了60.52%和68.47%。同时,性能极限和最佳虚拟样本量与原始样本量之间存在指数依赖关系。这些关系为该框架在实际工程中的应用提供了科学的建模策略和定量监测预算。最后,Shapley加性解释和部分依赖图分析揭示了一种多参数协同控制策略,理论上可将PCDD/Fs排放量降低到0.023 ng TEQ/Nm3。所提出的框架在高精度预测模型的定量开发和小样本条件下的排放控制策略评估方面显示出巨大潜力,从而支持有效的PCDD/Fs管理。

引言

随着经济的快速发展和城市化的加速,城市固体废物(MSW)的产生量正在迅速增加[1]。作为一种有效的处理方法,焚烧已被全球采用[2]。多氯二苯并-p-二噁英和二苯并呋喃(PCDD/Fs)被认为是MSW焚烧过程中最具毒性的物质,具有致癌、致畸、持久性和生物累积性[3]、[4]、[5]。现有研究表明,即使在MSW焚烧器正常运行期间,烟气中的PCDD/Fs的国际毒性当量(I-TEQ)值也可能超过GB 18485-2014标准规定的排放限值(0.1 ng TEQ/Nm3),达到0.5-0.7 ng TEQ/Nm3[6]、[7]、[8]。这突显了监测PCDD/Fs排放的重要性。目前,测量MSW焚烧(MSWI)排放的主要方法是离线采样。这种方法至少需要一周时间才能完成,导致成本高昂且结果滞后,仅适用于年度测量[9]、[10]。这些限制使得监管机构和公众无法在非采样期间获得真实的PCDD/Fs排放数据,也阻碍了对焚烧器运行条件的及时调整。因此,迫切需要开发快速准确的预测模型和在线监测技术,以实时获取PCDD/Fs排放信息。
由于PCDD/Fs的浓度极低、化学性质稳定以及存在多种同系物(共210种),直接在线检测PCDD/Fs极具挑战性[11]。为了实现PCDD/Fs排放的间接测量,以往的研究致力于建立PCDD/Fs与氯苯、氯酚和多环芳烃等潜在指标之间的线性回归(LR)模型[12]、[13]。其中,1,2,4-三氯苯(1,2,4-TrCBz)被认为是开发在线PCDD/Fs监测系统的理想指标,因为它与PCDD/Fs I-TEQ水平有稳定的相关性,并具有更快的检测潜力[12]、[14]、[15]、[16]。然而,根据相关研究,基于1,2,4-TrCBz浓度的LR模型在瞬态和正常运行期间的预测值与离线值之间的平均相对差异分别为72.0%和21.3%,表明预测误差仍有很大的优化空间[8]。此外,大规模MSW焚烧器中PCDD/Fs的生成和排放受到温度、空气、废物组成和烟气净化等多种因素的影响。实现I-TEQ水平的准确预测涉及处理高维特征空间和非线性关系,而这正是LR模型难以解决的挑战。
机器学习(ML)能够高效捕捉特征之间的相互作用和复杂非线性关系,从而提高预测准确性,克服了LR的局限性[17]。最近的研究表明,人们尝试使用多种输入变量(如传统污染物排放量、焚烧器容量和运行参数)来预测PCDD/Fs排放[7]、[11]、[18]。具体的ML算法包括支持向量回归(SVR)[11]、随机森林(RF)[19]、[20]、神经网络[4]、[21]和深度森林回归(DFR)[18]。数据驱动的ML模型的准确性和稳定性取决于多种因素,包括数据集的样本量和质量以及特征空间的维度。足够的高质量样本使基于ML的模型能够从观测数据中有效学习信息[22]。然而,迄今为止,绝大多数PCDD/Fs排放预测模型都是基于离线采样数据开发的,需要数年时间收集近一百个样本以提高模型的稳定性和准确性。由于离线数据采集成本高昂且影响PCDD/Fs排放的因素众多,离线数据集的特点是样本量有限且维度高,使得PCDD/Fs排放预测建模成为一个典型的小样本问题。鉴于这些限制,可能会出现模型过拟合、准确率低和泛化能力差等问题,阻碍了基于ML的PCDD/Fs排放预测模型在MSW焚烧器中的实际应用,并限制了PCDD/Fs排放控制的定量指导。
虚拟样本生成(VSG)技术可以从有限的真实样本中获取知识,并利用这些知识生成虚拟样本。它是解决众多工业过程中小样本问题的有效方法之一[23]、[24]。目前,VSG技术已在许多领域得到应用,证明了其显著提高模型准确性和泛化能力的能力[24]、[25]、[26]、[27]、[28]。此外,还建立了模型性能、虚拟样本量和原始样本量之间的经验公式,从而有助于确定最佳虚拟数据集大小并在其他地点复制基于VSG的预测模型的性能[29]。尽管VSG方法具有显著优势,但尚未对其在PCDD/Fs排放预测建模中的应用进行系统研究。现有研究主要集中在虚拟样本的生成过程和有效性上,但缺乏对最佳虚拟样本数量()与原始样本量()、虚拟样本数量()与模型性能()之间定量关系的探索[30]、[31]、[32]。这些关系是在实现基于VSG的PCDD/Fs排放预测的可重复性和定量开发PCDD/Fs在线监测系统时的关键信息,因为它们有助于估计在不同大小的原始PCDD/Fs排放数据集上应用VSG方法时的和相应的预测模型性能极限,以及根据给定模型性能确定适当的原始数据集和虚拟数据集大小。此外,由于虚拟样本的质量对其提高模型性能的效果至关重要,不良的虚拟样本甚至可能产生负面影响,因此通常要求基于原始数据集构建的模型在回归任务中的MAPE值小于10%[28]、[33]。然而,实际上,基于高维小样本的PCDD/Fs I-TEQ水平预测模型的MAPE可能超过10%。在这种情况下,直接应用初始模型可能会生成不合理的虚拟数据,这凸显了开发一种即使在初始模型性能不够理想时也能生成高质量虚拟数据的方法的必要性。
本研究试图建立一个全面且可解释的框架,用于预测MSWI烟气中的PCDD/Fs I-TEQ水平。该框架旨在利用初始模型学习的输入输出关系,基于少量真实样本生成高质量虚拟样本。使用来自大型MSW焚烧器的长期PCDD/Fs排放数据集(包含36个样本)验证了该框架的有效性和适用性。对模型性能与、预测性能极限以及之间的关系进行了深入研究。此外,Shapley加性解释(SHAP)和部分依赖图(PDP)方法的结合进一步确定了影响PCDD/Fs排放的关键因素,并评估了可行的控制策略。总体而言,该框架提供了一种可重复的技术方法,用于从小样本数据预测PCDD/Fs排放,支持预测模型的定量开发和PCDD/Fs排放的有效控制。它可以作为管理MSWI中PCDD/Fs排放水平的可靠工具。

部分内容

提出的框架

所提出的框架如图1所示。即使初始模型性能较低,也可以基于有限的真实样本逐步生成可靠的虚拟样本,从而缓解数据稀缺问题。该框架由三个模块组成。详细步骤将在后续部分描述。

数据收集和预处理

本研究在中国东南部的一个全尺寸MSW焚烧器上进行。焚烧器和采样点的示意图如图S1所示。

数据分析和特征选择

如表S1所示,I-TEQ值的范围为0.004-0.707 ng TEQ/Nm3,平均值为0.098 ng TEQ/Nm333)、二氧化硫、氮氧化物、氯化氢(HCl,mg/Nm3)和一氧化碳的最大浓度远低于相应的排放限值,表明仅基于传统污染物预测PCDD/Fs排放水平存在一定

结论

本研究提出了一种基于逐步VSG的可解释框架,用于预测和控制MSWI烟气中的PCDD/Fs排放。该框架使用长期离线PCDD/Fs数据集进行了测试,主要结果如下:
  • (1)
    在训练集中添加虚拟样本后,RF模型的RMSE降低了60.52%,MAPE降低了68.47%。在重新构建模型时也观察到了预测准确性的提高

CRediT作者贡献声明

张伟:方法论、调查。张晋:方法论、调查。王孔昭:可视化、方法论、调查。吴玉佳:写作——审稿与编辑、方法论、调查。侯东:可视化、方法论、调查。董露露:写作——初稿、可视化、方法论、调查、形式分析、数据整理、概念化。唐明珠:写作——审稿与编辑、资源获取。卢胜勇:监督、项目

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了深圳市科技计划(编号KCXFZ20240903094201002)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号