生物质热解过程中NH3和HCN生成的预测与解释:一种基于多种特征工程技术驱动的新型机器学习架构
《Journal of Analytical and Applied Pyrolysis》:Prediction and interpretation of NH3 and HCN formation in biomass pyrolysis: a novel machine learning architecture driven by multiple feature engineering techniques
【字体:
大
中
小
】
时间:2026年05月02日
来源:Journal of Analytical and Applied Pyrolysis 6.2
编辑推荐:
刘小瑞|王明珠|杨毅|杨海平浙江科技大学智能制造与能源工程学院,中国杭州摘要揭示NH3和HCN的形成机制及其关键影响因素对于生物质热解过程中的工艺优化和NOx控制至关重要。本研究构建了一种新颖的机器学习架构,并结合了特征工程技术,在模型训练前提取重要特征,以准确预测NH3和HCN
刘小瑞|王明珠|杨毅|杨海平
浙江科技大学智能制造与能源工程学院,中国杭州
摘要
揭示NH3和HCN的形成机制及其关键影响因素对于生物质热解过程中的工艺优化和NOx控制至关重要。本研究构建了一种新颖的机器学习架构,并结合了特征工程技术,在模型训练前提取重要特征,以准确预测NH3和HCN的产率并阐明其影响。考虑到使用不同方法提取的特征结果存在不一致性,本文采用了九种特征工程技术并进行了系统分析。结果表明,不同特征工程技术识别出的重要特征在数量和排名上存在显著差异。然而,氮(N)和热解温度(PT)在所有方法中均被一致认为是影响NH3形成的关键因素,而氮和热解温度也被7种方法认为是影响HCN形成的关键因素。随后,通过特征工程方法识别出的重要特征被用作输入数据来开发基于特征工程的CatBoost模型。PCC-CatBoost模型在预测这两个目标方面表现出色,R2值超过0.92。热解温度(PT)被认为是影响NH3和HCN形成的最关键因素,随着温度的升高,它们的产率先增加后减少。氮含量与NH3产率呈显著正相关,但对HCN产率的影响有限。本研究证明,基于特征工程的框架不仅能够准确预测NH3和HCN的形成,还能有效识别出一致的影响因素,为调控生物质热解过程中的NOx前体提供了科学依据。
引言
作为唯一的碳基可再生能源,由于化石燃料的枯竭和日益严重的环境问题,生物质的利用受到了广泛关注[1]。生物质的热化学转化,特别是热解技术,是实现其价值的重要途径,同时产生三种产物:热解气体、生物油和生物炭[2]、[3]。在热解过程中,生物质原料中的氮以蛋白质的形式分布在这些产物中[4]。值得注意的是,气相中的含氮物质主要以NH3和HCN的形式存在[5]。鉴于热解也是燃烧和气化过程的初始阶段,这一阶段NH3和HCN的释放直接影响了下游NOx的形成[6]、[7]。特别是,富含氮的生物质中的氮含量在热量当量上等于甚至高于煤炭,可能会产生大量的NOx排放[5]、[8]。NOx排放因其严重的环境后果(包括酸雨、光化学烟雾和呼吸系统健康危害)而臭名昭著[1]、[9]。在热解过程中采取主动干预措施,而不是在燃烧后去除NOx,是一种更加节能且经济可行的减排方法[6]。
了解NH3和HCN的形成机制对于优化热解过程至关重要,但由于生物质的异质性以及多种因素(如生物质组成、热解温度、加热速率及其与生物质成分的相互作用等)的相互作用,它们的生成机制仍然很复杂[10]。例如,有研究表明热解温度是影响NOx前体形成的最关键因素,高温通常会增加NH3和HCN的产率。然而,也有研究指出高温会促进HCN的形成而抑制NH3的形成[13]。陈等人发现快速热解产生的HCN量显著高于缓慢热解[14]。
以往的研究通过实验或DFT方法广泛研究了含氮模型化合物(如蛋白质、氨基酸)的热降解途径,以阐明NH3和HCN的形成机制[15]、[16]。蛋白质和氨基酸经历脱水、脱羧和脱氨反应,根据其结构通过不同的途径产生NH3和HCN[17]、[18]。然而,对于培养的小球藻和青霉素菌丝废料,由于它们主要的氮功能相似(N-A类型),观察到它们的演变机制具有高度相似性[19]。这也在我们之前的研究中得到证实[13]。此外,氨基酸的分解还受到生物质固有成分的影响。例如,木质素在苯丙氨酸热解过程中增加了NH3和HCN的产率[20]。李等人揭示了生物质成分与聚酰胺之间的协同效应和可能的反应[21]。因此,热解过程极其复杂,NH3和HCN的形成及其影响因素机制仍不清楚。
总之,评估多种变量影响的复杂性凸显了需要更先进的方法来整合多源实验数据并识别影响NH3和HCN形成的主导因素。近年来,机器学习(ML)在生物质转化方面展现了其可行性[22]。特别是,陶等人利用SVR模型从生物质复合材料和热解温度预测了生物质快速热解过程中NH3和HCN的产率,分别达到了0.98和0.96的R2值[23]。然而,NH3/HCN的形成与生物质性质以及热解条件之间的相互作用仍然缺乏关注,这给控制热解过程中NOx前体的形成带来了挑战。
研究变量之间相互作用的常见方法包括在基于树的模型中嵌入特征重要性分析、部分依赖图(PDP)、Shapley值等[24]。然而,这些方法是在模型训练后自动评估特征贡献的工具,高度依赖于训练模型的质量,并忽略了变量之间的相互作用[25]。相比之下,特征工程是一种在模型训练前进行的预处理程序,旨在通过领域知识提取或构建更有效的特征表示,为后续建模提供改进的输入。因此,特征工程通过构建、转换和选择特征显著提高了模型的预测和泛化性能,在ML预测中起着关键作用[26]。此外,还有报告指出,使用不同类型的特征工程方法,模型的表现也会有所不同[27]、[28]。因此,在本研究中,构建了一个结合多种特征工程方法和CatBoost模型的新颖框架,旨在(1)比较使用不同特征工程方法的特征选择结果,(2)准确预测NH3和HCN的产率,(3)揭示影响NH3和HCN产率的关键因素及其影响,(4)提出调控生物质热解过程中NH3和HCN形成的适当建议。
章节摘录
数据集构建
数据集是通过从已发表的论文中提取实验数据构建的,这些论文的补充材料中可以找到。数据集包含了各种类型的生物质,包括秸秆废弃物、林业废弃物、工业废弃物、藻类、咖啡废弃物、污泥等。收集了原始生物质的元素成分(C、H、O、N、S,重量%)和近似成分(M、FC、V、灰分,重量%)以及热解温度(PT,℃)和热解速度(PS)等信息
数据集的统计描述
图1(a)是数据集的可视化描述;详细信息请参见补充材料。生物质中的C、H、O、N和S的含量分别在22.77~63.1重量%、2.25~9重量%、7.48~56.31重量%、0.15~10.99重量%和0~3.9重量%的范围内。对于近似成分,M、FC、V和灰分的含量分别在0~14.8重量%、0~54.46重量%、15.06~85.8重量%和0.33~65.4重量%的范围内。变量的显著差异
结论
本研究构建了一个新颖的框架,将特征工程方法与CatBoost算法相结合,以准确预测NH3和HCN的产率并揭示影响因素。鉴于使用不同方法进行特征选择时结果存在不一致性,本文采用了九种不同的特征工程技术(包括PCC、PCA、AE、VAE、PLS、RF、LASSO、MI和VI)并进行了系统分析。结果显示,重要特征的数量和排名存在显著差异
CRediT作者贡献声明
刘小瑞:撰写——审稿与编辑,撰写——初稿,方法论,资金获取,概念化。杨海平:撰写——审稿与编辑,监督,资金获取,概念化。杨毅:正式分析,数据管理。王明珠:可视化,正式分析,数据管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
作者感谢国家自然科学基金(52306282)和国家自然科学基金优秀青年项目(52125601)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号