《Biomaterials》:A robust machine learning framework for predicting the higher heating value of poultry litter using proximate analysis
编辑推荐:
禽畜粪便高热值预测中,基于干基 proximate 分析参数(挥发性物质、固定碳、灰分)的机器学习框架经数据增强和超参数优化后,优化后的 Extra Trees 模型在未增强测试集上实现 R2 > 0.89,显著优于多元线性回归基线(R2 = 0.64)和传统 ML 模型,且 SHAP 分析证实灰分对能源密度有主导抑制作用。该框架为工业级快速评估提供了低成本解决方案。
Beytullah Eren|Süleyman Uzun|Serkan Ozdemir
萨卡里亚大学工程学院环境工程系,土耳其萨卡里亚,54187
摘要
准确估算家禽粪便的高热值(HHV)对于将其作为可再生能源原料进行利用至关重要。然而,家禽粪便的异质性和数据稀缺性给预测建模带来了挑战。在这项研究中,开发了一个稳健的机器学习框架,利用干基近似分析参数(挥发分、固定碳和灰分)来预测HHV。与依赖标准数据集的先前研究不同,本研究系统地比较了四种建模方案,以分离数据增强和超参数优化的影响。基于高斯噪声的数据增强方法用于扩展训练空间,而GridSearch交叉验证则用于优化模型参数。评估了五种算法(KNN、RF、Extra Trees、LGBM、XGBoost),并与多元线性回归(MLR)基线进行了比较。结果表明,基于原始数据集的模型存在过拟合问题(测试R2 < 0.50),并且未能显著优于MLR基线(R2 = 0.42)。然而,数据增强显著提高了模型的泛化能力。重要的是,评估是在未增强的独立测试集上进行的,以确保其实际应用的可靠性。优化的Extra Trees(ET)模型取得了最佳性能(测试R2 > 0.89,RMSE = 0.80 MJ/kg),优于MLR基线(R2 = 0.64)和其他机器学习模型。特征重要性和SHAP交互分析确认,灰分含量是能量密度的主导抑制因素,这与热化学原理一致。所提出的框架为工业能源评估提供了一种快速、低成本的替代方案,无需昂贵的元素分析。
引言
家禽养殖是全球最大的产业之一,提供了广泛的经济效益,并为粮食安全做出了贡献[1]。然而,它也带来了一些严重的环境问题,尤其是由于其产生的高度易腐废料[2]。向循环经济的转变要求高效利用农业食品部门产生的废物,特别是来自集约化家禽生产系统的废物[3]。家禽粪便(PL)包括垫料、粪便、羽毛和剩余饲料,是家禽产业中最丰富且最具挑战性的废物副产品之一。据估计,每只小鸡每天会产生约0.1公斤的粪便,相当于每生产1公斤家禽肉会产生近1.8公斤的粪便[4]。虽然家禽粪便因其高营养价值而被传统上用作农业肥料,但过度施用引发了关于养分流失、温室气体排放以及土壤和水污染的担忧[5]。因此,将过剩的家禽粪便转化为可再生能源成为同时解决废物管理和支持可持续能源系统的一个有吸引力的途径[6]。
在可用的能源回收途径中,包括焚烧、气化和热解在内的热化学转化技术特别适合家禽粪便,因为它们能够将异质有机残渣转化为可用能源[7]。这些系统的可行性和性能在很大程度上取决于燃料的热值,这直接影响系统设计、运行稳定性和能源效率[8]。然而,家禽粪便的成分和热值具有很大的变异性,据报道其热值范围从大约9 MJ kg?1到13 GJ t?1不等,具体取决于养殖方式和粪便管理策略[9]。在优化条件下,干基高热值(HHV)可达到18 GJ t?1,与木质生物质相当[10],这凸显了家禽粪便的巨大能源潜力。尽管如此,由于水分和灰分含量高且变化大,维持稳定的热值仍然具有挑战性,因为这些因素会对燃料的一致性、储存稳定性和燃烧效率产生负面影响[11]。
因此,准确估算HHV对于将家禽粪便作为能源原料进行评估以及设计和优化基于生物质的能源系统至关重要。虽然使用弹式量热法直接测量可以提供准确的结果,但这种方法耗时且不适用于大规模或实时应用。基于元素分析(C、H、O)的模型虽然具有高精度[12,13],但最终分析成本高昂且需要复杂的设备。因此,中小型生物质工厂的运营商往往无法获得实时的元素数据。相比之下,近似分析参数(即水分、挥发分、固定碳和灰分)由于简单、成本低和广泛可用性而具有实际优势[14]。因此,本研究专门采用仅基于近似分析的建模方法,以最大化工业实用性,尽管元素数据可能会略微提高精度,但会大大降低现场应用的可行性。
最近的研究已成功将机器学习(ML)应用于生物质HHV的预测。例如,参考文献[15,16]展示了ML相对于经验相关性在一般生物质预测方面的优越性。然而,这些研究通常使用涵盖多种生物质类型(木材、秸秆、壳)的汇总数据库,这掩盖了家禽粪便特有的统计挑战。家禽粪便的灰分含量变化极大(范围从1%到60%),这在木质生物质中很少见。现有的通用模型往往无法捕捉到这种高无机成分对能量密度造成的特定非线性抑制效应。
尽管如此,大多数基于经验相关性或回归技术的HHV预测模型在应用于高度异质和易腐的生物质类型(如家禽粪便)时表现出有限的鲁棒性[17]。这些方法通常需要针对不同原料进行广泛的重新校准,并且无法捕捉组成参数之间的复杂非线性相互作用[15]。相比之下,ML技术通过直接从数据中学习并建模非线性关系,提供了一种强大的替代方案,无需预先定义的功能假设[16]。尽管基于ML的HHV预测模型已成功应用于各种生物质类别,但专门针对家禽粪便的研究仍然较少。此外,家禽粪便中水分和灰分含量的显著变异性往往被忽视,限制了现有模型的泛化能力[2]。
除了模型选择外,数据的可用性和代表性也对基于ML的家禽粪便建模构成了重大挑战[8]。实验数据集的规模和多样性往往有限,限制了ML算法在不同粪便成分之间的泛化能力[14]。数据增强技术通过增强数据多样性同时保持潜在的统计和物理特性,提供了一个有前景的解决方案[18]。然而,将噪声注入增强应用于生物质能源建模的研究仍然较少,关于最佳噪声参数的清晰度也有限[15,19]。
在这种背景下,本研究通过以下方式超越了以往的工作:(1)明确针对家禽粪便调整了高斯噪声增强策略;(2)与传统的多元线性回归(MLR)进行了严格的比较;(3)使用SHAP分析结合特征交互作用提供了模型的机制解释。
数据集描述
本研究使用的数据集由实验分析和文献来源的组合构成。具体来说,数据集包括作者分析的120个实验样本以及从同行评审的开放文献中提取的440个样本[2,20]。
原始数据集包含560个单独样本,每个样本都具有近似分析参数和相应的HHV值。输入变量包括挥发分(VM)、固定碳(FC)和灰分含量。
结果与讨论
为了系统地评估数据增强和超参数优化的单独和综合效果,本研究考虑了四种建模方案。这些方案基于数据增强的存在与否以及GridSearch交叉验证的设计。方案1代表没有数据增强和超参数调整的基线模型性能。方案2评估了数据增强本身的效果。
结论
本研究提出了一个基于机器学习的综合框架,用于预测家禽粪便的HHV。通过将ML性能与线性基线进行对比,并系统地测试增强方案,本研究表明了数据丰富化对于生物质建模的必要性。
主要结论包括:
1.ML模型的优越性:优化的Extra Trees模型(R2 = 0.89)显著优于多元线性回归基线(R2 = 0.64)和未增强的ML模型。
2.CRediT作者贡献声明
Beytullah Eren:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源、项目管理、方法论、研究、资金获取、正式分析、数据管理、概念化。Süleyman Uzun:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源、项目管理、方法论、研究、资金获取、正式分析、数据管理,
数据可用性声明
支持本研究发现的数据可向相应作者索取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。