基于可解释机器学习的预测方法,研究番茄废弃物与奶酪乳清在厌氧消化过程中的甲烷产量:共消化作用以及底物与接种物比例的影响

《International Biodeterioration & Biodegradation》:Explainable machine learning-based prediction of methane production in tomato waste-cheese whey anaerobic digestion: Impact of co-digestion and substrate to inoculum ratios

【字体: 时间:2026年03月15日 来源:International Biodeterioration & Biodegradation 4.1

编辑推荐:

  番茄废料与奶酪乳共消化产甲烷预测研究采用可解释机器学习模型分析S/I比和CDR影响,XGBoost表现最优(R2=0.97),SHAP和PDP揭示CDR主导效应及S/I非线性效应,与实验酸化/接种物控制阶段转变一致。

  
Irfan Ullah|Mohammed Talhami|Mohamed Arselene Ayari|Probir Das|Maryam Al-Ejji|Saoussen Benzarti|Alaa H. Hawari
卡塔尔大学工程学院土木与环境工程系,邮政信箱2713,多哈,卡塔尔

摘要

在厌氧消化过程中,甲烷的产生表现出强烈的非线性行为,这是由于底物组成与操作参数之间的复杂关系所致。因此,通过传统的机理模型进行准确预测具有挑战性。本研究旨在开发可解释的机器学习模型,以预测在不同底物与接种物比例(S/I)和共消化比例(CDR)条件下,番茄废弃物与奶酪乳清共消化产生的累积甲烷量。共进行了42次批次实验,利用实验结果训练并评估了四种不同的机器学习算法,包括多元线性回归(MLR)、决策树回归(DTR)、随机森林回归(RFR)和极端梯度提升(XGBoost)。使用R2、MAE、RMSE和MAPE值来评估每种模型的准确性。研究结果表明,线性MLR模型无法捕捉到甲烷产量对CDR和S/I变化的非线性响应。相比之下,集成模型的预测准确性显著提高;特别是XGBoost取得了最高的性能(R2 = 0.97)。为了解释这些集成模型的“黑箱”特性,使用了Shapley加性解释(SHAP)和偏依赖图(PDP)来解析模型所学习到的关系。根据SHAP分析的结果,CDR对甲烷产量预测的影响大于S/I,而S/I则表现出非线性效应,并存在一个最佳值。重要的是,所有数据驱动的发现都与实验观察结果完全一致,实验显示在较低的S/I比率下系统受接种物控制,在高底物负荷下则容易发生酸化。

引言

厌氧消化是一个四步生化过程,产物包括生物气体(主要是甲烷)和消化残渣,后者可用作肥料或其他有用的用途,例如生产生物炭(Abdel daiem等人,2021年;Fu等人,2024年;Zhao等人,2022年)。厌氧消化(AD)的性能对底物与接种物比例(S/I)非常敏感。较高的S/I值(底物过量)常常会导致系统过载,从而快速水解并积累挥发性脂肪酸(VFAs),使反应器酸化;而较低的S/I值有时会稀释溶液,导致碳不足(Khadka等人,2022年;Lu等人,2025年)。例如,Kawai及其同事报告称,在较低的S/I比率(0.33:1,435 mL/gVS)下甲烷产量最高,而在较高的S/I比率下产量降低(比最高产量低38–73%),主要是由于早期酸化(Kawai等人,2014年)。同样,Khadka及其同事观察到在S/I为1时(约674 mL/gVS)生物气体产量最高,而S/I为0.6时产量最低(约464 mL/gVS)(Khadka等人,2022年),这表明底物被稀释且转化缓慢(S/I非常低)。相反,Xu和Li(2012年)的研究表明,含有50%玉米秸秆和50%狗粮的底物在低S/I下甲烷产量最高(304.4 L/gVS),而较高的进料比例会降低产量(Xu和Li,2012年)。
最佳S/I值并非普遍适用,因为高效的AD过程还取决于其他因素,如共消化。共消化通常会改变S/I的最佳值,例如Oduor等人(2022年)发现共消化底物可以通过降低酸度来改善工艺参数。他们的结果显示,单独消化水葫芦(WH)和食物废弃物(FW)的平均气体产量分别为256 mL/gVS和357 mL/gVS,而在70:30(WH: FW,v/v)的共消化条件下,气体产量达到616 mL/gVS(Oduor等人,2022年),这反映了协同的缓冲能力和适当的营养平衡。同样,Ali及其同事也注意到在FW/CM比为2.5时甲烷产量最高(646.6 mL/gVS,S/I比率=0.05),而单独使用牛粪(CM)的效果较差。此外,关于最佳S/I值也存在分歧:一些人认为约1:1是最佳比例(Khadka等人,2022年),一些人认为<0.33是最佳比例(Kawai等人,2014年),还有人认为7:3的S/I比率(约2.33)是最佳比例,这种情况下无需对底物进行预处理即可直接共消化(Kassongo等人,2022年)。这些矛盾的事实表明,每种底物-接种物系统都有其自身的动力学特性和缓冲能力,并可能适用于特定的实验条件。同样,单一消化的结果不能直接应用于具有不同底物组合的共消化系统。
由于文献中不同底物-接种物系统的最佳S/I值存在显著差异,且无法统一标准化,因此消化动力学建模的准确性具有系统特异性。因此,建模技术的选择应朝着数据驱动的方向发展,而不是基于传统假设。传统的建模方法,如Gompertz模型或一级动力学模型,仅用于基本性能估计(Xie等人,2016年)。这些模型有助于拟合单个AD运行的时间依赖性甲烷产量曲线并提取动力学参数。然而,它们无法在不同操作参数下预测甲烷产量。另一方面,机器学习(ML)作为一种创新方法,能够直接从数据集中学习复杂和非线性关系,从而灵活优化AD过程(Khan等人,2023年)。例如,基于多工厂共消化数据训练的人工神经网络(ANN)模型预测甲烷产量的R2约为0.86(Ghazizade-Fard和Koupaie,2025年)。同样,前馈神经网络(多层感知器,MLP)也被用于全规模市政共消化设施的预测,结果显示MLP的性能优于多元线性回归模型和基于树的模型,且无需额外数据预处理即可预测24小时内的生物气体产量,R2为0.78(Schroer和Just,2024年)。
尽管取得了这些进展,但对异构数据的依赖仍然是一个问题。许多研究汇总来自不同工厂或文献来源的数据来训练机器学习模型,这使得模型的泛化能力较差(Kova?i?等人,2024年;Rutland等人,2023年)。此外,许多机器学习研究更注重实现预期目标(高R2、低误差),而非模型的可解释性。先进的“黑箱”模型对输入(底物混合物、C/N比率、pH值)如何影响输出提供的洞察有限,这种信息缺乏和透明度不足成为操作信任的障碍(Rutland等人,2023年)。在机器学习模型中,很少检查基本参数(如S/I比率、OLR或共底物比例),以更好地理解它们对消化性能的影响。因此,最近的研究集中在开发可解释的机器学习技术上。例如,Zou及其同事测试了八种机器学习算法,以确定最佳的生物气体预测方法,并主要基于VFA/ALK比率开发了软传感器。CatBoost算法显示出改进的模型拟合和预测准确性(R2高达0.915),同时特征重要性分析显示生物质量是对生物气体输出影响最大的因素(Zou等人,2024年)。
本研究是首次探讨基于可解释机器学习的番茄废弃物(TW)-奶酪乳清(CW)共消化过程中甲烷产量的预测方法,研究了在不同S/I和CDR条件下的情况,并结合实验结果开发了甲烷产量预测的机器学习模型。本研究旨在评估不同机器学习算法如何基于TW-CW系统中的甲烷产量来训练和泛化非线性关系。评估了多种机器学习技术,如多元线性回归、决策树回归以及先进的集成模型(随机森林和极端梯度提升),以比较和确定在不同S/I比率和CDR组合下最准确的甲烷产量预测器。此外,为了解释这些集成模型的“黑箱”特性,还整合了Shapley加性解释(SHAP)和偏依赖图(PDP)来分析和解释表现最佳模型所学习到的关系。

方法论

本研究基于可解释的机器学习方法,研究了在不同S/I比率和CDR条件下TW-CW共消化过程中甲烷产量的预测,并结合实验结果开发了多种机器学习模型。共进行了42次实验,其中80%的数据用于训练,20%的数据用于测试。使用的四种机器学习模型包括:

S/I比率和CDR对甲烷产量的影响

图2中的累积甲烷产量表明,在前24小时内(对应于t90,即达到累积甲烷90%的时间),S/I和CDR都对平衡酸化和产甲烷活性有显著影响。早期气体生成窗口(t90)在厌氧系统中被广泛用于表征抑制前的短期动力学和生化变化(S?upek等人,2019年)。在整个实验过程中,监测了VFAs、TA、pH和NH3–N的变化。

结论

本研究考察了四种机器学习模型在预测番茄废弃物和奶酪乳清厌氧共消化过程中累积甲烷产量方面的有效性,这些过程在不同的共消化比率(CDR)和底物与接种物比率(S/I)条件下进行。在所有模型中,XGBoost在预测准确性方面表现最佳(R2 = 0.97),证明了集成学习和提升技术在处理复杂非线性关系方面的有效性。

CRediT作者贡献声明

Irfan Ullah:撰写原始稿件、进行正式分析、数据整理、概念构思。Mohammed Talhami:撰写原始稿件、软件开发、进行正式分析、概念构思。Mohamed Arselene Ayari:撰写、审稿与编辑、监督工作、方法论制定、进行正式分析、概念构思。Probir Das:撰写、审稿与编辑、概念构思。Maryam Al-Ejji:撰写、审稿与编辑、概念构思。Saoussen Benzarti:撰写、审稿与编辑、概念构思。Alaa H. Hawari:

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究由卡塔尔研究、发展与创新委员会(QRDI)资助,项目编号为MME04-0501-230001。此外,其中一位作者感谢卡塔尔大学通过研究生助教计划提供的支持。作者们还对环境科学中心(ESC)在实验测试和数据分析方面的帮助表示感谢。本文中的陈述仅代表作者本人的观点。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号