《Biomass and Bioenergy》:Experimental and nature-inspired modeling of lipid accumulation in microalgal biomass for biofuel production
编辑推荐:
本研究通过整合机器学习与自然启发优化算法,构建了预测Neochloris oleoabundans在不同营养及生态条件下脂质含量的模型体系,采用数据预处理(含ADF/PP平稳性检验、插值及离群值处理)与可解释AI(SHAP分析)提升模型可靠性。实验表明CatBoost模型在特征组合C3下预测最优(RMSE=0.1593),关键驱动因素为培养时间、生物量浓度及pH调节效率。
Sani I. Abba | Saidur Rahman Chowdhury | Abdullahi G. Usman | Shaikh Abdur Razzak
沙特阿拉伯阿尔科巴尔,穆罕默德·本·法赫德大学土木工程系,邮编31952
摘要
准确测定微藻中的脂质含量(LC)对于优化生物燃料生产过程非常重要,但由于生物和环境因素之间的复杂相互作用,这一过程面临诸多挑战。本文介绍了一项实验研究,该研究结合了受自然启发的学习方法,对不同营养和生态条件下的Neochloris oleoabundans生物量中的LC进行建模,以开发和生产可持续的生物燃料系统。通过线性插值和修正的Akima三次插值方法对缺失值进行了数据质量验证,并使用高斯平滑处理(平滑因子为0.25),同时利用广义极值学生化偏差(GESD)方法去除了异常值。采用样条插值法填补了观察到的异常值。所有变量均经过统计检验,根据Augmented Dickey-Fuller(ADF)和Phillips-Perron(PP)检验以及Schwarz准则(SCI)、Akaike信息准则(AIC)和Bartlett核准则(BK)的结果,确认这些变量是可靠且稳定的。基于三种不同的特征集,开发了四种模型,包括Extreme Gradient Boosting(XGBoost)、Extreme Learning Machine(ELM)、结合Whale Optimization Algorithm(ELM-WOA)优化的ELM和CatBoost。结果表明,采用特征组合C3的CatBoost模型具有最佳的预测能力,其测试阶段的均方根误差(RMSE)为0.1593。通过基于XGBoost模型内部机制的增益基特征重要性分析、方差分析(ANOVA)和Shapley加性解释(SHAP)等方法比较了特征的相关性,这些方法均确定了主要预测因子(培养时间、生物量浓度和ETR pH值)。
引言
全球对可再生和可持续能源需求的增加,激发了人们对微藻作为第三代生物燃料原料的兴趣[[1], [2], [3]]。与陆地作物相比,微藻具有许多优势,如高光合作用效率、快速生长速度以及可大规模生产大量脂质[[4], [5], [6], [7]]。Neochloris oleoabundans在脂质积累能力方面表现尤为突出,是生产生物柴油的理想候选物种之一[[8]]。然而,微藻生物量的脂质含量(LC%)易受多种物理化学和环境条件的影响,包括营养物质的可用性、光照强度、温度、CO2浓度和pH值动态。因此,理解这些变量之间的多方面相互作用对于优化脂质产量和扩大生物燃料生产系统至关重要[[9], [10], [11]]。
此外,传统的经验预测方法由于只能捕捉多变量数据集中的非线性关系和相互作用(如响应面方法(RSM)、统计方法和线性传统建模)而效果不佳[[12]]。相比之下,机器学习(ML)和人工智能(AI)方法似乎是利用经过验证的实验结果准确预测和优化系统的强大工具[[13], [14], [15]]。例如,Singh等人[[16]]开发了一个利用废水最大化微藻生物量生产的ML模型,在畜牧业废水中表现出良好性能,实现了高生物量产量和有效的营养物质去除。Chen等人[[17]]在他们的研究中评估了在世界各地边际土地上种植微藻生产碳和生物能源的潜力,结果表明澳大利亚、哈萨克斯坦、苏丹、巴西、美国和中国是推动微藻在可持续能源和减缓气候变化方面发挥重要作用的主要国家。Xu等人[[18]]利用BPNN和GA开发了一个优化模型,用于预测带压浮选系统中的微藻收获效率。SHAP分析显示,微藻浓度和LDM直径是影响收获效率的最关键因素。该模型通过实验验证被证明是可靠的,因此可以用来设计有效的微藻收获系统。
最近,ML算法的改进,包括集成学习器和其他学习方法(如深度学习)、受生物启发和神经启发的模型,在包含复杂生物系统、科学和工程的预测建模任务中表现更好[[10,11,[17], [18], [19], [20], [21], [22]]。然而,这些方法在脂质含量预测中的应用仍然不足,尤其是在结合生物反应器实时参数、最佳培养计划和模型可解释性的模型中。此外,许多过去的研究未能提供充分的数据验证过程(例如评估数据稳定性或使用有效的统计测试如ANOVA),这影响了模型的可靠性和泛化能力。此外,很少有研究使用真实的实验数据和可解释的AI(XAI)工具(如SHAP)来理解其他因素(如pH调节和CO2动态)的影响,而这些因素对脂质生物合成有显著影响,但在建模方案中往往未被考虑(Agrawal等人,2024年)。此外,大多数建模活动没有考虑结合生物启发算法和ML模型的混合优化方法,以提高预测准确性和对参数的敏感性[[23]]。
本研究的目标是开发基于数据的可靠模型,用于预测微藻生物量中的脂质含量,这些模型结合了ML和优化概念,可应用于生物燃料解决方案。我们使用在不同条件下培养的Neochloris oleoabundans的实验数据,训练和测试了XGBoost、CatBoost、Extreme Learning Machine(ELM)以及结合Whale Optimization Algorithm(ELM-WOA)的混合模型。通过三种输入组合对实际生物反应器情况进行建模,使用线性相关性和SHAP分析选择特征并解释模型。ADF和PP检验用于评估数据集的稳定性,同时使用多种指标和ANOVA评估模型性能。本研究的新颖之处在于结合了受生物启发的优化方法和ELM,使用了可解释的AI来预测LC,纳入了其他文献中较少考虑的pH调节变量,并进行了严格的预处理,包括统计稳定性测试,从而填补了微藻脂质预测研究中的一个重要空白。本研究提供了一个可复制且可解释的建模框架,有助于提高脂质产量的估计精度,从而控制生物过程以生产基于生物燃料的微藻。基于研究发现中的空白,本文假设将实验培养数据与先进的ML模型和受自然启发的优化算法相结合,可以有效捕捉Neochloris oleoabundans中脂质积累的复杂非线性相互作用。进一步假设,结合操作变量(如pH调节指标和培养动态)以及可解释的AI技术,可以提高预测精度,并提供对微藻系统中脂质生物合成关键驱动因素的可解释性见解。
实验程序
在本实验中,使用了来自德克萨斯大学奥斯汀分校的微藻N. oleoabundans(UTEX 1185),因为它具有去除营养物质和积累脂质的能力。实验设计旨在在不同培养条件下最大化LC,并同时提高合成市政废水中的氮和磷的去除率。为了模拟三级废水,精心制备了一种合成废水培养基。
微藻生物量的LC是其作为生物燃料原料适用性的主要指标,其变化反映了环境与营养参数之间的复杂生理相互作用。本研究基于数据驱动的建模展示了LC受到多种关键输入因素的显著影响:光照强度(X,mg/L)、CO2固定率、N:P比例、温度和pH动态(DTR pH和ETR pH)(图2)。其中,光照强度是最具影响力的因素。
本研究介绍了一个详细的ML模型,用于预测在不同环境因素下生长的Neochloris oleoabundans的LC。收集了所有实验样本。在建模之前对数据进行了预处理,包括描述性统计分析、ANOVA、ADF和PP稳定性检验以及相关性分析。开发并测试了四种预测模型,包括XGBoost、ELM、结合ELM-WOA优化的ELM和CatBoost。
为了统计验证选定输入特征对Neochloris oleoabundans中脂质积累的影响,进行了单因素ANOVA(表1)。分析包括七个独立变量:光照强度(X)、CO2固定率、N:P比例、温度、每日pH范围(DTR pH)和pH调节效率(ETR pH),以及因变量LC。结果表明,各变量之间的均值存在显著差异,F统计量证明了这一点。
本研究提出了一个结合ML框架,用于精确预测在不同环境和操作条件下的Neochloris oleoabundans生物量中的LC。实验与先进的建模方法相结合,填补了生物燃料领域的一个重要空白,即能够在使用最少但精心选择的输入参数的情况下高精度预测脂质积累。在测试的四种模型中(包括XGBoost、ELM、ELM-WOA等),
Sani I. Abba:撰写 – 审稿与编辑、验证、软件开发、资源整理、概念构思。Saidur Rahman Chowdhury:撰写 – 原始草稿撰写、可视化、方法论设计、数据管理、概念构思。Abdullahi G. Usman:可视化、验证、监督、软件开发、资源管理、形式分析。Shaikh Abdur Razzak:撰写 – 审稿与编辑、可视化、资源管理、项目协调、方法论设计、资金筹集、概念构思。
作者感谢穆罕默德·本·法赫德大学(PMU)土木工程系、国王法赫德石油与矿业大学(KFUPM)化学工程系以及PMU的可持续水资源研究小组(SWRG)对这项研究的支持。