利用可解释机器学习和TOPSIS方法，分离LCB预处理过程中的固体回收率、木质素脱除率与糖分产率之间的关系

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomass and Bioenergy》：Decoupling solid recovery, delignification, and sugar yield in LCB pretreatment using explainable machine learning and TOPSIS

【字体：大中小】 时间：2026年02月02日 来源：Biomass and Bioenergy 5.8

编辑推荐：

　　基于中心复合设计优化甘蔗渣碱预处理工艺，结合人工神经网络和AHP-TOPSIS多目标优化，发现固体回收率（SR）与脱 lignin 度（DL）的最佳条件不同，酶解糖产率（RS）均低于理论最大值（0.70 g/g），最终确定最优平衡方案为SR 66.08%、DL 71.19%、RS 0.63 g/g。

Raushan Quraishi | Biswanath Mahanty

生物技术系，卡鲁尼亚科技与科学学院，哥印拜陀，641114，印度

摘要

对于固体回收（SR）或脱木质素（DL）的最佳预处理条件并不一定与酶水解过程中的最大糖产量（SY）一致。在这项研究中，采用了中心复合设计来探讨温度、NaOH浓度和孵育时间对甘蔗渣预处理的影响。基于高斯误差增强数据训练的超参数优化人工神经网络（ANN）模型表现出良好的预测和泛化能力（R2：0.993、0.991、0.980；R2CV：0.972、0.994、0.993）。Shapley加性解释（SHAP）分析表明，NaOH浓度和时间是SR和DL的最重要预测因子。尽管为DL（83.54%）和SR（97.89%）优化的预处理条件存在显著差异，但相应的糖产量（0.51 g/g和0.26 g/g）仍远低于最大可实现值（0.70 g/g）。通过分析层次过程（AHP）从多目标优化（MOO）中选出了最佳的帕累托最优解，并使用类似于理想解的排序技术（TOPSIS）框架进行排序，表明SR（66.08%）、DL（71.19%）和糖产量（0.63 g/g）之间存在最佳权衡。

引言

木质纤维素生物质（LCB），包括农业、工业和水果废弃物原料，正越来越多地被用作生物精炼过程的底物或一系列碳基产品的原料[1]。LCB通常由纤维素（30–50%）、半纤维素（20–35%）和木质素（15–30%）组成，根据生物转化过程的不同，可以转化为不同的增值产品[2]。然而，由于木质素介导的多糖之间的交联作用，使得LCB中的纤维素和半纤维素部分难以进行酶水解和后续的生物转化[3,4]。因此，采用了多种物理、化学和生物预处理方法来分解这种顽固的木质素[5,6]。碱预处理特别有效，能够破坏木质素-半纤维素和纤维素-半纤维素之间的强共价键[7]。

固体回收率（SR），即预处理后的生物质与原始生物质的质量比，以及脱木质素程度（DL），即预处理后木质素含量的变化，被广泛用于评估预处理过程的整体效果[8]。碱预处理可以去除酸不溶性的木质素以及部分半纤维素和纤维素[9]。虽然高SR表明处理后的生物质“量”较大，但高DL对于提高生物质中纤维素和半纤维素的“质量”至关重要。然而，高DL并不总是能转化为还原糖（RS）产量的增加[10],[11],[12]，即使在木质素含量相同的生物质情况下也是如此。建立DL与RS产量之间的直接关系可能会产生误导[14]，这种异常现象可以通过每次操作中组分回收和物质损失的精确质量平衡来解释[15]。

碱预处理条件（即温度、时间和pH值）会影响SR、DL和RS产量[16]。优化预处理条件对于实现高SR和DL、减少纤维素和半纤维素的损失、提高糖产量以及确保整个过程的可持续性至关重要[17]。统计实验设计，例如中心复合设计（CCD），可以在有限的实验次数内有效地探索设计空间[18]。在响应面方法（RSM）中，可以采用多种回归模型（线性、交互作用和二次模型）来优化预处理反应[19]。基于CCD的实验设计已被用于NaOH催化的Triton X-100预处理和甘蔗渣的酶水解，以研究纤维素回收率、半纤维素回收率和DL[20]。然而，功能形式有限的回归模型可能无法充分捕捉复杂的非线性依赖关系。

机器学习（ML）的最新进展为这些传统建模方法提供了变革性的解决方案。超参数优化后的ML模型，如人工神经网络（ANN）和集成模型（如随机森林、提升回归树），可以揭示数据集中隐藏的依赖关系[21]。尽管ML模型通常需要较大的数据集，但在大多数情况下，设计空间中的实验观察结果已经足够。这些ML模型结合可解释的人工智能工具，可以提供准确的预测、良好的泛化能力和有价值的过程洞察[22]。ML模型还可以进一步整合到单目标或多目标优化（MOO）框架中[20,23]。

一些MOO框架生成了一组非支配的帕累托最优解，在这些解中，没有任何一个目标可以在不损害其他目标的情况下得到改进[24]。然而，在实践中，某些目标可能比其他目标更重要。在这种情况下，可以使用分析层次过程（AHP）来确定主观的权重[25]。然后可以使用类似于理想解的排序技术（TOPSIS）对这些帕累托替代方案进行排序，其中最佳替代方案被定义为与正理想解的距离最短，与负理想解的距离最远[26]。

尽管AHP和TOPSIS的潜力已经得到充分验证[27,28]，但它们在ML辅助的LCB预处理中的应用仍然很少被探索。在这项研究中，采用CCD实验研究了不同NaOH浓度（0.5–5%）、温度（50–121°C）和时间（20–180分钟）下的甘蔗渣（SCB）碱预处理。测量SR和DL后，对预处理后的生物质进行了酶水解。实验数据用于开发各种ML模型，在单独优化和MOO框架下优化预处理条件。最佳帕累托最优解是根据AHP权重和TOPSIS排序框架选出的。

部分内容

化学品和试剂

所有用于预处理、葡萄糖标准化和缓冲液制备的化学品（柠檬酸和氢氧化钠）均从印度SRL Private Limited购买。商业纤维素酶Cellic CTec2（SAE0020）购自印度Sigma-Aldrich Merck。其他试剂，如硫酸和醋酸，也从印度Merck获得。

生物质收集和预处理

甘蔗渣（SCB）是从印度卡鲁尼亚大学校园附近的一个果汁中心收集的。收集到的甘蔗渣经过清洗以去除...

预测因子和响应的分析

不同预处理条件下的SR、DL和RS测量结果见表2。实验条件下观察到的预处理性能差异很大（SR：57.58%–90.2%，DL：23.94%–71.4%，RS：0.29 g/g–0.67 g/g）。从中心点重复实验估计的生物质预处理实验中，SR、DL和RS的相对标准偏差（RSD）分别为1.28%、10.48%和2.35%。其中DL的RSD相对较高（10.48%）

结论

采用基于实验设计的ML方法来研究SCB碱预处理条件对DL程度、SR和RS产量的影响。针对每个响应在高斯噪声增强CCD数据集上训练的HP优化ANN模型具有强大的预测和泛化能力。DL（83.54%）和SR（97.89%）的最佳预处理条件存在显著差异，这些条件下的RS产量（0.51 g/g和0.26 g/g）仍低于最大可能值

CRediT作者贡献声明

Raushan Quraishi：撰写 – 审稿与编辑、初稿撰写、可视化、方法论、研究、数据分析、概念化。Biswanath Mahanty：撰写 – 审稿与编辑、初稿撰写、可视化、监督、项目管理、方法论、研究、数据分析、概念化。

参与同意

不适用。

发表同意

不适用。

伦理批准

不适用。

资金支持

未提供。

利益冲突

作者声明没有相关的财务或非财务利益。

致谢

R.Q.和B.M.感谢卡鲁尼亚科技与科学学院的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号