基于可解释集成与深度学习算法的生物炭阳离子交换能力稳健预测研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Current Research in Biotechnology》：Robust prediction of biochar cation exchange capacity via interpretable ensemble and deep Machine learning algorithms

【字体：大中小】 时间：2026年02月05日 来源：Current Research in Biotechnology 4

编辑推荐：

　　本研究针对生物炭阳离子交换容量(CEC)预测难题，通过集成学习和深度学习算法构建预测模型。研究团队收集210组实验数据，采用五折交叉验证评估表明，AdaBoost(AB)模型预测性能最优（测试R2=0.915，AARE%=32.05），并通过SHAP分析揭示生物质灰分(Ash_biomass)是影响CEC的最主要正相关因素。该研究为生物炭性能预测提供了可解释的机器学习框架，对优化土壤改良材料设计具有重要指导意义。

随着可持续发展理念的深入，生物炭作为多功能碳材料在土壤改良、环境修复等领域的应用日益广泛。其核心性能指标——阳离子交换容量(Cation Exchange Capacity, CEC)直接决定生物炭保留养分、吸附重金属的能力。然而，由于生物质原料组成和热解过程的复杂性，CEC受多种非线性因素影响，传统经验模型难以准确预测。这一瓶颈严重制约了生物炭的定向设计和产业化应用。

为突破这一困境，来自沙特阿拉伯哈伊尔大学应用学院的研究团队在《Current Research in Biotechnology》上发表了一项创新研究。他们系统比较了六种机器学习算法（决策树DT、自适应提升AB、随机森林RF、集成学习EL、卷积神经网络CNN和多层感知器MLP-ANN）在生物炭CEC预测中的表现。研究首次将可解释性分析与预测精度相结合，为生物炭性能优化提供了新范式。

研究方法的核心在于构建高质量数据集和 rigorous 的模型验证流程。研究人员从同行评审文献中收集了210组经过实验验证的数据记录，涵盖生物质元素组成（C、H、O、N、灰分）、热解条件（温度、时间）等关键参数。通过相关性分析、杠杆值异常检测确保数据质量，采用90%训练集和10%测试集的划分方式，并实施五折交叉验证以评估模型泛化能力。特别值得关注的是，研究不仅使用决定系数(R²)、均方误差(MSE)等传统指标，还引入平均绝对相对误差百分比(AARE%)进行多维度性能评估。

在模型构建方面，研究团队对每个算法进行了超参数优化：DT最大深度设为7，AB估计器数量为43，RF最大深度20，CNN训练轮次1800，MLP-ANN迭代次数250。这些优化确保各模型在公平条件下进行比较。为增强结果可解释性，团队采用SHAP（Shapley Additive exPlanations）方法量化各特征对预测结果的贡献度，突破了机器学习模型"黑箱"局限。

3.1. 探索性数据分析

通过散点图矩阵和皮尔逊相关性分析，研究发现生物质灰分(Ash_biomass)与CEC呈现最强正相关（相关系数最高），而氢含量(H_biomass)、氧含量(O_biomass)和热解温度(T_py)则显示负相关。这一发现从数据层面证实了原料组成比工艺参数对CEC影响更显著。利用杠杆值进行的异常检测显示，仅约2%的数据点被识别为高影响力样本，经核实这些均代表极端但合理的实验条件，因此予以保留以增强模型泛化能力。

3.2. 模型评估

五折交叉验证结果显示，不同算法表现差异显著。AB模型在测试集上R²达0.915，MSE为139.6，AARE%仅32.05，训练与测试性能差距最小，表明其卓越的泛化能力。集成学习EL以测试R²0.883位居第二。树模型DT和RF表现中等（测试R²分别为0.822和0.851），而深度学习模型出现严重过拟合：CNN训练R²高达0.994但测试值骤降至0.424；MLP-ANN性能最差，测试R²仅0.213。误差分布图进一步证实AB模型相对误差集中 near 零附近，而CNN和MLP-ANN测试误差分散严重。

3.3. 建模算法超参数

超参数调优结果表明，树模型需要约束深度防止过拟合（DT最佳深度7，RF为20），AB在43个估计器时达到稳定。深度学习模型需要早停策略（CNN 1800轮，MLP-ANN 250次迭代）以避免验证误差上升。这些优化设置为后续性能比较提供了公平基础。

3.4. 建模精度

综合比较显示，AB在测试集上R²最高(0.915)，误差最低（MSE=139.6，AARE%=32.05），且训练-测试差距最小。EL、DT、RF依次次之，而CNN和MLP-ANN因过拟合导致测试性能大幅下降。实际vs预测散点图清晰显示，AB预测点最紧密分布在1:1线两侧，而CNN和MLP-ANN点分散严重。相对误差分布图表明AB误差集中 near 零，且训练与测试分布一致，进一步证明其稳定性。

3.5. SHAP分析

特征重要性排序显示，Ash_biomass对CEC预测贡献最大，其次是H_biomass和O_biomass，而热解温度(T_py)和停留时间(Rt_py)影响相对较小。SHAP值分布图揭示，高Ash_biomass值对应正SHAP值（提升CEC预测），而高H_biomass、O_biomass和T_py对应负SHAP值（降低CEC预测）。C_biomass、N_biomass和Rt_py则显示双向影响，表明其效应受其他变量调节。这一分析从机理层面阐释了生物质灰分通过提供持久离子交换位点正影响CEC，而氧含量和热解温度通过促进官能团热分解负影响CEC。

3.6. 工业应用与局限性

研究指出，在数据有限背景下，AB等集成学习比"数据饥渴"的深度学习更实用。32%的误差率虽不适用于最终产品质量控制，但作为研发阶段"粗筛"工具可显著减少实验成本。主要局限在于数据集范围有限且缺乏独立实验验证，未来需扩大数据集并整合表面形态特征以提升预测精度。

研究结论明确显示，集成学习特别是AB算法在生物炭CEC预测中表现最优，成功平衡了偏差与方差。机理分析证实生物质组成（特别是灰分含量）是CEC主要决定因素，而非热解条件。这一发现对生物炭生产具有直接指导意义：选择高灰分原料比调整热解参数更能有效提升CEC。研究建立的可解释机器学习框架为生物炭性能预测提供了新工具，通过数据驱动方法加速材料研发进程。未来通过扩大数据集和整合更多特征，有望进一步发展成为生物炭定向设计的智能平台。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号