《Separation and Purification Technology》:Machine learning–driven identification of key factors governing hormone adsorption by agrifood waste–derived adsorbents
编辑推荐:
本研究针对水体激素污染问题,开发了一种集成随机森林(RF)、最小二乘提升(LSBoost)和M5模型树的机器学习框架,用于预测农业食品废弃物衍生吸附剂对激素的吸附效率。研究通过贝叶斯优化(EIPS采集函数)和511种输入变量组合的系统评估,发现初始浓度、接触时间、pH和吸附剂-溶液比是关键影响因素。最优模型测试集决定系数(R2)达0.976,为可持续激素去除系统的设计提供了可靠的数据驱动工具。
在当今社会,水体中的激素污染已成为一个隐蔽却严峻的环境挑战。这些内分泌干扰物即使处于痕量水平,也能对水生生物和人类健康造成显著威胁,干扰正常的生理调节功能。传统的去除技术如物理吸附、生物处理和高级氧化过程各有优势,但吸附法因其操作简便和适用范围广而备受关注。特别是利用农业和食品废弃物开发的吸附剂,不仅成本低廉且环境友好,还为大量有机废物的资源化利用提供了新途径。然而,吸附效率受到多种因素复杂相互作用的影响,包括吸附剂性质、溶液条件和操作参数等,传统实验方法难以全面捕捉这些非线性关系。
在这项发表于《Separation and Purification Technology》的研究中,Masud Parvez等人构建了一个全面的机器学习框架,旨在系统识别调控农业食品废弃物衍生吸附剂激素吸附性能的关键变量。研究团队从19项同行评审研究中提取了604个观测数据,涵盖9种激素在14种不同吸附剂上的吸附行为。通过评估三种集成机器学习算法(随机森林、最小二乘提升和M5模型树)在511种变量组合下的表现,并采用贝叶斯优化进行超参数调优,研究发现随机森林结合EIPS(Expected Improvement per Second)采集函数表现最优,测试集纳什-苏特克利夫效率(NSE)达到0.951,归一化均方根误差(NRMSE)低至0.162。
研究采用的关键技术方法包括:从2001-2025年文献系统收集的数据集构建(含9个输入变量);贝叶斯优化超参数调优(比较6种采集函数);随机森林驱动的特征重要性评估(采用Shapley加性解释);以及针对17β-雌二醇(318数据点)和17α-乙炔基雌二醇(106数据点)的亚组分析验证模型普适性。
3.1. 随机森林的最优采集函数
研究比较了六种贝叶斯优化采集函数,发现EIPS在测试集上表现最佳,相关系数(R)达0.9761,且训练-测试性能差距最小,表明其能有效平衡探索与利用,提升模型泛化能力。
3.2. 输入变量组合(1-9个)的影响
通过综合指标(CI)评估发现,模型性能随输入变量数量增加而提升。单变量模型中初始浓度(IC)最具预测力(CI=0.365);当变量增至八个时,最优组合(CI=0.0006)包含吸附剂类型、激素类型、初始浓度、比表面积、接触时间、pH、吸附剂-溶液比和温度,显示多变量协同作用的重要性。
3.3. RF、LSBoost和M5机器学习技术的比较
在所有输入组合中,随机森林均优于LSBoost和M5,尤其在多变量场景下保持稳定的误差指标(如MAE、NRMSE),凸显其处理复杂非线性关系的优势。
3.4. 高精度预测模型中的特征贡献分析
特征重要性分析表明,初始浓度在所有模型中贡献度最高(60-62%),其次是pH(14-18%)、接触时间(4-9%)和激素类型(5-7%)。吸附剂类型和预处理技术虽统计贡献较小,但在实际优化中仍具意义。
3.5. 选择最有效的输入变量以提升预测精度
研究表明,初始浓度、接触时间、pH和激素类型这四个变量构成预测激素吸附效率的最小关键集,分别代表化学负载、动力学、环境条件和分子特性,共同解释了吸附过程的核心机制。
3.6. 单个激素的预测模型性能
针对17β-雌二醇和17α-乙炔基雌二醇的单独分析显示,随机森林模型仍保持高预测精度(R>0.95),且关键变量排序与全数据集一致,证明模型在不同激素间的强泛化能力。
研究结论强调,机器学习框架不仅能准确预测激素吸附效率,还可识别关键影响参数,指导吸附剂设计和工艺优化。通过集成化学、动力学和结构描述符,该研究为可持续水处理系统的开发提供了可解释的数据驱动工具。未来工作可扩展至其他污染物,并结合实际动态参数(如竞争吸附、柱研究突破行为)以提升实际应用价值。