分层跨尺度机器学习方法:提升金属氧化物材料去除磷的解释能力和预测精度

《Environmental Research》:Hierarchical Cross-scale Machine Learning for Enhanced Interpretation and Prediction of Phosphorus Removal by Metal Oxides Materials

【字体: 时间:2026年01月24日 来源:Environmental Research 7.7

编辑推荐:

  磷污染治理中多尺度因素耦合机制复杂,传统机器学习方法易受宏观特征主导导致解释偏差。本研究提出跨尺度分层机器学习框架,整合磷选择指数(PSI)作为机制感知描述符,融合分子级磷形态与纳米级材料结构信息,显著提升磷去除速率预测精度(R2=0.77 vs 0.69),并通过DFT计算验证PSI与吸附能强相关性(R=0.72)。实验表明该模型在复杂水体基质中仍保持稳定预测性能,为精准设计磷去除材料提供新范式。

  
魏玉辰|徐世云|徐文文|庄观菊|张艳阳|杨志超|单超|张卫明|潘炳才
中国南京大学环境学院,水污染控制与绿色资源回收国家重点实验室,南京210023

摘要

磷污染亟需先进的水处理技术。金属氧化物材料展现出巨大潜力,但面临多尺度因素相互依赖带来的复杂性——这些因素涵盖了分子形态、材料纳米结构以及操作条件。传统的机器学习(ML)方法可能存在可解释性偏差,即宏观特征在预测中占据主导地位,掩盖了关键的纳米/分子尺度机制。为克服这一限制,我们引入了一个跨尺度层次化ML框架,该框架整合了一个具有机制意识的描述符——磷选择性指数(PSI),以明确地将分子/纳米尺度信息与操作尺度动力学联系起来。PSI定量地捕捉了磷物种与金属氧化物活性位点之间的结构-反应性关系,并与密度泛函理论(DFT)吸附能量相关(皮尔逊相关系数R=0.72)。嵌入PSI纠正了我们基本多尺度模型中的解释偏差,并提高了磷去除动力学的预测精度(log(k))。跨尺度层次模型(CSO模型)显著优于基本多尺度模型(MSO),在测试集上的准确率更高(R2=0.77对比0.69),突显了孔隙纳米结构、磷官能团和量子描述符(如E_gap)的机制相关性。在对具有挑战性的膦酸酯/有机磷酸酯的独立验证中,CSO模型的预测误差低于MSO模型。这项工作建立了一个有前景的跨尺度层次化和机制意识的ML框架,用于磷去除材料的预测设计及准确速率预测,推动了从微观洞察到水处理功能材料工程实践的转化。

引言

磷是人类生命的重要营养素,但由于农业、工业和生活源的过量排放,它已成为全球水环境的威胁(Arnaldos和Pagilla,2010;Gu等人,2011;Jia等人,2023)。为了减轻这些影响,已制定了严格的监管限制(例如,许多地区总磷含量不得超过0.1毫克/升),这需要先进的治疗技术(Jin等人,2024;Worsfold等人,2016)。除了生物处理方法外,基于金属的环境功能材料(如Mg、Al、Fe、Ca、Zr和La)因其在磷固定方面的优越性而受到广泛关注(Du等人,2022;Jin等人,2024;Koh等人,2022;Mayer等人,2013;Razanajatovo等人,2021)。我们在一个市政污水处理厂进行的现场试点测试(处理量50吨/天)证明了三种基于金属的纳米复合材料(HZO-201(基于Zr)、HFO-201(基于Fe)和La-201(基于La)在降低总磷含量方面的有效性,平均从0.24毫克/升降至0.02毫克/升(Xu等人,2025)。
磷处理的复杂性源于其多样的形态。虽然正磷酸盐(P–O键)是生物可利用的主要形式(Gu等人,2011),但有机磷(OP)(Xu等人,2020),包括持久性膦酸酯(C–P)(Nowack,2003)和有机磷酸酯(C–O–P)(Pantelaki和Voutsa,2019),对水生生物多样性和水安全构成了不同的风险(Gu等人,2011;Liu等人,2021b;Pantelaki和Voutsa,2019;Su等人,2016;Xu等人,2020)。基于金属的材料对这些物质的去除机制也表现出形态依赖的复杂性:磷酸盐的去除主要通过内球协调作用实现(Du等人,2022;Razanajatovo等人,2021;Wu等人,2020),而有机磷的去除则涉及配体交换、静电作用、疏水相互作用和水解等复杂过程(Ai等人,2024;Altaf等人,2023;Xu等人,2020;Yang等人,2022)。
先进的水处理系统现在面临着去除磷酸盐负荷和新兴有机磷污染物(如阻燃剂、农药残留)的双重挑战,这需要从试错式的材料改进水处理转向精确设计的解决方案,以适应实际的水质条件和动态处理环境(多种磷物种和pH值波动)。因此,设计具有成本效益的功能材料需要同时优化三个相互依赖的领域:材料性质、磷形态和操作参数(Wu等人,2023;Zhou等人,2024)。传统经验方法无法实现这一目标。因此,机器学习(ML)作为一种不可或缺的工具应运而生,用于分析高维数据集——加速材料筛选、预测去除效率并阐明主导机制(Wang等人,2023;Yang等人,2024;Zhong等人,2021;Zhu等人,2023)。ML已在污染物降解、催化剂发现和膜材料优化方面取得成功,表明其在推动环境功能材料发展方面的巨大潜力。然而,其在磷去除材料中的应用仍需进一步探索(Merchant等人,2023;Zhong等人,2021)。
在磷去除过程中,多尺度特征空间包括宏观尺度(水处理操作参数,如水质、pH值、污染物初始浓度(Wang等人,2023;Yuan等人,2024b;Zhou等人,2024))、纳米尺度(环境功能材料的性质,如孔结构、掺杂金属的元素组成(Li等人,2023;Umar等人,2024;Wang等人,2024b;Wang等人,2024c;Yuan等人,2024a;Yuan等人,2024b)和分子尺度(磷的功能团和分子性质(Bi等人,2025;Li等人,2023;Wang等人,2024b;Yang等人,2024))。这些异质特征在分子、界面和系统层面表现出协同依赖性。然而,传统的直接多尺度特征整合方法往往存在可解释性偏差。在这种情况下,宏观特征在预测中占据主导地位,掩盖了关键的结构-性质关系。因此,现有的ML模型往往无法以原理性的方式将微观描述符转化为磷去除率预测,从而严重阻碍了可解释和通用模型的开发,这是实现可持续水处理技术的核心挑战。
有效的ML实施关键依赖于特征工程。将数据驱动的特征与领域知识相结合通常有助于模型更好地学习和解释过程。例如,Wang等人将机制知识整合到关键描述符中,以描述溶质传输和静电相互作用(Wang等人,2024a);Wang等人提出了一个端到端的生物炭催化过氧单硫酸盐高级氧化优化模式,将污染物性质纳入材料设计(Wang等人,2024b)。尽管这些方法提高了模型的可预测性,但ML支持的材料研究的性能仍受限于复杂的小尺度数据矩阵,尤其是数据/特征比率小于20的情况,这受到数据集大小的限制。不同的可解释性会影响训练集之外的数据预测准确性。在语言处理研究中,Aili等人发现,短语和单词等小语言单元由大脑的不同部分处理,而像主题这样的大单元则由其他部分处理。形成了一种语言层次结构来帮助理解对话(Aili等人,2025)。
受此启发,我们引入了一个层次化ML框架,结合了跨尺度和知识驱动的特征来解决当前的限制。通过构建一个跨尺度描述符——磷选择性指数,我们将分子和纳米尺度特征整合起来,以表示跨尺度相互作用,并通过DFT计算进行验证,DFT被广泛用于揭示微观尺度上的电子相互作用(Chen等人,2025)。这种方法有望减轻磷去除率(log(k))预测中的解释偏差,同时实现严格的结构-性质关系分析。最后,跨尺度模型的有效性也通过实验验证得到了证实。这项工作提出了一个新颖的层次化和机制意识的ML框架,用于水处理中环境材料的开发,为解决多尺度特征不平衡问题提供了概念验证,同时扩展了复杂环境修复问题的数据驱动策略。

小数据集的数据收集和预处理

使用Web of Science和多个关键词(包括磷去除、含金属吸附剂、水处理、有机磷酸酯、膦酸酯和无机磷)进行了全面的文献调查,收集了133篇2024年之前发表的同行评审研究的数据,编制了磷去除数据集。数据整理首先通过手动数据收集完成。

基线多尺度预测和可解释性

最初直接应用多尺度特征构建模型来预测log(k)。数据集包括水处理操作参数(如pH值和初始磷浓度(C0,毫克/升)、材料特性(如比表面积(SA,平方米/克)、总孔体积(TPV,立方厘米/克)、平均孔径(APS,纳米)、负载金属(金属类型包括La、Fe、Ca、Mg、Zr、Al)以及相关物种的磷酸盐络合形成常数(pKsp)等。

结论

目前的ML辅助环境功能材料研究分为两个独立的范式:科学领域的AI和工程领域的AI(Gupta等人,2021;Zhong等人,2021)。科学领域的AI通常基于理想条件下的微观机制洞察进行材料性质预测,与复杂的实际水处理条件相关性不足(Xiao等人,2023;Zhu等人,2024)。而工程领域的AI则旨在优化工艺参数

CRediT作者贡献声明

魏玉辰:撰写——审稿与编辑、撰写——初稿、可视化、验证、调查、正式分析、数据整理。徐世云:验证、调查、正式分析、数据整理。徐文文:验证、调查、数据整理。庄观菊:验证、调查、数据整理。张艳阳:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、资源管理、项目管理、方法论、调查、资金支持

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

作者衷心感谢国家重点研发计划(项目编号2022YFA1205600)、国家自然科学基金(52270157/22236003/22222603/52070096)和中央高校基本科研业务费(021114380230)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号