一种基于QSAR(定量结构-活性关系)与机器学习的混合模型,用于预测土壤有机化合物的生态毒性并确定相关阈值

《Journal of Cleaner Production》:A QSAR-machine learning hybrid model for predicting the ecotoxicity of soil organic compounds and deriving thresholds

【字体: 时间:2026年02月28日 来源:Journal of Cleaner Production 10

编辑推荐:

  土壤有机污染威胁生态系统完整性,本研究构建ML-QSAR模型整合2108个毒性数据,利用DFT计算分子 descriptors,发现随机森林算法表现最优(训练集R2=0.968,测试集0.824),熵、偶极矩和土壤湿度为核心驱动因素,并揭示土壤黏含量与22个参数的交互作用。生态安全阈值(PNEC)显示二硝基甲苯风险最高(5.498 mg/kg)。该框架突破传统QSAR线性局限,为污染物风险筛查提供高效工具。

  
刘媛|傅瑞玉|薛颖|李梦佳|王学东
首都师范大学资源环境与旅游学院,北京,100048,中国

摘要

土壤有机污染威胁着生态系统的完整性。传统的生态毒性评估面临数据稀缺的问题,并且受到线性模型的限制。本研究开发了一种基于机器学习的定量结构-活性关系(ML-QSAR)模型,该模型整合了2108个毒性数据点(77种物种,305种化合物),并纳入了来自密度泛函理论(DFT)的分子描述符。生态阈值是通过物种敏感性分布(SSD)得出的。结果表明,随机森林(RF)算法的性能优于XGBoost和CatBoost,其训练/测试R2值分别为0.968和0.824。外部验证显示,95.9%的预测误差在1.5倍误差范围内。全局特征分析确定熵、偶极矩(μ)和土壤湿度为核心驱动因素。熵通过744.5 J/(mol·K的阈值效应调节毒性,在低熵范围内毒性增加了2.3倍。偶极矩(μ)与土壤湿度之间存在显著交互作用。当μ为4.4 Debye且土壤湿度大于31.7%时,毒性增加了2.3倍。毒性还受到土壤淤泥含量和22个参数的交互作用的影响。基于模型预测构建的SSD曲线的拟合优度值超过0.91。二硝基甲苯的生态安全阈值(PNEC)为5.498 mg/kg,远低于蒽油、六溴环十二烷和全氟辛酸的阈值,因此被认为是风险最高的污染物。这一框架克服了传统QSAR模型的线性限制,为土壤污染物风险筛查提供了高通量工具。

引言

全球化学工业的迅速扩张导致每年合成有机化合物的产量超过5亿吨,其中约12%通过工业废物排放、农业非点源污染和城市化过程进入土壤系统(Hou等人,2024;Bayabil等人,2022)。现有研究表明,超过80%的全球农业土壤受到持久性有机污染物(POPs)的污染,包括多环芳烃(PAHs)和全氟化合物(PFCs)(Das和Pandey,2025)。据报道,某些地区土壤中类二噁英化合物的浓度超过了安全阈值的3到8倍(Jiang等人,2024)。这些污染物在土壤-植物-动物食物链中累积,导致土壤酶活性降低、微生物多样性减少(Margenat等人,2019;Mostafalou和Abdollahi,2017),并通过水稻和蔬菜等主食作物的积累增加了人类暴露风险(Wu等人,2024)。例如,在中国长江三角洲的典型农田土壤中,所有样本中都检测到了PAHs,总平均浓度为772 ± 895 ng/g,几乎是国家监管限值的两倍(Sun等人,2018)。总体而言,这些数据表明有机污染已成为土壤生态完整性和农业生态系统可持续性的主要限制因素。
生态风险评估为污染控制提供了科学依据,物种敏感性分布(SSD)模型常用于确定生态保护的安全阈值。先前的研究表明,基于SSD建立的土壤生态风险安全阈值可以显著提高生态保护的效率(Wang等人,2024,Wang等人,2024,Wang等人,2024)。然而,传统的生态毒性评估依赖于实验室生物测定,获取单一化合物的完整生命周期毒性数据需要大量的时间和资金投入(Schiffer和Liber,2017)。更严重的是,尽管已知存在数十万种有机污染物,但其中不到1%的暴露数据可用于全面的回顾性风险评估。这一显著的数据缺口导致许多新兴污染物被排除在风险评估框架之外(Muir等人,2023;Wang等人,2020)。一个突出的例子是全氟和多氟烷基物质(PFAS),这是一类普遍存在的持久性有机污染物,其中不到1%的化合物经过了急性或慢性毒性测试,严重限制了风险管理的科学依据(Kwiatkowski等人,2020)。
定量结构-活性关系(QSAR)模型的出现为解决生态毒性数据的稀缺问题提供了一种成本效益高的方法(Gozalbes和Vicente de Julián-Ortiz,2018)。自Hansch及其同事在20世纪60年代开展线性自由能关系(LFER)的研究以来,QSAR技术已经从使用二维(2D)拓扑参数发展到结合三维(3D)量子化学描述符(Hansch,1969;Xu等人,2025)。为了进一步提高预测准确性并将这些模型扩展到更复杂的污染物,整合多种描述符类型对于更准确地表征分子结构至关重要(Xiao等人,2023)。密度泛函理论(DFT)的应用显著提高了分子结构表征的准确性。通过计算最高占据分子轨道(HOMO)能量和偶极矩(μ)等参数,可以显著降低毒性预测的误差(Császár等人,2012)。例如,Chattaraj等人基于DFT开发了Fukui函数模型,首次从电子云分布的角度揭示了污染物与生物分子之间的相互作用机制(Chattaraj等人,1995)。然而,传统的QSAR模型主要依赖于多元线性回归(MLR),在处理分子结构、环境因素和生物响应之间的复杂非线性关系时存在困难。因此,当应用于多种物种和多种暴露情景时,这些模型的预测性能往往会下降(Liang等人,2024)。
机器学习(ML)的出现为解决传统建模方法的固有局限性提供了有希望的途径(Zhang等人,2025)。与线性模型相比,随机森林(RF)和深度学习等ML算法能够捕捉特征之间的高阶交互作用,这已被证明可以提高预测准确性(R2值),尤其是在包含超过100个描述符的高维数据集中(Conoscenti和Sheshukov,2023)。例如,Zhou等人利用分类梯度提升(CatBoost)算法开发了一种纳米材料毒性模型,将测试集的R2值从传统QSAR模型的0.65提高到了0.89(Zhou等人,2023)。此外,ML模型的一个显著优势在于它们能够通过特征重要性分析(如Gini指数、SHAP值)等技术识别出传统方法忽略的关键预测特征。例如,Xiao等人确定分子熵与土壤湿度之间的相互作用解释了27%的毒性差异,从而为机制毒理学提供了新的见解(Xiao等人,2023)。然而,当前的ML-QSAR研究仍面临以下限制:首先,环境因素(如土壤质地、pH值)与分子描述符之间的交互机制尚未完全阐明。其次,定义适用范围(AD)的标准化不足导致某些情况下预测结果具有较高的不确定性(Zhong等人,2022)。第三,从跨物种毒性数据中得出的结论仍然严重依赖于经验假设,往往未能考虑物种之间代谢途径的根本差异(Fu等人,2025)。
本研究建立了一个结合机器学习的QSAR框架(ML-QSAR),并整合了DFT来计算有机描述符,从而实现了多尺度生态毒性数据的非线性建模。该模型整合了2108个毒性数据点,涵盖77种物种和305种有机化合物。关键的方法创新包括三个组成部分:(1)构建了一个3D特征矩阵,整合了分子构象(DFT参数)、环境条件(土壤淤泥含量、湿度)和生物特征(物种分类)。(2)建立了一个双驱动的“预测-解释”模型系统,使用RF算法确保预测准确性,并结合部分依赖图(PDP)揭示特征交互机制。(3)基于模型预测构建了一个高精度的SSD,以确定保护95%物种的生态安全阈值(PNEC)。从理论上讲,这一框架通过量化跨物种敏感性的电子尺度驱动因素,推动了机制QSAR的发展。在操作层面,它提供了一个高通量筛查工具,缩短了毒性数据生成周期,并加强了基于证据的管理新兴土壤污染物的能力。

数据收集和标准化处理

为了系统地开发有机化合物的生态毒性预测模型,本研究通过查询核心学术数据库汇编了土壤有机污染物的生物毒性效应数据,包括Web of Science、中国国家知识基础设施(https://www.cnki.net)和欧盟REACH注册物质数据库(https://echa.europa.eu/information-on-chemicals/registered-substances)。数据筛选严格遵循了以下国际标准

数据集特征和分布分析

本研究建立的综合性有机化合物生物毒性数据库系统地整合了2108条跨物种毒理学记录,涵盖305种有机化合物和77种物种。化学空间包括10个主要类别,如芳香烃、羰基化合物和卤代烃等(图1A)。毒性终点分析显示,数据最多的为NOEC(1082条记录,涵盖297种化合物和55种物种)

结论

本研究通过整合密度泛函理论和机器学习算法,建立了一个混合计算模型(ML-QSAR),用于预测多种尺度下的有机化合物的生态毒性。该模型系统地揭示了分子描述符、环境变量和生物变量之间的非线性关系。在评估的算法中,随机森林算法表现出最佳的预测性能。分析确定了熵、μ和土壤

CRediT作者贡献声明

刘媛:撰写 – 审稿与编辑,撰写 – 原始草稿,验证,调查,正式分析。傅瑞玉:调查,正式分析。薛颖:撰写 – 审稿与编辑,方法论,正式分析,概念化。李梦佳:调查,正式分析。王学东:撰写 – 审稿与编辑,撰写 – 原始草稿,项目管理,方法论,资金获取,正式分析,概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本研究得到了国家自然科学基金(42477433)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号