面向水生污染物生态风险预测的可解释多物种QSAR建模研究

《Environment International》:Interpretable multi-species QSAR modeling for ecotoxicological hazard prediction of aquatic pollutants

【字体: 时间:2026年02月04日 来源:Environment International 9.7

编辑推荐:

  本研究针对新兴水生污染物毒性数据匮乏、传统单物种QSSAR模型跨物种泛化能力不足的问题,开发了基于多任务学习的多物种线性QSAR模型(MS_MLR/MS_SR)。该模型通过筛选跨物种共享分子描述符(P_VSA_LogP_5、R8s等),实现了对五种本土水生生物(鲫鱼、草鱼等)急性毒性的协同预测,在保持较高解释性的同时显著拓展了应用域,为数据受限场景下的污染物早期筛查和生态风险评估提供了新工具。

  
随着全球工业化进程加速,每年进入水体的新兴污染物种类急剧增加,对水生生态系统构成复杂毒性效应和区域性生态风险。然而,本土水生生物的毒性数据严重匮乏,制约了有效污染物识别和风险管理。传统单物种定量构效关系(QSAR)模型存在三大局限:跨物种泛化能力弱、样本利用效率低、机制解释性差。而基于机器学习的多任务模型虽能实现跨物种毒性预测,却面临"黑箱"难题和高数据需求的困境。在这一背景下,开发兼顾预测精度、泛化能力和机制可解释性的多物种QSAR模型,成为环境科学与生态毒理学领域的迫切需求。
本研究发表于《Environment International》,研究人员创新性地构建了两种基于多任务学习的可解释线性多物种QSAR模型:多物种多元线性回归模型(MS_MLR)和多物种逐步回归模型(MS_SR)。这些模型以五种代表性本土水生生物(Carassius auratus、Leuciscus idus、Oryzias latipes、Culex quinquefasciatus和Lemna minor)为保护目标,通过整合来自ECOTOX、PAN等数据库的急性毒性数据,建立了涵盖99种化学物的多物种毒性数据集。
关键技术方法包括:1)基于中国生物多样性名录筛选本土水生物种并收集急性毒性数据;2)使用alvaDesc软件计算5305种分子描述符,并通过PLS-VIP方法进行描述符筛选;3)采用贪婪算法策略构建多物种QSAR模型框架;4)通过适用域(APD)分析和内外验证评估模型可靠性。

3.1. 代表性物种和毒性数据

研究选取了具有分类多样性、营养级代表性和区域生态重要性的五种本土水生生物,包括两种鲤科鱼类、一种非鲤科鱼类、一种水生昆虫和一种水生植物。通过系统性分析毒性数据分布特征,发现部分化学物在多个物种中呈现一致的高毒性模式,为多物种建模提供了基础。特别值得注意的是,直接应用欧美模式物种毒性数据指导本地水环境管理易产生系统偏差,如五氯酚风险评估中忽略本土底栖生物敏感性差异曾导致毒性阈值高估40%。

3.2. QSAR模型

3.2.1. IS模型:IS_MLR

成功建立了五种物种的单物种QSAR模型,所有模型的确定系数(R2)均大于0.85,留一法交叉验证系数(Q2LMO)大于0.6,表明模型具有良好的预测能力和稳健性。

3.2.2. IS模型性能分析

模型验证显示大多数数据点集中在拟合线附近,但四环素、链霉素等抗生素类化合物因作用机制特殊而超出应用域,提示训练集需要增加特殊作用机制化合物的多样性。

3.2.3. MS模型:MS_MLR和MS_SR

多物种模型采用统一的描述符集合作为自变量,整合多个物种的毒性终点作为因变量。MS_SR模型在MS_MLR基础上通过逐步回归进一步优化,参数数量从25个减少到14个,在保持核心预测能力的同时增强了模型简洁性。

3.2.4. MS模型性能分析

与单物种模型相比,多物种模型在个别物种(如鲫鱼)的预测性能有所牺牲,但获得了更宽的应用域覆盖。两种多物种模型预测结果高度一致,体现了模型稳定性。

3.3. MS模型的性能权衡与应用优势

多物种建模通过提取种间共享特征,优先考虑描述符的跨物种普适性,以适度的精度损失换取了更强的泛化能力。应用域分析表明,多物种模型对大多数化学物的覆盖范围更广,特别是对于抗生素类化合物,多物种模型显著改善了预测可靠性。

3.4. MS模型中描述符的筛选逻辑与机制分析

3.4.1. MS模型中描述符的筛选与整合策略

多物种建模注重描述符跨物种普适性与模型预测效率的平衡,而非单一物种的贡献度。

3.4.2. 关键结构描述符的跨物种机制解析

鉴定出五个关键共享分子描述符:P_VSA_LogP_5(疏水性分布)、R8s(长程拓扑连接性)、ATS4m(核心原子空间排列)、Eta_betaS_A(分子对称性)和BLTA96(基线毒性潜力)。其中Eta_betaS_A在五个物种中均保持稳定的负相关,表明分子结构不对称性可能增强其与生物靶点的结合效率。

3.5. MS模型在化学物危害评估中的应用验证

3.5.1. MS模型的危害评估与跨物种一致性

基于多物种模型对所有化学物进行系统危害评估,发现化学物在不同物种中的危害排序呈现高度一致性。通过桑基图和三分类毒性排序,识别出在多个物种中普遍高毒的化学物。

3.5.2. 高风险化学物的机制解析与分子描述符分析

两种模型共同识别出六种高风险污染物:TCDD、Benfluralin、Chlorfenvinfos、Chlorpyrifos、Diazinon和Trifluralin。这些化合物涵盖AhR激活、AChE抑制等典型作用模式,其分子描述符特征与文献报道的毒理机制高度吻合。

3.6. 模型优势、局限与应用前景

本研究构建的线性多物种QSAR模型在有限样本条件下实现了跨物种毒性预测,核心优势在于优异的泛化能力和宽应用域,代价仅是单物种预测精度的适度降低。模型特别适合涉及多种生态相关物种、结构多样化化学物的数据受限环境风险评估场景。
研究结论表明,这种可解释的多任务QSAR框架通过识别跨物种共享的分子结构特征,增强了结构共享性和机制理解,为数据有限场景下的早期筛查、优先级排序、生态风险评估和绿色化学设计提供了有力支持。未来通过扩展物种覆盖、增加数据可用性和整合先进的多任务学习策略,有望进一步优化这一框架。该研究不仅为区域化学品风险管理提供了兼具科学价值和实用价值的新工具,也为理解化学物跨物种毒性机制提供了新视角。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号