《Environmental Science & Technology》:Can Benchmarking Increase the Accuracy of Predicting Biodegradation Rates across Aquatic Ecosystems?
编辑推荐:
本文综述探讨了利用化学基准化方法描述和预测有机物在水生生态系统中生物降解速率时空变异性的潜力。研究者利用修正的OECD 309测试指南,在欧澳多地采集了97种化学品的1656个kpH7(经pH校正的一级降解速率常数,d–1)数据。研究发现,通用基准法(UBM)未能有效降低变异,而基于数据优化的分组基准法(GBM)能显著提升预测准确性。然而,使用分子指纹(MACCS)或初始生物转化规则等先验知识进行分组的GBM,对多数化学品效果不佳。文章指出,当前对控制化学品生物降解性的关键化学特征理解尚不充分,但优化的分组基准法在降低生物降解速率时空变异性、提高持久性与暴露评估稳健性方面展现出潜力。
引言
描述和处理生物降解速率常数在时间和空间上的巨大变异性,是进行稳健的持久性与暴露评估的要求。化学基准化使用一种特征明确的参考化学品,其方式类似于分析化学中的内标;其测得的生物降解速率常数捕获了环境特异性信息,用于预测其他化学品速率常数的变异性。本研究汇编了在欧洲和澳大利亚水生生态系统中,使用相同的修正OECD 309测试协议测量的97种化学品的1656个生物降解速率常数。评估了两种基准化方法在降低数据时空变异性方面的能力:(i)将所有化学品归一化到单一基准化学品(通用基准化,UBM);(ii)将化学品分组,并将每组内的化学品归一化到从该组中选择的基准化学品(分组基准化,GBM)。当使用数据优化化学分组时,通用基准化未能降低测量的变异性,而分组基准化则能实现。然而,当基于分子指纹MACCS(分子访问系统)或初始生物转化规则预测化学分组时,对于大多数化学品,其变异性并未降低。分组基准化在能够进行适当化学分组的情况下,有希望作为预测生物降解速率常数时空变异性的工具,但当前对与生物降解性相关的关键化学特征的理解尚不足以可靠地进行先验分组。
材料与方法
生物降解速率常数数据集
生物降解速率常数(k, d–1)的实验数据收集自先前对欧洲(31个生态系统)和澳大利亚(7个生态系统)共38个不同水生生态系统的研究。实验通过设置非生物对照来区分生物降解与其他降解过程。对指南的修正包括:(i)仅使用初始衰减数据计算速率常数;(ii)在孵育中添加表层沉积物(50 g L–1);(iii)以低浓度(1 μg L–1)添加测试化学品以减少对微生物群落的影响;(iv)同时添加多种化学品,因为已证实这不影响测试结果。为减少已知和可量化因素(即吸附和pH依赖的形态分布)对表观k值的影响,k通过归一化到化学品在溶解态的比例来进行校正。本研究仅将有效的k值(即与零有显著差异)纳入分析,并使用四分位距法识别并移除了异常值。由于研究的是空间变异性,仅进一步考虑在至少一半生态系统中具有k值的化学品。最终测试数据集包含62种化学品的1663个k值。还使用了第二个数据集,其中k额外进行了pH差异校正(kpH7, d–1),将表观k值校正到参考pH 7,最终得到62种化学品的1656个kpH7值。
基准化
化学基准化的基本假设,即目标化学品性质与基准化学品性质之比在时空上恒定,由公式(1)表达。通过评估应用基准化是否减少了数据集中的观测变异性,来评价其预测生物降解速率常数时空变异性的效用。效果的量度是进行基准化前后每个化学品log?k标准差的减少量(REM,公式2)。测试了两种基准化方法:1. 使用一个潜在的基准化学品对所有化学品的速率常数进行基准化(通用基准化,UBM);2. 将化学品分组并为每组确定不同的基准化学品(分组基准化,GBM)。每种化学品都作为基准对其他化学品进行测试,选择能提供最大中位数REM的化学品作为最佳基准。为提供背景,还纳入了对总有机碳(TOC)的归一化作为描述空间变化的替代方法。
分组基准化(GBM)的化学分组方法
为了使GBM成为一种有用的预测工具,需要能够预测目标化学品属于哪一组。为指导GBM的分组,本研究进行了凝聚层次聚类,根据化学品在生物降解性相关特征/描述符上的相似性进行分组。采用了两种分组方法:(1)数据依赖性:根据化学品log?k值之间的相关性强度(皮尔逊相关系数)进行分组,生成优化GBM的案例。(2)数据独立性:基于化学结构的相似性进行分组。测试了三种化学结构描述符:MACCS分子指纹、预测的初始生物转化反应规则(btrules)、以及每条规则的预测概率(btrules_prob)。通过比较基于MACCS、btrules、btrules_prob的GBM结果与优化GBM的结果,探讨先验的、数据独立的方法是否能提供与优化GBM相当的结果。
结果与讨论
生物降解速率的描述性统计
k和kpH7的值均在0.001至29.1 d–1之间变化。所有化学品的log?k和log?kpH7在38个生态系统间均存在显著差异,标准差(stddev)范围分别为0.18至0.82和0.18至0.91。log?k和log?kpH7在生态系统间的中位数stddev相似,均为约0.4,相当于2.5倍的差异。三次测试处理重复间log?k的stddev中位数为0.10,约为生态系统间log?k中位数stddev的1/4,表明观测到的时空变异性受测量误差的影响不大。
通用基准化(UBM)
为评估UBM,每种化学品都作为基准对其他化学品进行了测试。仅有两种候选通用基准化学品(DIU(敌草隆)和FFA(氟噻草胺))能降低超过50%测试化学品的log?kpH7的stddev。然而,即使这两种化学品是最好的通用基准,它们对降低变异性的作用也微乎其微。将DIU和FFA作为基准时的中位数REM均约为0.0004。相比之下,TOC归一化反而使生态系统间log?kpH7的stddev中位数增加了0.21。UBM和TOC归一化在降低单个化学品生物降解速率常数变异性方面的有限能力表明,不能假设微生物群落在不同系统中的功能是等效的。微生物群落降解不同化学品的相对能力在空间和时间上存在差异。
优化的分组基准化(GBM)
基于皮尔逊相关系数的层次聚类产生了八个化学品簇。与UBM相比,优化的GBM在降低时空变异性方面有效得多。当使用每组中表现最佳的基准时,87%的化学品(基准化学品除外)的stddev得以降低。每组内的中位数REM范围在0.01到0.13之间。将化学品进一步细分为更多组(16组)在一定程度上增加了中位数REM,但过多的分组会增加寻找决定簇归属的共同规则(如化学结构或初始转化规则)的难度。
数据独立的GBM
为了探讨数据独立的GBM能否达到优化GBM的效果,使用了三种化学描述符对化学品进行分组。这三种方法产生的组别与优化GBM得到的组别均不相似,这表明基于不同化学描述符/特征找到一致的化学分组并非易事。仅有三类化学品在数据依赖和数据独立方法下都能被一致地分组:丙醇胺类、苯脲类和磺胺类。当基于MACCS、btrules和btrules_prob将化学品分成更多簇时,这三类中的大多数化学品仍然聚集在一起。然而,对于研究中其他大多数化学品,仅仅基于化学结构或初始生物转化规则进行分组并不能提高在时空上预测生物降解的准确性。所有三种数据独立的GBM方法在降低数据集时空变异性方面都表现不佳,其中位数REM约为0.005,远低于优化GBM的0.046。这三种方法仅能降低约50%化学品的变异性。但对于那三类总能紧密聚类的化学品,所有方法在降低变异性方面都比最佳UBM有所改进。总体而言,基于化学描述符的GBM结果表明,需要对控制生物降解的关键化学特征有更好的理解,才能使GBM成为描述生物降解时空变异性的可行工具。
启示与展望
本研究使用包含1663个k值和1656个kpH7值的数据集,测试了不同基准化方法在预测水生生态系统生物降解速率常数时空变异性方面的效果。研究发现,通用代理(TOC或单一化学基准)无法预测时空变异性。在表现出生物降解速率常数强时空相关性的化学组内进行基准化(优化GBM)提高了预测变异性的效果。获得优化GBM的化学分组无法通过根据MACCS或预测的初始生物转化规则对化学品进行分组来复现,除了三类特定的化学品(丙醇胺类、苯脲类和磺胺类)。这表明,观测到的生物降解动力学是化学结构与微生物群落功能复杂相互作用的结果,本研究测试的三种化学相似性指标无法充分捕捉这种相互作用。目前,尚未找到能够先验识别时空生物降解性相似的组的描述符。优化GBM是一种有潜力的预测变异性的方法。然而,需要在不同地点测量大量化学品的生物降解速率这一要求,限制了该方法在已具备此类数据的化学品上的应用,而这将大多数水生生态系统中的污染物和新化学品排除在外。未来的研究,扩大跨多样环境系统和化学类别的数据集,将有助于完善化学分组和基准选择标准。
除了预测环境生物降解的时空变异性,本研究也有助于解释这种变异性。通过在修正了已知且可量化的因素(即吸附和pH依赖的形态分布)后应用基准化,剩余的变异性在很大程度上反映了微生物群落组成和功能的差异,这是多种环境因素共同作用的结果。UBM有效地检验了“所有微生物群落在化学品生物降解方面具有大致相同的功能组合”这一假说。其有限的表现反驳了这一假说,至少在不同的水生系统中是如此。GBM检验了“微生物群落间生物降解功能的组合存在差异,但特定功能可适用于多种化学品”这一假说。某些化学品组内更一致的生物降解性以及优化GBM相较于UBM的改进表现支持了这一假说。在这方面,我们的结果与近期研究一致,即相似系统中的微生物群落在组成和生物降解潜力上会随时间地点而变化,且生物降解潜力的变异性在几个结构相似的化学组内表现出相似的模式。我们的研究表明,不同系统间微生物群落的这种功能差异可能影响大量化学品的生物降解速率。与此同时,我们三种数据独立分组策略的失败表明,需要进一步的工作来确定解释有机微污染物生物降解分组的因素。
基准化的效果可能受数据质量影响。在我们的数据集中,时空变异性(以log速率常数的stddev表示)平均比测量不确定度大4倍。这表明测量不确定度对我们数据集时空变异性的影响较小。然而,速率常数数据集中的缺失值(间隙)也会影响基准化的效果。大多数间隙是由于移除了无效数据(即速率常数与零无显著差异)造成的。排除数据意味着排除了关于特定地点对特定化学品或化学组的生物降解能力的信息,这可能影响时空变异性的评估和基准化的效果。减少这种不确定度来源,例如通过改进实验方法以减少无效数据数量,或开发更好的间隙填补算法,可能改善评估。
本研究是探索使用基准化预测环境中生物降解速率时空变异性的开端。本研究覆盖的化学空间仍然有限(数十种化学品仅是冰山一角),这意味着此处确定的基准化学品不能被视为适用于所有化学类别和所有环境系统。尽管如此,当前研究证明了GBM在预测化学品跨生态系统生物降解速率常数方面的潜力。这为未来进一步探索基准化策略和开发可应用于更广泛化学空间的预测工具提供了经验基础。随着更多高质量数据的出现,以及我们对调控生物降解的化学结构特征和环境属性的理解不断深入,可以期待获得更多见解。长远来看,我们希望更好地理解导致时空变异性的因素,将有助于估算出足以用于持久性和暴露评估的生物降解速率常数。