《Environment & Health》:AI-Enabled Mapping of Structure-Hazard Relationships for Emerging Contaminants
编辑推荐:
本综述构建了一个集成文献挖掘、结构分析与毒性预测的AI框架,通过大语言模型(LLM)从9557篇文献中提取21277个化学物提及,经标准化后获得1081个独特候选物。研究采用持久性、生物累积性、迁移性和毒性(PBMT)指标体系整合多源监管清单数据,发现毒性证据丰富但迁移性数据匮乏。结构分析揭示卤化基团与危害正相关、含氧基团与危害负相关的趋势,并基于Tox21/ToxCast数据通过AutoGluon模型对49种清单外化学物进行终点水平预测,77.13%的激活通路集中于蛋白质功能层面。该框架为优先筛查、靶向数据采集及替代化学物设计提供了可审计的决策支持。
引言:化学品的快速扩张与环境健康挑战
化学品的生产和使用在医药、农业、个人护理品等领域迅速扩张,在带来社会经济利益的同时加剧了环境和公共健康压力。传统的"逐一评估"范式在广度和时效性上难以应对已注册化学品的增长及共使用、替代的复杂性。尽管斯德哥尔摩公约等多层次治理取得进展,但监管评估仍滞后于新兴物质和用途,导致证据获取延迟、跨源对齐薄弱及混合物暴露背景量化困难。高通量体外筛选项目如21世纪毒理学(Tox21)和毒性预测器(ToxCast)加速了危害特性和作用模式(MOA)的识别,但化学宇宙的规模和异质性仍超出可用数据的完整性和一致性。由于监管决策最终依赖于文献和公共数据库中的可审计信号,将分散的文本证据转化为PBMT等监管维度上的结构化、可比信息,成为科学评估与监管实践之间的连接组织。
方法学:四阶段证据整合管道
该管道包括四个阶段:LLM驱动的文献提取与分类、同义词标准化与外部数据库协调、监管清单交叉walk与PBMT编码、结构指纹与终点水平毒性预测(AutoML)。文献语料库来自Web of Science核心合集(2009–2024年12月),通过PRISMA式工作流程去重和筛选,最终包含9557条记录。使用Llama-3.2–8B-Instruct模型进行特定有机化学名称、别名和句子位置的提取,并通过基于LoRA的程序进行微调。使用Qwen2.5–14B-Instruct-GPTQ-Int8模型进行使用或来源分类,涵盖八个领域:医药、农业和畜牧化学品、工业化学品、原材料、个人护理产品、生物源代谢物、车辆相关化学品及其他。通过同义词聚类和标准化统一盐类、溶剂化物、连字符变体和常见别名,并针对PubChem、ChemExpo和Wikipedia等外部资源进行优先级协调。规范化后的化学品通过名称与多个权威可疑或危害清单进行交叉引用,每个命中首先映射到危害特征,然后编码到PBMT维度中。使用DeepChem将化学结构表示为SMILES并转化为ECFP指纹,终点标签来自Tox21和ToxCast面板,覆盖核受体和应激反应通路,使用AutoGluon进行表格模型选择和集成,为候选物(包括清单未覆盖的化学品)产生终点水平活性预测。
结果:证据格局与结构-危害关联
数据语料库与提取/对齐质量:从9557条记录中,初始提取器返回21277个原始输出(候选字符串)。手动筛选表明5231个输出未表示离散化学物质(如类别标签、角色或过程描述符),9683个为重复字符串。剩余的6363个字符串(占所有输出的29.9%)构成预标准化候选池。在共享金标准协议下的评估显示,两个微调LLM的F1值与人类注释者相当或略高,同时保持高精度。与常见化学文本挖掘工具(ChemDataExtractor2和SciSpacy)的基准测试表明,任务调优LLM在任务定义和匹配规则下显著优于这些基线。工作量敏感性和故障模式分析表明,随着批次大小增加,手动工作流程的处理时间和变异性急剧上升,伴随更高的遗漏率和注释者分歧,而模型管道保持较温和的时间-工作量关系和较窄的离散度。错误分类为四类:遗漏(目标化学物存在于文本中但未提取)、幻觉(提取的名称在文本中不存在)、误解(非目标物质被标记为目标)和广义术语(类别或家族名称被当作特定分子处理)。模型侧的错误组成为遗漏40.0%(54/135)、误解34.1%(46/135)、广义术语21.5%(29/135)和幻觉4.4%(6/135);人类侧为遗漏68.9%(93/135)、误解20.0%(27/135)、广义术语10.4%(14/135)和幻觉0.7%(1/135)。迭代分析显示错误计数的非单调行为,表明额外的迭代或原始训练量本身不能确保准确性提升,改进主要取决于训练和审查示例的质量和多样性。
使用分类与机制/监管视角概览:管道筛选9552篇文献,提取9602个化学名称。经同义词合并和与公共注册库对齐后,保留1081个独特化学品(每个实体一条记录)。按标准化主要用途或来源,整理后的集合显示面向人类的特征:医药贡献约30.5%(约330/1081),农业和畜牧化学品贡献约18.7%(约201/1081),个人护理产品贡献约17.7%(约191/1081)。其余类别各贡献较小份额。在名称水平上的交叉引用显示清单间高度一致性(总体约94.6%)。美国有毒物质控制法(TSCA)清单覆盖约44.1%(约477/1081),国际癌症研究机构(IARC)注释约16.4%(约177/1081),欧洲化学品管理局(ECHA)列出约1.8%(约19/1081)。相比之下,NORMAN网络标记约1016个实体(约94.0%),其中大部分不在上述三个权威清单中,表明可疑平台捕获了许多尚未正式分类的化学品。通路数据澄清了这些对比:在广泛水平上,麻醉是各清单中最常见的信号,但其幅度各异(TSCA 17.61%,n=84;IARC 24.29%,n=43;NORMAN 13.68%,n=139;ECHA 10.53%,n=2)。这一突出地位与由疏水性和膜分配驱动的基线毒性一致。神经相关家族形成下一层级:乙酰胆碱酯酶(AChE)抑制存在于IARC 5.08%(n=9)、NORMAN 4.92%(n=50)和TSCA 1.89%(n=9);更广泛的神经毒性标签贡献IARC 6.78%(n=12)、NORMAN 4.43%(n=45)和TSCA 1.68%(n=8)。每个清单在通路层包含相当大比例的"无记录"部分(TSCA 74.63%,n=356;NORMAN 74.11%,n=753;IARC 55.93%,n=99;ECHA 89.47%,n=17),反映不完整的注释而非效应缺失。机制细节强化了这些模式:在IARC和TSCA中,大多数麻醉分配属于非极性麻醉(IARC 20.34%,36;TSCA 12.37%,n=59)。在NORMAN子集中,神经活性农药类别尤其显著:有机磷化合物(3.84%,39)、氨基甲酸酯(1.08%,11)和拟除虫菊酯钠通道调节(1.18%,12),钠通道和γ-氨基丁酸(GABA)靶点贡献较小。这些信号与主要农药家族已建立的毒效动力学一致。使用-清单耦合在映射到标准化类别时也具有特色:ECHA以原材料为中心(52.63%,10/19),其次是车辆相关化学品(21.05%,4/19)和个人护理产品(15.79%,3/19)。IARC更均匀,医药(17.51%,n=31)、个人护理产品(15.82%,n=28)、原材料(15.82%,n=28)和农业及畜牧化学品(12.99%,n=23);"其他"贡献25.42%(n=45)。NORMAN集中于医药(30.81%,n=313)、农业及畜牧化学品(19.29%,n=196)和个人护理产品(17.13%,n=174)。在TSCA匹配的化学品中,个人护理产品(27.25%,n=130)和医药(19.92%,n=95)是最大贡献者,农业及畜牧化学品占17.61%(n=84),其次是原材料11.53%(n=55)、其他11.32%(n=54)、生物代谢物7.76%(n=37)和工业化学品4.19%(n=20)。结合通路计数,这些特征将暴露邻近性和使用强度与化学品如何进入可疑清单与权威清单联系起来。
PBMT危害剖析与功能基团/结构耦合:利用17个整理的权威清单(包括五个ECHA子类、四个IARC组和其他权威机构),筛选出的新兴污染物根据PBMT标准进行评估。总体而言,48.8%的物质得到至少一个权威来源的支持,26.8%得到两个或更多独立清单的证实;相比之下,51.2%缺乏任何权威分类,其中45.8%仅出现在NORMAN可疑清单上,5.4%在所有来源中均无记录。这种分层表明,在当前语料库中,监管证据已覆盖约一半候选物,而同样大的部分仍处于正式分类之外。在PBMT可评估子集内,分配在PBMT间不均匀,毒性(T)占主导,迁移性(M)在当前基于清单的PBMT映射下相对稀疏。因此,观察到的M稀疏性应解释为此处使用的可用分类分类的特征,而非关于迁移性本身的定量陈述。在采用的性状-维度编码下,毒性相关分类(CMR/STOT)是最常代表的,并在敏感性分析中检查的替代评分方案中保持主导。在毒性空间内,CMR标记452种物质,STOT标记227种,同时EDC(39)和水生毒性(49)贡献较小。跨标准性状解释该模式:PMT(73)同时加载P和M,POP(44)加载P和B,PBT(35)跨越P、B和T。这些计数(允许重叠)与人类健康终点(CMR/STOT)最常在现有清单中被捕获一致,而以迁移性为重点的证据(PMT/vPvM)在当前监管来源中系统性记录较少。"仅可疑"和"未记录"部分明确了证据薄弱之处:近一半数据集仅出现在NORMAN中——对研究人员可见但尚未反映在权威分类中——而较小的未记录部分既不在监管清单也不在可疑清单上。总之,这些部分标志着进一步评估的前沿:在当前清单和基于危害的PBMT编码的限制内,现有监管信号主要围绕毒性聚集,而迁移性和持久性-迁移性组合在本研究捕获的新兴污染物所考虑的清单中,在可用分类中代表性不足。因此,PBMT发现应解释为危害分类中的模式,而非定量风险排名。
结构分组与使用-功能基团耦合:为提高管理和重设计的实用性,通过整理的SMILES将物质按结构指纹分组,并针对扩展的SMARTS库(芳香环、羰基、酯/醚、胺/酰胺、卤素、支链烷基和选定杂芳烃)进行查询。保留在任何使用中出现>5次的功能基团。跨越8个一般使用类别和18个保留基团,观察到121个非零"使用→功能基团"链接。累积命中包括芳香环373(18.0%)、异丙基316(15.2%)、卤素250(12.0%)和酮227(10.9%)。一个特征性骨架在使用中重复出现——芳香骨架+支链烷基(异丙基/叔丁基)+含氧功能(酮/酯/醚/酚)。热图中出现紧密共现簇(例如酯-醚r=0.995、仲胺-酰胺r=0.982、酮-醚r=0.956、酯-异丙基r=0.950、芳香环-异丙基r=0.932),反映共享的合成路线和配方目标。使用特定的结构-功能需求有助于解释这些簇。个人护理产品配方通常结合香料化学(芳香/酯/醚)、肤感和铺展性(支链烷基)、光稳定性或紫外线过滤(芳香羰基/酚/卤素)以及溶解性或成膜性(醚/酯),丰富了这种"芳香+支链+含氧"模式,并有利于簇内替代。医药通常将芳香或杂芳环与羰基或胺平台配对,并进行靶向卤化以调节结合和ADME,给出最高比例的显著链接(72.2%,p<0.05)。原材料保留卤素手柄和羰基平台用于下游转化(显著比例55.6%)。相比之下,工业和车辆相关化学品覆盖较少基团(分别为11/18和12/18),并显示较低的显著分数(分别为36.4%和25.0%),反映更简单的骨架要求。作为外部参考,还将基序流行度与PBMT背景清单(17个清单;6909个独特化学品;4803个具有RDKit可解析SMILES)进行基准测试,其中基序在两种分支定义下以不可忽略的速率出现。为了将结构与整合的PBMT衍生危害评分联系起来,使用Mann-Whitney U检验比较了具有与不具有每个功能基团的化学品的整合危害评分,以点二列r报告效应大小,并通过Benjamini-Hochberg FDR控制多重检验(n=589;通过CAS和结构匹配)。含氧片段与较低评分相关(例如酮:Δ=?1.012,r=?0.248,q=1.75e-07;羟基:Δ=?1.376,r=?0.214,q=6.49e-07),而卤化与较高评分相关(Δ=0.671,r=0.167,q=2.52e-03)。大多数效应为小到中度(|r|<0.1占64.5%;0.1–0.2占28.9%),具有有意义子集在|r|≥0.2(6.6%)集中于两个轴:芳香+含氧和胺+酰胺。给定这些效应大小以及结构和监管数据的部分覆盖,这些关联应解释为指示性而非因果性。然而,与共现簇一起,它们表明在结构簇水平上的管理和跨簇重设计(例如,在可行的情况下从卤化芳烃转向更多含氧、更极性的基序)可能是危害知情替代的有用起点。
化学毒性风险预测:基于生物测定数据的毒性预测建模:在Tox21和ToxCast中,毒性注释为从剂量-反应曲线拟合(例如AC50)和统计调用衍生的二元活性(活性=1,非活性=0),适用于分类而非精确阈值的回归。数据按70/30分割为训练/测试集,并使用AutoGluon建模。在测试集上,性能为Tox21:准确度=0.9463,ROC-AUC=0.7943,精确度=0.7199;ToxCast:准确度=0.9163,ROC-AUC=0.7421,精确度=0.6903。终点水平基线比较表明,对于大多数终点,在PR空间中 beyond 流行度基线具有非平凡技能,而整体判别力在终点间保持异质性;因此,该预测层用于筛查级优先排序和分诊而非定量风险确定。为提高分诊的概率可解释性,应用了共享Platt校准,校准后的概率在N=1588158个测试预测上显示出良好的聚合校准(ECE=0.0018;MCE=0.0175)。对于外部筛查,评估了49种不在初始清单中的化学品跨越629个终点,产生30821个预测;所有终点预测的2.04%被预测为活性。基于与训练集的最近邻Tanimoto相似性的适用性域筛查显示中位相似性=0.731(均值=0.676),其中25/49(51.0%)域内(≥0.7),16/49(32.7%)边界(0.3–0.7),8/49(16.3%)域外(<0.3)。模型不确定性还通过自举集成在代表性终点子集(56个终点;3332个具有区间的外部预测)上量化,报告95%百分位区间,中位CI宽度=0.0148(均值=0.0180;p90=0.0388;p95=0.0540)和适用性域分层摘要。完整的终点预测矩阵和元数据在支持信息中提供。预测的活性终点通过PCA进一步汇总以推导低维机制景观;前10个PC解释80.07%的方差,并被解释为应激、信号和基因调控轴。
激活通路和毒性效应的机制水平:为解析作用的生物学水平,将预测活性的终点按靶点类型分组。跨越所有预测活性终点,77.13%的激活通路定位于蛋白质功能水平,包括受体、酶和转录因子。更高级别的注释较少见,细胞过程为6.58%,器官和系统过程为2.41%,表型结果为0.65%,化学物理性质为0.16%。总之,该分布表明许多可疑物主要通过受体/酶/转录调控施加风险,干扰神经传递、内分泌信号和代谢稳态,并具有延伸到GPCR介导的信号传导和核心细胞功能的多层扩展。当一种化学品在多个终点显示共激活时,该模式被解释为收敛生物学扰动的筛查信号。这支持后续测试的优先排序,并有助于在后续管理和重设计中连接结构、机制和使用。
讨论:环境治理的AI赋能筛查框架
异质性的新兴污染物证据——文本提及、注册标识符、清单状态、结构特征和生物测定预测——在一个单一、可重现的工作流程中被对齐,该流程从筛查进展到分类、评估和预测。应用任务调优语言模型到9557条记录以提取化学实体和别名;随后的同义词处理和注册库协调将21277个原始字符串减少到1081个独特化学品,每个实体有一个审计记录。与清单的交叉引用使得证据能够在PBMT维度上表达,而基于Tox21/ToxCast训练的终点水平预测层将通路推断扩展到清单中缺失或记录稀疏的化学品。由此产生的管道降低了手动负担,同时保留了来源,从而促进了从分散报告到可操作候选列表的过渡,而无需专用计算基础设施。
观察到的组成和覆盖模式对环境管理具有直接意义。整合后的集合以面向人类的领域为主——医药(~30.5%)、农用化学品(~18.7%)和个人护理产品(~17.7%)——与近场暴露和高应用强度一致。与有毒物质控制法(TSCA)清单的名称水平一致性为~44.1%,与国际癌症研究机构(IARC)为~16.4%,与欧洲化学品管理局(ECHA)为~1.8%,而许多条目仅出现在NORMAN可疑清单上。机制标签以各清单中的麻醉为首,神经相关家族(例如乙酰胆碱酯酶抑制和更广泛的神经毒性)形成次要信号;每个清单中相当大比例缺乏记录机制,这反映了注释空白而非安全性证据。总之,这些分布支持差异化分诊:近场消费者领域需要早期预警面板和以麻醉和神经/应激终点为中心的简化确认性测定;类似于农用化学品使用的可疑池应接受专家审查和基质特异性采样;成熟的原材料流受益于类别级管理,以避免保留基线疏水毒性的类似替代。PBMT为此类跨列表解释、危害沟通和风险知情优先排序提供了一个紧凑、政策相关的视角。
基于结构的模式强化了这些方向。在使用类别中识别出一个重复出现的基序:具有支链烷基取代基和含氧基团的芳香核心。在具有匹配结构和PBMT注释的子集内,卤化与综合危害评分呈正相关,而几种含氧功能显示负相关。鉴于效应大小适中且结构和监管数据的覆盖不完全,这些关联应视为指示性而非因果性。然而,与共现簇一起,它们支持在结构簇水平而非单个物质水平上进行管理。因此,监测面板应将基线疏水性和麻醉筛查与神经毒性测定配对,其中农业应用占主导,并纳入从地表水到饮用水的路径上的迁移性重点测量,以补充该框架未来扩展中迁移性相关属性的证据基础。对于重设计,在性能约束允许的情况下,从卤化芳烃转向更多含氧和更极性的支架,可作为危害知情的替代起点,并通过确认性测试进行个案评估,以避免令人遗憾的替代。
预测层作为文献证据的补充而非独立判断。在Tox21/ToxCast上训练的AutoGluon模型在保持数据上实现了有竞争力的判别力,并为49个未列出的候选物生成了30821个终点预测,其中2.04%的终点被预测为活性。信号集中在蛋白质功能水平(受体、酶、转录因子),这在操作上很有用,因为它优先考虑那些机制在靶点类别间收敛的候选物。将模型评分与证据密度视图相结合,将预测转化为优先排序辅助工具:高分且文献丰富表明需要立即进行靶向测试;高分但文献稀疏突出显示小实验能产生最大信息增益的地方;低分但文献有力可在保留监测的同时降低优先级。这种三角测量与更广泛的经验一致,即机器学习输出在与独立证据流一起解释时最可靠。
几个局限性限制了解释并提示了针对性升级。专家审查仍然是高保真提取和同义词裁决的限速步骤。体外测定面板无法捕获混合物效应、转化产物或暴露动态;单一化合物的阴性预测并不排除复杂基质或生命周期中的风险。标识符异质性(例如多个或类别级CAS RN)可能导致重复或遗漏匹配;维护到DTXSID和InChIKey的版本化映射并记录裁决决策可减少协调漂移。迭代分析显示错误减少的非单调性,表明仅扩展训练是不够的。增益主要取决于示例的质量和多样性,包括覆盖与注册库键相关的别名、跨句引用和缩写的明确边界,以及方法部分中围绕角色术语的否定上下文,以在出现遗漏和误解的地方加以限制。由于手动吞吐量随工作量下降而变异性增加,混合人机回圈设计应将专家时间分配给最可能改变下游决策的实例。
总之,该框架建立了一个实用基线,用于从文献到候选列表和机制锚点的过渡,同时保留