持久性、移动性和毒性(PMT)物质是近年来全球日益关注的典型新兴污染物(Zhang等人,2023;Santana-Viera等人,2025)。欧洲化学品管理局(ECHA)逐步修订了欧盟的REACH法规(关于化学品注册、评估、授权和限制的法规1907/2006),将PMT物质指定为高度关注物质(SVHC),以加强对其管理和控制(Hale等人,2020a;Rüdel等人,2020)。REACH下PMT识别标准的发展(Neumann和Schliebner,2019)、对物质和混合物的改进分类、标签和包装(CLP)(欧盟委员会,2023),以及对北美饮用水中持久性和移动性的全氟和多氟烷基物质(PFAS)的针对性控制(Zhang等人,2023),都突显了加强对PMT化学品管理的必要性。
持久性、移动性和毒性表明了一种物质是否抵抗自然生物降解过程,是否倾向于从土壤和沉积物迁移到水中,以及即使在低化学活性水平下是否会对细胞或生物体产生有害影响(Hale等人,2020b;Hale等人,2022)。PMT物质可能在半封闭或封闭的饮用水系统中积累,也可能在原始水环境中积累,一旦释放到环境中,它们会对饮用水构成重大威胁(Arp等人,2017;Jin等人,2020)。许多PMT物质能够通过传统的污水处理厂处理过程,使得它们的去除变得困难(van der Hoek等人,2014;Wu等人,2020;Wu等人,2023)。如果污水处理厂无法有效去除这些新兴污染物,其中一些污染物可能会排放到各种接收水体中,包括地表水、地下水和海水,从而增加水环境暴露的风险(Feng等人,2022;Hale等人,2022)。
联合国提出的可持续发展目标6.3旨在到2030年减少有害物质和材料的排放,将未经处理的废水比例减半,并大幅增加全球废物的回收和安全再利用(Zhang等人,2016;Han等人,2023)。在保护水生生态系统的监管框架发展过程中,筛查PMT物质已成为一个关键和基础性的优先事项。即使是微量的PMT物质也可能对水生生物造成不可逆的损害(Li等人,2024a)。在PMT物质广泛释放到环境中之前识别它们,可以及时实施有效的风险管理策略,并采用更安全的化学替代品(Huang等人,2021;Arp和Hale,2023),从而帮助防止水环境的污染。
筛查具有潜在不良影响的新兴污染物对于其风险评估和控制至关重要,这有助于减轻对人类健康和环境的风险(Zhao等人,2025)。目前,缺乏PMT物质的监测数据。传统的监测方法和毒理学测试耗时且成本高昂,这突显了迫切需要高效且经济可行的PMT物质筛查方法(Zhao等人,2024)。最近,机器学习和人工智能在污染物识别和风险评估中的应用迅速扩展(Zhu等人,2023;Zhong等人,2024),因为它们可以提供一种更具成本效益的PMT物质筛查方法。
物质的性质与其分子结构密切相关(Eraqi等人,2025)。可以使用分子描述符、分子指纹和分子图有效地表征分子结构(Han等人,2023)。先前的研究假设PMT物质具有相似的分子描述符和指纹,因此传统的机器学习模型,如随机森林(RF)、支持向量机(SVM)和梯度提升(GB),已被用于筛查PMT物质。关于模型的可解释性,使用了Shapley加性解释(SHAP)或基于分子描述符的因果模型来解释这些模型的预测机制(Zhao等人,2022;Wang等人,2024b)。原子和键特征是分子图的有效表示。许多研究应用了基于神经网络架构的深度学习模型,如图注意力网络(GAT)、图卷积网络等,来预测新兴污染物的性质(Wang等人,2022;Wang等人,2024a;Xiao等人,2024;Chen等人,2025)。GCN可以通过图结构模拟原子或官能团之间的非线性关系(Yue等人,2025),从而有效捕捉这些成分如何影响水环境中新兴污染物的持久性、移动性和毒性。基于这些模型,开发了一些改进的方法,如结合分子描述符的GCN模型(Zhao等人,2024)和基于迁移学习的PBMT预测模型(Wang等人,2024a),以提高预测性能。为了提高可解释性,深度学习模型通常会可视化注意力权重或应用遮挡敏感性方法来说明单个原子或官能团对分子性质的影响(Wang等人,2024a;Zhao等人,2024)。同时,解决复杂问题可能需要多种数据类型,在这种情况下,多模态模型起着关键作用。Mulaqua模型是一个可解释的多模态深度学习框架,它整合了分子结构和图像模态来识别饮用水中的PMT/vPvM物质(Nguyen等人,2025)。
大多数现有研究要么将PMT筛查分为三个独立的任务,要么将其视为单一任务问题。前者可能效率低下,因为它分别学习任务而忽略了性质之间的相关性。不同化学物质的性质可能是相互关联的。先前的研究表明,生物累积性和移动性既不一定是矛盾的,也不一定相关,某些物质同时表现出移动性和生物累积性(Wang等人,2024a)。现有研究还证实,许多化学物质同时具有持久性、移动性和毒性,例如布洛芬(Han等人,2024)、三聚氰胺(Zhang等人,2023)、磺胺酸和三氟乙酸(Hale等人,2020a)。多任务学习可以利用分子性质(以下简称任务)之间的关系,通过利用相关任务之间的共享信息来实现更准确的预测并降低过拟合的风险(Zhang和Yang,2018;Xiao等人,2024)。
高效筛查PMT物质还需要一个全面的数据集。数据集应包括详细的分子信息,如简化的分子输入线表示系统(SMILES)表示、分子描述符、分子指纹和化学性质(Zhao等人,2022;Gou等人,2023;Lei等人,2023)等。然而,已识别的PMT物质仅占当前注册化学物质的一小部分(Zhang等人,2023)。创建一个完整的PMT物质列表将是一个重大的长期任务。借鉴现有的筛查和监测研究,各种研究机构和国际组织提出了几个持久性、移动性和毒性物质的列表(Neuwald等人,2021;Arp和Hale,2023;Arp等人,2023;欧洲化学品管理局,2025)。其中,REACH注册数据库包含了具有高质量信息的13,405种独特化学结构物质(Arp和Hale,2023)。
为了有效捕捉用于筛查目的的新兴污染物的持久性、移动性和毒性之间的相互关系,本研究将分子图与关键分子描述符相结合,并基于图卷积网络开发了一个多任务学习模型,称为MTL-GCN-MD模型。将多任务学习和注意力机制整合到GCN中可以提高预测效率,并增强模型提取信息特征的能力。为了提高模型的可解释性,可视化了三个任务中的多层次特征分布以及分子结构内的关键原子和官能团。本研究应用了核密度估计来进行应用领域分析。基于Streamlit框架,开发了一个用于筛查PMT物质的在线预测系统。对现有研究的贡献包括:(1)本研究结合了专门为PMT识别设计的GCN和多任务学习,实现了对物质持久性、移动性和毒性的同时评估。(2)注意力机制实现了分子图和分子描述符的智能和自适应整合,超越了传统的特征连接,满足了特定任务的特征选择要求。(3)本研究开发了一个端到端的PMT评估框架,可在桌面和移动平台上使用,支持对单个化合物和大规模批量的高效预测。总体而言,本研究为PMT物质的筛查和管理提供了技术支持,有助于保护水环境和化学品的可持续管理。