《Environmental Research》:Multimodal-based Crystal Graph Convolution Neural Networks for Predicting Soil Toxicity to Earthworms
编辑推荐:
本研究开发了一种多模态深度学习模型,整合晶体图卷积神经网络提取的微观化学特征(如原子结构、离子化能)与宏观环境、生物因素(如土壤条件、蚯蚓生理特征),用于预测化学品对蚯蚓的50%致死浓度(LC50)。实验表明,该模型在14种化学品测试中R2达0.86,显著优于单模态模型,并通过特征重要性分析揭示拓扑极性表面积和离子化能为关键预测因子。
Sejin Son|Heewon Jeong|Jaehoon Yeom|Sun-Hwa Nam|Youn-Joo An|Kyung Hwa Cho
韩国大学土木、环境与建筑工程学院,首尔02841,大韩民国
摘要
已经开发出一些建模方法来定量评估土壤中的化学毒性。然而,一个能够结合分子级特征、土壤中的暴露条件以及生物体和化学物质内在属性的综合性建模框架仍然有待探索。因此,本研究旨在开发一个多模态深度学习模型,通过整合不同领域的多尺度特征来预测毒性指数。使用晶体图卷积神经网络提取了化学物质的微观特征,该网络旨在从原子和键合信息中学习结构表示。这些微观特征与暴露情况、土壤和生物体相关条件等宏观数据相结合进行预测。该模型通过预测14种化学物质对蚯蚓(标准土壤测试物种)的半数致死浓度(LC50)来评估其性能。为了验证,将其性能与仅使用微观或宏观特征的单模态模型进行了比较。尽管文献来源的数据集规模有限,基于后期融合的多模态模型的决定系数达到了0.86,交叉验证的平均值为0.67。这一性能优于基准模型。此外,该模型通过识别预测LC50的关键输入特征提供了可解释的见解。拓扑极性表面积和电离能分别成为主要的宏观和微观贡献因素。这些结果突显了所提出的建模方法在土壤毒性预测和机制理解方面的潜力。此外,这项研究还表明了一个新的建模框架的扩展性,该框架可以整合异构数据以进行可解释的化学毒性评估。
引言
估计化学污染的环境影响是一个关键的研究领域,因为这种污染对人类和生态系统健康构成了重大风险(Rohr等人,2016年)。特别是,有害化学物质对土壤的污染已成为一个主要问题,导致土壤肥力下降、微生物群落破坏以及有毒物质在食物链中的积累(Liu等人,2025年)。为了更好地理解这些环境影响,已经开发了毒性评估方法来系统地评估不良影响并量化土壤生物体中的毒性水平(Yang等人,2024年)。这些评估为风险预测和管理提供了基础,并支持有关有毒化学物质的监管决策(Chandrasekar等人,2025年)。因此,开发准确可靠的方法来评估有害化学物质的毒性至关重要。
根据评估方法的不同,毒性评估可以分为体内、体外和计算机模拟(in silico)方法,每种方法都有其独特的优势和局限性(Fr?hlich和Salar-Behzadi,2014年)。传统的毒性评估主要依赖于体内生态毒性评估。这些研究受到青睐,因为它们能够在完整的生物体上进行测试,从而捕捉生理过程的复杂相互作用(Xu等人,2021年)。然而,体内实验受到关于动物使用的伦理规定的限制,而且耗时且成本高昂(Zacharewski,1998年)。此外,传统方法的可靠性和敏感性受到测试设计限制以及缺乏识别危害和风险外推所需的机制信息的限制(Paparella等人,2020年)。体外方法的发展旨在解决体内实验的局限性,特别是动物模型无法准确反映人类毒性的问题(Jennings等人,2015年)。然而,体外实验也有其固有的局限性,因为它们耗时且在相同条件下往往由于生物变异性而产生不同的结果(Eisenbrand等人,2002年;Jennings等人,2015年)。因此,计算机模拟方法能够更快地进行毒性评估,并提供独立于实验执行的一致性预测,这促使人们将其作为补充方案进行开发(Cherkasov等人,2014年)。在计算机模拟研究中,常使用毒代动力学-毒效学(TK-TD)模型、读跨模型和定量结构-活性关系(QSAR)模型(Cattaneo等人,2023年)。然而,QSAR模型中使用的描述符往往定义不明确,而且使用多种训练数据集使得评估数据相似性的标准变得复杂,从而降低了预测的可靠性(Tong等人,2005年)。因此,开发更先进的模型并采用改进的方法以提高可靠性和预测准确性至关重要,同时解决现有毒性评估方法的局限性。
随着数据驱动方法的进步,人们开始研究将基于人工智能(AI)的模型应用于毒性评估(Hartung,2023年)。值得注意的是,一些基于AI的研究使用蚯蚓作为测试生物体进行了毒性评估,这符合经济合作与发展组织(OECD)的测试指南(Chemicals,2005年)。这些研究展示了使用机器学习技术(如线性判别分析(LDA)(Roy等人,2020年)、随机森林(Kotli等人,2024年)、梯度提升决策树(Kotli等人,2025年)和偏最小二乘(PLS)回归(Ghosh等人,2020年)进行AI驱动的毒性评估的可行性。除了传统的机器学习方法外,深度学习模型——特别是人工神经网络(ANNs)——也显示出作为基于实验数据预测有毒物质动态行为和降解过程的宝贵工具的潜力(Kamal等人,2024年)。然而,这种方法仅考虑了实验观察到的宏观特征和条件,忽略了目标化学物质的物理化学性质,包括它们的分子结构和价键相互作用(Liu等人,2025年)。相比之下,基于图卷积神经网络(GCNN)的模型直接将分子结构表示为图数据,通过捕捉化学物质之间的物理化学相似性提高了毒性预测的准确性(Chen等人,2021年;Huang等人,2024年;Wang等人,2020a)。尽管如此,这些模型仍然主要依赖于宏观实验数据(如暴露条件、生物反应和物理化学描述符)或微观分子信息,而不是采用一种整合影响毒性反应的关键因素的综合性方法(Pérez Santín等人,2021年;Yuan等人,2019年)。鉴于毒性受多种因素的复杂相互作用影响,需要进一步的研究来开发整合这些多样化数据源的策略(Na等人,2024年)。
因此,本研究旨在通过开发一个多模态深度学习模型来改进现有的基于AI的建模方法。多模态深度学习模型能够同时学习具有不同尺度、格式和领域的数据集。它们已被应用于预测污染物在土壤中的吸附效率以及吸附材料处理污染物的效率等任务(Jeong等人,2025年;Na等人,2024年)。我们利用多模态建模的优势构建了一个模型,该模型通过不同的模式同时学习了影响毒性的微观和宏观特征。微观特征以图的形式表示,并使用晶体图卷积神经网络(CGCNN)进行学习。在此基础上,我们开发了一个基于CGCNN的多模态深度学习模型。我们将多模态方法与仅使用宏观或微观特征训练的单模态模型进行了比较。此外,我们优化了融合策略,以提高在不同尺度上整合异构数据时的学习效果。最后,我们应用了模型解释技术来识别有影响力的输入特征。通过这项研究,我们建立了一个更可靠且数据驱动的毒性评估框架,为化学物质的高精度预测模型和更全面的毒性评估系统的发展做出了贡献。
数据收集
本研究收集了毒性指数、原子特征、分子结构特征、暴露条件、蚯蚓的生物信息以及物理化学性质的数据(图1a)。具体来说,我们获得了14种化学物质的数据集,这些物质具有详细的土壤毒性数据(表S1)。这些物质属于韩国环境部指定的97种事故准备化学品和183种土壤候选化学品之一
获得数据的描述性统计
表1总结了本研究中调查的14种化学物质的LC50值的描述性统计信息,包括平均值、中位数和标准差。为了保持统计分析的一致性并考虑原始数据的偏度,还提供了对数转换后的LC50值。甲苯显示出最高的平均值和变异性,而克百威在两个指标上均表现出最低的值。
结论
本研究开发并评估了一个多模态深度学习模型,通过整合分子结构、暴露条件、生物特征和物理化学性质来预测土壤环境中的化学毒性。该模型专门设计用于结合微观分子级信息和宏观因素(如环境和生物条件),以提高预测准确性和可解释性。基于后期融合的多模态模型实现了
CRediT作者贡献声明
Youn-Joo An:写作——审稿与编辑、监督、资金获取。Sun-Hwa Nam:写作——审稿与编辑、数据管理。Jaehoon Yeom:写作——初稿撰写、调查。Heewon Jeong:写作——初稿撰写、可视化、软件开发、方法论。Kyung Hwa Cho:写作——审稿与编辑、监督、资金获取。Sejin Son:写作——初稿撰写、可视化、软件开发、方法论
未引用的参考文献
Jennings, 2015; Reenu, 2015.
利益冲突声明
? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
这项工作还得到了
韩国环境产业与技术研究所(
KEITI)通过
先进技术发展项目的支持,该项目由
韩国环境部(
MOE)资助(
2022003620001)。