《Journal of Hazardous Materials》:Retention Time Prediction of Emerging Contaminants via Transfer Learning with Graph Neural Networks
编辑推荐:
环境有机污染物液相色谱-质谱联用分析中,基于图神经网络(GNN)的迁移学习模型有效解决了保留时间(RT)预测的数据稀缺和模型泛化问题。通过预训练大规模METLIN-SMRT数据集,优化模型(如GIN3)在目标环境污染物数据集上实现R2=0.894,显著超越传统方法。研究证实GNN通过原子-键拓扑编码揭示结构-RT关系,迁移学习增强跨域泛化能力,并借助梯度归因和适用性域评估提升模型解释性和可靠性,为快速筛查复杂基质中的新兴污染物提供高效解决方案。
Jiewen Deng|Junbin Chen|Jingyi Wang|Xingying Li|Sisi Liu|Linke Ge|Guang-Guo Ying|Chang-Er Chen
环境研究所/环境学院,广东省化学污染与环境安全重点实验室及华南师范大学环境理论化学国家重点实验室,广州,510006,中国
摘要
本研究针对液相色谱-质谱(LC-MS)非靶向分析中环境有机污染物保留时间(RT)预测的瓶颈问题,提出了一种基于METLIN-SMRT数据集的图神经网络(GNN)迁移学习方法。为克服实验测定的繁琐性和数据稀缺性问题,我们系统评估了5种GNN模型、3种预训练优化器、3种训练策略以及2种迁移学习优化器,并通过分阶段优化流程进行了验证。结果表明,GNN通过编码分子图拓扑结构有效捕捉了结构与RT之间的关系。通过将源域(包含天然产物、代谢物和类药分子的METLIN-SMRT数据集)的知识迁移到包含1,051种环境污染物的目标域,最优模型GIN3在采用微调策略和L-BFGS优化器后,取得了0.894的R2值,显著优于最佳的传统机器学习方法(R2=0.816)。基于梯度的归因分析揭示了迁移学习如何将注意力集中在关键结构特征上,从而提高了模型的可解释性。适用性领域评估进一步证实了预测结果的可靠性。本研究展示了基于图的迁移学习的三大优势:更好的泛化能力(训练-测试误差为8%,而传统方法为11–19%)、表征自主性以及统计稳健性(标准差SD分别为0.020和0.039)。通过利用跨领域色谱知识,该模型克服了数据集规模的限制,能够在目标数据量较少的情况下实现准确的RT预测,为快速污染物筛查提供了有效解决方案——尤其是在涉及未知污染物或标准品稀缺的紧急情况下,从而减少了实验依赖性并推动了智能色谱分析的发展。
引言
全球化学污染带来的健康风险持续加剧,截至2023年9月,CAS数据库中已注册了超过2.79亿种化学品[1],且每天还有新的化学品添加。在这种背景下,新兴污染物(ECs)[2][3](包括持久性有机污染物(POPs)、内分泌干扰物(EDCs)等)由于排放源复杂、环境分布广泛以及长期危害隐蔽而成为监管的核心挑战[4][5]。这些污染物可通过大气传输、水流或生物迁移在地区间迁移,但目前的研究仅揭示了其风险的“冰山一角”。面对管理庞大化学品库存的需求,现有分析方法存在显著局限性:传统的“色谱-光谱-质谱”联用技术难以高效处理复杂的环境样品;虽然高分辨率质谱(HRMS)[6]基于的非靶向筛查技术能够实现全面的污染物识别,但存在预处理协议不一致、单一平台覆盖范围狭窄、大数据处理效率低以及定量能力不足等问题[7]。其中,液相色谱(LC)[8]作为同时定量数十至数百种ECs的“黄金标准”,面临三个关键瓶颈:高昂的操作成本(高纯度溶剂消耗、频繁更换色谱柱)、漫长的方法优化周期(每个样本需要数周时间),以及由于梯度洗脱和色谱柱重新平衡导致的通量限制——这些问题的根本原因在于LC保留时间(RT)预测的低效率[10],RT是决定分离选择性和分析速度的关键参数,因此迫切需要技术创新来突破这一效率瓶颈。
为了解决LC-RT预测问题,机器学习[11][12]最近取得了重大突破:早期的线性回归(LR)[13]和支持向量回归(SVR)[14]模型依赖于二维描述符(如分子量、logP)和手动特征工程,虽然准确性一般,但无法解决立体障碍或离子交换等复杂分子相互作用问题。深度学习的兴起推动了人工神经网络(ANNs)[15][16]和图神经网络(GNNs)[17][18]的应用——ANNs通过非线性变换自主提取分子指纹特征,而GNNs直接解码原子-键拓扑结构,精确模拟手性构型与保留行为之间的非线性关系,显著提高了预测的泛化能力。值得注意的是,LC-RT预测受到目标数据集稀缺和碎片化的普遍限制——这一核心瓶颈源于真实标准品的高成本、繁琐的色谱优化以及现有污染物数据库的覆盖范围狭窄。这些限制导致样本量不足,无法充分捕捉环境污染物的化学空间多样性,使得训练具有强大泛化能力的模型变得困难。迁移学习作为一种成熟的技术范式,通过将大规模、化学多样性丰富的源域中的结构-RT关系知识迁移到小规模目标域,有效弥补了数据稀缺问题,同时保持了预测准确性。然而,当前的机器学习方法仍存在两个关键缺陷:(1)碎片化的训练数据集(局限于特定污染物类别或LC方法)导致化学空间覆盖不完整,跨矩阵/跨仪器泛化能力差;(2)尽管在基于GNN的迁移学习[19][20]方面取得了进展,但在代谢组学领域,环境污染物LC-RT预测仍受传统模型范式的限制,缺乏来自大规模药物/代谢物数据库的有效跨领域知识迁移。这一关键差距限制了高精度预测模型在复杂环境筛查中的实际应用范围。
本研究开发了一种创新的GNN迁移学习框架,用于解决环境污染物RT预测的关键问题。该框架将METLIN-SMRT大规模数据集(主要包含天然产物、代谢物和类药分子)中的分子结构-RT关系知识迁移到小规模环境污染物领域,有效克服了数据稀缺问题,同时保持了高预测准确性。通过利用GNN的拓扑特征提取能力,该框架揭示了分子结构特征对色谱保留行为的影响,建立了可跨领域应用的结构-保留映射模型。为了提高模型的可解释性和预测可靠性,基于梯度的归因分析揭示了迁移学习如何重新调整对结构元素的关注,提供了决策过程的机制洞察;适用性领域评估(AD)评估了预测的可靠性,并识别出高置信度预测区域。与传统方法相比,我们的研究显著提高了预测准确性和跨场景泛化能力,为复杂环境样品中的高通量污染物筛查提供了稳健的解决方案。这一进展不仅深化了对污染物色谱保留机制的理解,还推动了环境分析化学技术范式的进步,特别是为非靶向分析提供了突破性工具。
数据集
GNN预训练的源数据集是METLIN-SMRT数据集[21][22],这是一个包含80,038个分子的大规模公共数据集,这些分子的RT值通过实验测量获得,涵盖了天然有机化合物、类药小分子和代谢物等多种分子类别。其庞大的规模为训练高效的机器学习模型提供了有力支持,尤其是在RT预测方面[17][21][23]。该数据集已成为重要的预训练
模型训练
在迁移学习实验中,我们首先对METLIN-SMRT数据集进行了预训练,以建立五种GNN模型的基线性能,并使用了三种优化器。预训练结果总结在表S2中,为后续的迁移学习应用提供了预训练模型基础。
随后,我们将这些预训练模型应用于目标数据集,并采用CV10方法系统评估了这些模型的迁移学习性能。
结论
在环境分析领域,特别是日益流行的非靶向分析中,新污染物的不断出现给传统实验方法带来了挑战,包括获取参考标准的困难和高昂的分析成本,这迫切需要高效准确的预测方法。本研究创新性地使用了大规模的小分子数据集和基于GNN的迁移学习技术,扩展了小分子的RT预测能力
环境意义
准确预测液相色谱保留时间(LC-RT)对于识别未知的新兴污染物(ECs)至关重要。目前对真实标准的依赖使得实验RT测定成本高昂、耗时且不切实际。本研究开发了一种基于图神经网络(GNN)的迁移学习模型,能够在少量污染物数据的情况下实现高精度的RT预测。该框架支持快速可靠地筛查复杂的环境混合物
CRediT作者贡献声明
Ying Guangguo:撰写 – 审稿与编辑、资源整理、实验研究。Chang-Er Chen:撰写 – 审稿与编辑、验证、监督、资源管理、项目规划、方法设计、资金获取、概念构思。Sisi Liu:撰写 – 审稿与编辑、实验研究。Linke Ge:撰写 – 审稿与编辑、实验研究。Jingyi Wang:撰写 – 审稿与编辑、验证、实验研究、数据整理。Xingying Li:撰写 – 审稿与编辑、验证、实验研究。Jiewen Deng:
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。
致谢
本研究得到了中国国家重点研发计划(2022YFC3902102)和中国国家自然科学基金(编号42277457)的财政支持。
支持信息
模型训练配置和实验环境信息(表S1);5种GNN模型在METLIN-SMRT数据集上的预训练性能(表S2);5种GNN模型在不同优化器下的迁移学习性能