代谢组学驱动的数据增强机器学习预测微塑料混合物的毒性

【字体: 时间:2026年02月27日 来源:Ecotoxicology and Environmental Safety 6.1

编辑推荐:

  为高效评估环境中复杂混合微塑料(MPs)的毒性风险,本研究创新性地将代谢组学与数据增强(DA)机器学习(ML)相结合。研究团队采用单纯形质心设计混合五种常见MPs(PS, PE, PET, PP, PVC),基于BEAS-2B细胞实验数据,分别构建了基于物理化学描述符的QSAR、基于代谢组学生物描述符的QBAR及二者结合的QSBAR预测模型。结果显示,基于eXtreme Gradient Boosting (XGB) 算法的QBAR模型(XGB-qbar)预测性能最优(R2tra= 0.9322, R2test= 0.8923),并揭示了MPs混合暴露可能通过重编程细胞能量代谢通路(如糖酵解、TCA循环)介导毒性反应。该研究为小样本复杂混合物毒性预测与机制解析提供了新策略。

  
从日常饮用的瓶装水到呼吸的空气,微塑料(Microplastics, MPs)——这些尺寸小于5毫米的塑料碎片已无处不在。它们如同看不见的“环境幽灵”,持续进入生态系统并最终在人体内富集,其潜在的健康风险引发全球担忧。然而,真实环境中的微塑料从来不是单一品种的“独角戏”,而是多种类、多形状(如微珠、微纤维、微碎片)混杂的“交响曲”。传统的毒理学研究通常聚焦于单一MPs,但面对现实中复杂多变的混合物,逐一进行实验测试不仅成本高昂、耗时漫长,而且几乎不可能覆盖所有可能情况。那么,如何快速、有效地评估这些复杂混合物的毒性呢?这正是发表在《Ecotoxicology and Environmental Safety》上的这项研究试图回答的核心问题。
为了破解这一难题,研究团队开创性地将前沿的代谢组学技术与数据增强(Data Augmentation, DA)策略的机器学习(Machine Learning, ML)模型相结合,旨在建立一套高效的预测框架。他们的核心思路是:与其仅依靠MPs本身的物理化学性质(如粒径、电位),不如直接捕捉它们作用于细胞后引发的、能够反映毒性机制的生物响应信号——即通过代谢组学获得的生物描述符(biodescriptors),以此来预测混合物的细胞毒性。
为开展这项研究,作者主要运用了以下几项关键技术方法:首先,实验设计上采用了“单纯形质心设计(simplex centroid design)”来系统混合五种环境常见MPs(PS、PE、PET、PP、PVC),以模拟真实的暴露情景。其次,利用CCK-8法检测了BEAS-2B人肺上皮细胞的活力,作为模型预测的毒性终点。第三,通过非靶向代谢组学(基于液相色谱-串联质谱, LC-MS/MS)分析,从暴露细胞中筛选出差异表达的代谢物(differentially expressed metabolites, DEMs),并将其丰度变化值定义为生物描述符。第四,针对小样本数据瓶颈,采用了Bootstrap重采样结合可控高斯噪声扰动的数据增强技术来扩增数据集。最后,构建并比较了基于三种描述符框架(QSAR, QBAR, QSBAR)的六种机器学习算法模型,并通过多种验证指标和描述符重要性分析来评估和解读最优模型。
研究结果层层递进,揭示了从表征到机制的全景图:
3.1. 微塑料的表征
扫描电子显微镜(SEM)图像显示,五种单一MPs的形态差异显著:PS和PP为不规则碎片,PE和PET为表面光滑的球形颗粒,而PVC则呈现尺寸和形态不均一的团聚体。这些形态特征以及混合物的Z平均粒径和Zeta电位被用作模型的物理化学描述符。
3.2. 相关性分析
皮尔逊相关系数(Pearson correlation coefficient, PCC)分析表明,输入变量与输出变量(细胞活力)之间存在不同程度的线性相关性。例如,Z平均粒径和代谢物CDP-甘油酯与细胞活力有较强的相关性。但研究也指出,变量之间可能存在复杂的非线性关系,这为后续使用非线性机器学习算法提供了依据。
3.3. 基于数据增强的机器学习预测模型
在QSAR、QBAR和QSBAR三种框架下,共训练了18个DA-ML模型进行验证。结果发现,基于决策树的集成学习模型(如XGBoost, 随机森林RF, 梯度提升决策树GBDT)普遍表现优异。其中,仅使用生物描述符的QBAR框架下的XGB模型(XGB-qbar)预测性能最佳,其训练集和测试集的决定系数R2分别达到0.9322和0.8923,且通过了全部内部和外部验证阈值。这表明,相较于传统的物理化学描述符,从代谢组学中提取的生物描述符能更直接地关联毒性机制,从而带来更高的预测精度。而结合了物化与生物描述符的QSBAR模型性能并未超越QBAR,可能因为引入了冗余信息或噪声。
3.4. 应用域分析
通过Williams图对QBAR框架下的模型进行适用性域(Applicability Domain, AD)分析。结果显示,所有非线性模型(RF, KNN, GBDT, XGB)的预测样本均位于应用域内,而线性模型(MLR, BRR)则出现了异常值,这进一步证实了非线性算法在本数据集上的优越性。
3.5. 描述符重要性分析与机制知识
为了理解最优模型(XGB-qbar)的决策依据,研究采用了三种方法(特征置换加权FSW, 嵌入式特征重要性EFI, SHAP值分析)来评估生物描述符的重要性。三种方法一致指出,3-磷酸甘油酸(3-Phosphoglyceric acid, 3-PGA)和CDP-甘油酯(CDP-glycerol)是模型中最稳定且贡献最大的关键描述符。从生物学机制看,3-PGA是糖酵解途径的关键中间体,直接参与细胞能量代谢;CDP-甘油酯则是磷脂合成的重要前体,影响细胞膜的结构与功能。这证实了模型捕捉到的关键生物描述符具有明确的生理意义,将预测与潜在的毒性机制联系了起来。
3.6. 基于代谢组学的毒性机制确定
为了深入探究毒性机制,研究对毒性最强的PET和PVC混合物暴露组进行了代谢组学分析。主成分分析(PCA)和偏最小二乘判别分析(OPLS-DA)显示暴露组与对照组代谢谱显著分离。共鉴定出368个差异表达代谢物(DEMs)。KEGG通路富集分析发现,这些代谢物显著富集于“中央碳代谢”、“丙酮酸代谢”、“TCA循环(柠檬酸循环)”和“氧化磷酸化”等能量代谢相关通路。具体而言,糖酵解中间体3-PGA和磷酸烯醇式丙酮酸(phosphoenolpyruvate, PEP)显著上调,而TCA循环中的柠檬酸(Citrate)和氧化磷酸化相关的烟酰胺腺嘌呤二核苷酸(NAD?)水平下降。这表明,PET和PVC混合暴露诱导了BEAS-2B细胞的代谢重编程:细胞从高效的产生三磷酸腺苷(ATP)的氧化磷酸化途径转向效率较低的糖酵解途径(类似瓦伯格效应)。这种转变可能导致能量产生不足、活性氧(ROS)水平升高,进而引发氧化应激,影响细胞自噬和凋亡,最终导致细胞毒性。
归纳研究的结论与讨论部分,本研究提出并验证了一个代谢组学驱动、数据增强的机器学习框架,用于预测混合微塑料的细胞毒性。其核心结论与重要意义在于:第一,方法学上取得突破。研究证明,基于代谢组学生物描述符的QBAR模型(特别是XGB-qbar)在预测混合MPs毒性方面,显著优于传统的QSAR模型和混合描述符的QSBAR模型。这为小样本、复杂混合物的毒性预测提供了一种高效、可靠的新策略。第二,揭示了关键毒性机制。模型识别出的关键生物描述符(3-PGA, CDP-甘油酯)与后续代谢组学分析结果相互印证,明确指出混合微塑料暴露通过干扰细胞能量代谢通路(糖酵解、TCA循环、氧化磷酸化)诱导毒性,将预测模型与深层的生物学机制解释有机结合,增强了结果的可信度与生物学意义。第三,具有广泛的应用前景。随着高通量组学技术的发展,可以产生更多与毒性机制相关的生物标志物,为机器学习模型提供更丰富的特征,从而进一步提升对复杂混合物毒性的预测能力和机制理解。当然,研究也指出了当前基于小样本和数据增强方法的局限性,未来需要在更大规模的数据集和更多生物模型上进行验证,并结合虚拟采样、迁移学习等方法,以提升模型的普适性和应用价值。总之,这项研究不仅为环境微塑料混合物的风险评估提供了创新的计算工具,也为理解其毒性作用模式开辟了新的视角。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号