《Forensic Science International》:Machine Learning in Forensic Toxicology: Concepts, Applications and Challenges in Bioanalysis, ADME, and Toxicodynamics
编辑推荐:
这篇综述系统地阐述了机器学习在法医毒理学前沿领域的融合与应用。文章深入探讨了ML如何赋能高分辨质谱数据分析、毒物代谢组学以及结构-活性关系研究,特别聚焦于应对新精神活性物质带来的挑战。作者强调了跨学科协作、数据质量与模型可解释性对于推动该领域发展的关键作用,并为未来研究指明了方向。
在法医学的精密世界里,法医毒理学扮演着至关重要的角色,它致力于在生物基质中检测、定量和解释药物、毒物及其代谢物。然而,这个领域正面临前所未有的挑战,尤其是新精神活性物质(NPS)的不断涌现,它们化学结构多变、代谢行为复杂,且常常缺乏标准品。这些挑战催生了更复杂的分析技术,如高分辨质谱,同时也产生了海量数据。正是在这样的背景下,机器学习(ML)算法正逐步成为法医毒理学家手中的一把利器。
2. 药理学与分析化学中的机器学习方法——聚焦定量构效关系(QSAR)
QSAR是连接化学结构与生物活性的数学模型。在法医毒理学中,ML驱动的QSAR研究可以通过计算分子描述符(如logP、TPSA),预测未知化合物(如新型NPS)的受体亲和力、毒性或色谱保留时间。常用的算法包括随机森林、支持向量机和人工神经网络。构建一个可靠的ML模型,其核心在于“适用域”——即模型能够做出可靠预测的化学空间。这要求训练集必须具有足够的化学多样性,并且模型需要遵循经济合作与发展组织等机构制定的验证原则。
3. 生物分析
3.1. 高分辨质谱(HRMS)分析
HRMS结合数据非依赖采集(DIA)模式,是进行非靶向筛查的金标准,但它会产生极其庞大的数据集。ML在此大显身手,例如利用人工神经网络自动分类质谱数据文件,快速筛选出含有药物的样本,甚至识别出被篡改的尿液样本。更有研究开发了集成学习模型,能够直接从HRMS/MS谱图中自动推断NPS的类别乃至合成大麻素受体激动剂(SCRA)的具体化学结构。
3.1.1. 液相色谱-高分辨质谱(LC-HRMS/MS)中的保留时间与碎片预测
对于没有标准品的未知物,预测其色谱保留时间(RT)是进行回顾性分析的关键。研究人员开发了多种ML模型,如基于定量结构-保留关系(QSRR)的多层感知机模型,仅使用少数分子描述符就能高精度预测NPS在不同液相系统下的RT。此外,还有研究利用迁移学习,整合多个不同色谱条件下的数据集,以提升模型对不同仪器平台的适应能力。这些预测帮助分析人员缩小检索范围,显著提高鉴定效率。
3.2. 替代性筛查方法
除了质谱,基于活性的生物测定也是一种前沿筛查手段。例如,针对CB1或μ-阿片受体(MOR)的细胞报告基因实验,可以直接检测样本中是否含有激活特定受体的物质,无需预先知道化合物结构。ML模型,如随机森林,已被成功应用于对这些生物测定结果进行自动评分,实现了高效、客观的初筛。
4. 毒代动力学(ADME)
4.1. 用药时间推断
确定最后一次吸毒的时间在临床和司法中都极为重要。有研究尝试通过建立广义线性混合模型,依据海洛因使用者血浆中吗啡及其葡萄糖醛酸代谢物的浓度,来预测用药后的时间间隔,为相关案件的调查提供了新的思路。
4.2. 代谢组学与ML的结合
代谢组学通过对生物体内所有小分子代谢物进行全景式分析,为法医毒理学打开了新窗口。ML是其处理高维数据的天然伙伴。
4.2.1. 用于筛查目的的代谢组学
研究表明,不同类别的毒品(如MDMA、可卡因)会在生物体内引起特征性的代谢物指纹变化。利用随机森林等分类器,可以训练模型仅根据代谢组谱区分动物是否接触过特定毒品。更有趣的是,有研究开发了一种不依赖检测SCRA本身,而是通过检测其引起的全身性代谢变化(如脂质代谢扰动)来筛查尿液样本中是否含有SCRA的模型,为发现全新结构的毒品提供了可能。
4.2.2. 死后调查中的代谢组学
死后代谢组可能保留着生命终末阶段的生理信息。研究已利用正交偏最小二乘判别分析等模型,尝试根据死者血液代谢谱来区分死因,如肺炎、酸中毒、药物中毒等。此外,还有研究通过分析大鼠死后不同组织的代谢物随时间的变化,构建随机森林模型来精确估算死亡时间,展示了代谢组学在死亡调查中的巨大潜力。
4.2.3. 医疗与娱乐用药相关代谢组学
对于γ-羟基丁酸(GHB)这种内源性物质,区分外源摄入与内源背景是一大难题。代谢组学通过寻找GHB摄入相关的特征性生物标志物组合,为确认其使用提供了更可靠的证据。类似地,研究也致力于寻找胰岛素过量致死、低体温症或阿片类药物(如羟考酮)中毒相关的特异性代谢物特征,以辅助复杂的死因判定。
4.2.4. 代谢组学与痕迹遗留时间
甚至在犯罪现场调查中,代谢组学也能发挥作用。通过分析干血痕中特定代谢物(如苯丙氨酸)含量随时间的变化规律,可以建立数学模型来估算血迹的遗留时间,为案件重建提供关键时间线索。
5. 毒效动力学
5.1. 结构-活性关系(SAR)
预测精神活性物质的受体结合活性是评估其危害性的核心。研究者利用公共数据库(如ChEMBL)中大量化合物的实验数据,训练机器学习模型来预测新型SCRA对CB1受体的亲和力(Ki),或预测苯二氮卓类药物对GABAA受体的作用强度。这些计算模型能在实验室测试之前,快速对新型NPS的潜在神经活性进行预警和排序。
5.2. 毒理效应
除了结合力,物质的毒性效应也同样重要。有研究尝试利用偏最小二乘回归模型,根据化学结构预测安非他明和卡西酮类物质的半抑制浓度(IC50)。而在基于活性的筛选中,随机森林模型可以媲美专家,实现对大量样本检测结果的自动化、高通量分类。
6. 讨论与展望
尽管机器学习为法医毒理学带来了革命性的工具,但其应用仍面临显著挑战。高质量、大样本数据集的匮乏是首要瓶颈,这受限于真实案例数据的可获得性、分析数据的异质性等。模型的“黑箱”特性在司法语境下可能引发可解释性质疑,因此需要引入SHAP值等工具来增强透明度。当前,ML更适合作为辅助筛查、数据预处理的“分诊”工具,而非做出最终司法结论的裁决者。未来的发展有赖于数据科学家与法医毒理学家更紧密的跨学科合作,共同制定最佳实践规范,以释放机器学习在捍卫公正与公共健康方面的全部潜能。