基于机器学习的药物哺乳风险预测:架起分子特征与母乳喂养安全之间的桥梁
《European Journal of Medicinal Chemistry》:Machine Learning-Based Prediction of Drug Lactation Risk: Bridging Molecular Features and Breastfeeding Safety
【字体:
大
中
小
】
时间:2026年03月24日
来源:European Journal of Medicinal Chemistry 5.9
编辑推荐:
哺乳期用药安全性评估面临临床证据不足和伦理限制,现有模型预测药物经母乳转运的间接指标(如M/P比值)与临床风险不直接相关。本研究开发LRCpredictor框架,基于最新Lactation Risk Categories(LRC)系统,整合三种分子表征(Mordred、RDKit、MACCS)和系统特征工程,采用集成学习模型(最优GBDT模型AUC=0.80,MCC=0.52),结合多层级SHAP分析和结构警报识别,揭示电子性质、拓扑结构、极性等分子特征与哺乳期风险的复杂关联,并提供公开可用的Web平台和代码库。
刘培能|黄绍凯|谢小春|陈佳佳|吴珊珊|黄丽娜|黄晓杰
中国揭阳人民医院药学系,揭阳522000
摘要 背景 由于临床证据有限以及哺乳研究的伦理限制,母乳喂养期间用药的安全性评估面临重大挑战。虽然现有的计算模型侧重于预测药代动力学替代指标(如乳汁与血浆比例),但这些指标在治疗决策中缺乏直接的临床实用性。
方法 我们开发了LRCpredictor,这是一个基于Thomas Hale博士的基于证据的哺乳风险分类(LRC)系统的计算框架,用于预测药物哺乳风险。我们使用三种互补的分子表征方法对391种药物(179种高风险L4/L5,212种低风险L1/L2)进行了分析。通过四种选择算法进行系统特征工程,确定了最佳特征子集。通过交叉验证和独立测试评估了五种集成机器学习算法。采用多级SHAP分析和结构警报挖掘来阐明哺乳风险的分子决定因素。
结果 使用35个选定特征的最优GBDT模型在交叉验证中表现出稳健的性能(AUC=0.80,MCC=0.52),并且在极端风险类别(L1与L5)之间显示出显著的区分能力(AUC=0.85,MCC=0.62)。分析表明,哺乳风险受电子性质、结构拓扑、电拓扑特性、极化性和药物相似性属性的复杂相互作用的影响。匹配分子对分析展示了特定结构修饰如何转化为可解释的风险变化。我们进一步识别出18个结构警报,其中5个仅存在于高风险药物中,这些警报有助于在风险评估和药物设计过程中快速识别毒性基团。
引言 母乳喂养被普遍认为是婴儿的最佳营养来源,可为母婴提供重要的免疫保护并支持其健康成长[1]、[2]、[3]。然而,哺乳期间母亲需要药物治疗时,会带来重大挑战,因为药物可能进入母乳并使哺乳婴儿暴露于具有药理活性的化合物中。流行病学数据显示,超过50%的哺乳母亲在哺乳期间需要用药[4]。2001-2017年美国中毒中心的数据记录了76,416次信息咨询和2,319例与母乳中的潜在药物暴露相关的病例。在这些暴露案例中,51.4%(n=1,192)的婴儿出现了从轻微症状(嗜睡、烦躁、皮疹)到严重后果的各种不良反应,其中20.1%(n=466)需要医疗机构的干预,包括38例入住重症监护室和1例死亡[5]。因此,当哺乳母亲需要药物治疗时,评估用药安全性至关重要。
药物进入母乳的过程受基本物理化学性质的调控。亲脂性(LogP)、分子量、pKa和血浆蛋白结合是控制药物在母乳中分布的主要分子决定因素[6]。高亲脂性化合物可以通过被动扩散轻松穿过乳腺上皮膜,而分子量超过500 Da的化合物在血乳屏障处面临更大的空间限制。药物的离子化状态(由其在母体血浆(pH 7.4)和母乳(pH 6.8-7.2)之间的pKa决定)增加了复杂性。碱性药物更有可能通过离子捕获方式进入母乳:当弱碱从血浆扩散到酸性的母乳环境中时,它们会质子化并离子化,从而阻止反向扩散,导致其在母乳中的浓度超过母体血浆水平[7]。此外,只有未结合的药物部分才能穿透膜,因为血浆蛋白结合限制了能够进入母乳的自由药物量。尽管这些物理化学性质与药物进入母乳的过程密切相关,但由于药物在体内的复杂生理过程,将分子特征转化为哺乳安全性预测仍然具有挑战性。为了量化药物在母乳中的分布,提出了乳汁与血浆(M/P)浓度比作为评估指标[7]、[8]。M/P比率表示药物在母乳中的稳态浓度与母体血浆中的浓度之比;M/P比率大于1的药物表明其在母乳中优先积累,可能导致婴儿暴露风险增加。然而,由于伦理限制,无法对哺乳母亲进行系统的哺乳研究,因此实验测定M/P比率受到限制。
鉴于可用M/P数据的稀缺,研究人员尝试使用有限的实验数据集开发计算方法来预测M/P比率[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。然而,M/P比率作为间接的药代动力学指标,并不能完美地反映实际的婴儿安全性[4]。如果某种化合物在母乳中的积累量很高,但其口服生物利用度低、治疗范围宽或婴儿代谢迅速,那么它可能不会带来显著的临床风险。相反,如果某种药物的M/P比率适中,但其治疗指数狭窄或有已记录的毒理学问题,则需要特别谨慎。这种分子分配行为与临床结果之间的脱节需要直接针对安全性分类的预测模型,而不是依赖替代药代动力学指标。
Thomas Hale博士开发的哺乳风险分类(LRC)系统提供了基于证据的安全性分类,将药物分为五个层次的风险等级:L1(最安全,兼容)到L5(禁忌,危险)[7]。这些分类结合了临床安全数据、哺乳婴儿的记录不良反应和毒理学考虑。LRC系统每两年更新一次,以纳入新的证据,是临床医生管理哺乳患者的主要决策工具。高风险等级(L4/L5)的确定基于记录的婴儿不良事件或对本身具有毒性的化合物(例如细胞毒性化疗药物)的预防性分类,任何婴儿暴露都是不可接受的。因此,LRC系统代表了一个综合的临床终点,反映了分子性质、药代动力学和毒理学潜力之间的复杂相互作用。
在这项研究中,我们基于Thomas Hale博士的基于证据的LRC系统开发了LRCpredictor,这是一个用于预测药物哺乳风险的新计算框架(图1)。与现有的仅关注缺乏直接临床相关性的药代动力学替代指标的M/P比率预测模型不同,我们的方法直接使用2025-2026版的数据(包含最新的临床安全数据)来预测综合风险分类[7]。每种药物分子都通过三种互补的分子表征方法进行了分析:Mordred描述符、RDKit描述符和MACCS指纹。我们的具体目标有四个:(1)通过系统特征工程和集成机器学习开发并验证区分低风险(L1/L2)和高风险(L4/L5)药物的二元分类模型;(2)使用多级SHAP可解释性分析识别关键分子决定因素,解码全局和单个化合物层面的风险预测逻辑,并通过匹配分子对分析展示特定结构修饰如何转化为风险变化;(3)识别与哺乳风险增加相关的结构警报,以指导药物设计过程中的结构优化;(4)实现一个公开可访问的基于Web的预测平台(LRCpredictor,
https://lrcpredictor.streamlit.app/ ),并提供集成的可解释性可视化。为了促进可重复性,完整的数据集、训练模型和源代码都可以在我们的GitHub仓库中公开获取(
https://github.com/Huangxiaojie2024/LRCpredictor )。
方法概述 方法学概述 在这项研究中,我们开发了LRCpredictor,这是一个用于预测药物哺乳风险的计算框架,如图1所示。该框架包括三个主要组成部分:(1)数据收集和分子表征,涉及从基于证据的LRC系统中收集具有记录的哺乳风险分类的药物,并计算编码化学结构和物理化学性质的数值表示;(2)学习框架,包括
数据集概述和结构多样性分析 该数据集包含391种药物,这些药物来自Thomas Hale博士的基于证据的LRC系统(2025-2026版),其中包括179种高风险药物(126种L4,53种L5)和212种低风险药物(32种L1,180种L2)。排除了含义不明确的L3药物,以确保分类的清晰性和减少模型的不确定性。数据集被随机分为313种化合物的训练集(150种高风险,163种低风险)和78种化合物的测试集(29种高风险,49种低风险)。
本研究的优点和局限性 本研究在哺乳用药安全性评估领域有几个显著的优点。我们开发了首个直接预测临床可操作的哺乳风险分类的机器学习框架,而不是依赖药代动力学替代指标(M/P比率),使用了最新的基于证据的LRC系统(2025-2026版)以确保其临床相关性。我们的系统特征工程策略结合了三种互补的分子
结论 在这项研究中,我们开发了LRCpredictor,这是首个可解释的机器学习框架,用于直接预测临床可操作的哺乳风险分类。通过结合互补的分子表征和集成学习算法,我们使用35个选定特征的最优GBDT模型实现了稳健的预测性能。多级SHAP分析表明,哺乳风险受电子性质、结构拓扑等复杂因素的相互作用的影响
CRediT作者贡献声明 刘培能: 撰写——审阅与编辑、可视化、软件、资源、方法学、数据整理。黄绍凯: 验证、软件、方法学。谢小春: 验证、资源、数据整理。黄晓杰: 撰写——初稿、监督、项目管理、方法学、调查、资金获取、概念化。陈佳佳: 调查、正式分析、数据整理。吴珊珊: 验证、资源、调查。黄丽娜: 资源、正式
利益冲突 作者声明本研究在没有任何可能被视为潜在利益冲突的商业或财务关系的情况下进行。
资助 本研究得到了广东省医学科学技术研究基金会 (资助编号:B2025615)的支持。
利益冲突声明 ? 作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢 我们感谢Thomas Hale博士开发了作为本研究基础的基于证据的哺乳风险分类系统。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号