开发并评估可解释的定量结构-活性关系(QSAR)模型,以预测化学物质引起的呼吸道刺激

《Computational Toxicology》:Development and evaluation of explainable QSAR models to predict chemical-induced respiratory irritation

【字体: 时间:2026年03月20日 来源:Computational Toxicology 2.9

编辑推荐:

  预测化学性呼吸道刺激的整合可解释QSAR模型研究

  
美国马里兰州Fort Detrick国防卫生局研究与发展部,战争生物技术高性能计算软件应用研究所,医学研究与发展司令部,邮编21702

摘要

化学物质引起的呼吸道刺激是一个严重的人类健康问题,因为它可能导致急性和慢性损伤。因此,评估化学物质的呼吸道刺激潜力对于保护人类健康至关重要。由于人类数据有限,人类风险评估通常依赖于动物数据的外推,但这可能不准确且耗时耗资。正在开发新的方法来减少对动物实验的依赖,并简化化学风险评估流程。在本研究中,我们开发了一个计算工作流程,将可解释的人工智能(XAI)方法整合到定量结构-活性关系(QSAR)建模过程中,以预测化学物质引起的呼吸道刺激。我们通过结合不同的机器学习算法和多种分子表征方法,开发并评估了多个QSAR模型。这些模型的平均交叉验证接收者操作特征曲线下面积为0.88,准确率为0.80,马修斯相关系数为0.61,外部测试集评估表明其具有良好的泛化能力。我们应用了不同的方法(包括Shapley加性解释(SHAP)来解释QSAR模型的预测结果。通过提供模型预测的全局和局部解释,SHAP分析突出了驱动呼吸道刺激预测的关键分子描述符和特征,揭示了可能揭示刺激潜力的物理化学性质。本研究中开发的可解释模型有可能成为传统动物模型的替代工具,从而更快、更经济地评估呼吸道刺激物的风险。

引言

化学物质引起的呼吸道刺激是一个严重的人类健康问题,因为它可能导致急性和慢性损伤[1],从而导致咳嗽、胸痛和呼吸急促等不良健康影响。长期接触呼吸道刺激物可能导致更严重的或长期的呼吸系统疾病,包括反应性气道功能障碍综合征、化学性肺炎和慢性支气管炎。呼吸道刺激物的暴露可能发生在各种环境中,例如工作场所、家庭和户外,因为杀虫剂、清洁产品和烟雾中的化学物质可能会引起呼吸道刺激。作为预防措施,国际监管机构要求公司对引起呼吸道刺激的化学物质进行分类和标注。例如,全球化学品分类和标签制度(GHS)将危险代码H335分配给可能引起呼吸道刺激的物质[2]。战斗区的军事人员面临来自各种化学物质(如亚当斯剂、二苯氯胂、二苯氰胂和氯)的独特风险[3]。这些物质以前被称为呕吐剂,它们可以引起呼吸道刺激以及其他症状(如流泪、打喷嚏、恶心和眼睛刺激)。因此,评估化学呼吸道刺激物对于保护平民和军事人员至关重要。
人类对呼吸道刺激物的风险评估通常是一个多步骤的过程,依赖于毒理学数据。第一步是危险识别,根据人类或动物暴露研究的数据以及从中毒控制中心报告、职业暴露事件或人类临床案例研究中收集的现实世界数据,确定某种化学物质是否会引起呼吸道刺激。第二步是暴露评估,估计人类接触呼吸道刺激物的程度,包括暴露的频率和持续时间以及化学物质的浓度和物理化学性质。第三步是设定安全的人类暴露水平。然而,由于人类数据有限,确定安全的人类指南往往依赖于动物数据的外推,这可能不准确且耗时耗资,因为不同物种在遗传学、代谢和解剖学方面存在差异。因此,尽管动物数据很有前景,但在人类试验中仍可能出现高失败率。为了减少对动物实验的依赖并简化化学风险评估方法,正在开发新的方法(NAMs),如体外测试和计算建模[4]、[5]。例如,定量结构-活性关系(QSAR)模型可以用于预测毒理学,提高化学风险评估的效率。
迄今为止,已经开发了几个用于预测人类呼吸道刺激的QSAR模型[1]、[6]、[7]。Fisher等人评估了已发布的QSAR模型在器官特异性预测毒理学(包括呼吸道毒性)方面的应用[8]。他们总结了已发布模型的局限性,并强调了修改现有器官特异性QSAR模型或开发新模型以满足工业和军事需求的必要性[8]。例如,RespiraTox模型在预测呼吸道刺激方面表现出高敏感性,但特异性相对较低,表明产生假阳性的可能性较高[1]。已发布的QSAR模型在器官特异性预测毒理学方面的另一个局限性是缺乏模型可解释性。虽然已发布的QSAR模型可能已经识别出有影响力的分子特征,但据我们所知,没有一个模型探索了SHAP分析来提供将这些特征与可能决定刺激潜力的物理化学性质联系起来的全局和局部解释。模型可解释性旨在使复杂模型更加透明,让用户了解模型是如何做出预测的。正如Jiménez-Luna等人报告的,模型可解释性方面有以下几个 desirable 特点:1)透明度,了解系统是如何得出特定答案的;2)合理性,阐明模型提供的答案为何是可接受的;3)信息性,为人类决策者提供新信息;4)不确定性估计,量化预测的可靠性[9]。
为了填补模型可解释性的知识空白,我们在本研究中开发了一个计算工作流程,将可解释的人工智能(XAI)方法整合到QSAR建模过程中,并使用它来创建可解释的QSAR模型,以预测化学物质引起的呼吸道刺激。我们通过结合不同的机器学习(ML)算法和分子表征方法开发并评估了多个QSAR模型,并应用了一种广泛使用的XAI方法——Shapley加性解释(SHAP)来解释QSAR模型的预测结果。SHAP是一种用于解释ML模型预测结果的XAI方法。基于博弈论,SHAP量化了每个输入特征对模型预测的贡献,从而实现了全局特征重要性和局部实例级解释。在本研究中,我们将SHAP应用于训练好的ML模型,以识别驱动呼吸道刺激预测的关键分子描述符和特征。我们的SHAP分析揭示了呼吸道刺激模型的内部工作原理,并提供了模型预测的全局和局部解释,提高了模型的透明度,并优先考虑了对模型预测贡献最大的关键分子描述符和特征。
材料与方法
我们开发了一个计算工作流程,用于构建可解释的QSAR模型,以预测化学物质引起的呼吸道刺激并解释模型的预测结果。图1展示了我们工作流程中的五个关键步骤,包括数据预处理、QSAR模型设计、QSAR模型训练、QSAR模型评估和QSAR模型解释。
数据处理与探索
我们从OCHEM网站检索了呼吸道刺激物数据。在对下载的数据应用我们的分子标准化流程后,我们获得了包含1,226种化学物质的精选数据集,其中617种是呼吸道刺激物,609种是非刺激物(图2A)。我们在补充图S1和S2中展示了示例呼吸道刺激物和非刺激物。我们使用Morgan指纹和PCA探索了所有1,226种化学物质的化学空间,并发现前50个主成分
讨论与结论
化学物质引起的呼吸道刺激是化学风险评估中的一个重要人类健康终点。目前,评估某种化学物质是否会引起人类呼吸道刺激需要通过动物实验来进行,这使得无法对大型二维化学库中的所有化学物质进行实验性评估呼吸道毒性。美国战争部以及美国环境保护署、美国食品药品监督管理局等监管机构
免责声明
本文中的观点和陈述仅代表作者个人观点,不应被视为国防卫生局、美国战争部、美国政府或Henry M. Jackson军事医学促进基金会的官方观点。分发声明A:允许无限分发。
伦理声明
本文中呈现的建模结果已经独立评估了其可重复性。
CRediT作者贡献声明
Pinyi Lu:撰写——审阅与编辑、撰写——初稿、正式分析、数据整理、概念化。Souvik Dey:撰写——审阅与编辑、概念化。Anders Wallqvist:撰写——审阅与编辑、资金获取、概念化。Mohamed Diwan M. AbdulHameed:撰写——审阅与编辑、概念化。
资助
本研究由美国陆军医学研究与发展司令部根据合同编号W81XWH20C0031和HT942524F0189以及国防威胁减少机构Grant CBCall14-CBS-05-2-0007资助。
利益冲突声明
作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号