
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于定量结构-活性关系(QSAR)的脂族气体化合物的PAC预测建模
《Toxicology and Environmental Health Sciences》:Predictive modeling of PAC for aliphatic gaseous compounds based on QSAR
【字体: 大 中 小 】 时间:2026年02月25日 来源:Toxicology and Environmental Health Sciences 1
编辑推荐:
本研究基于QSAR方法构建了GBDT、XGBoost、ERT和VR四种机器学习模型,预测烷基气体化合物的防护行动标准(PAC)。通过SHAP分析解释VR模型的可解释性,利用Williams图验证模型在应用领域的有效性。实验表明VR模型表现最优,R2达0.905,RMSE为0.333,验证了机器学习在PAC预测中的可靠性,为数据库补充和技术提升提供支持。
意外事故后有毒气体的释放对人类健康有重大影响,因此在短期内预测这些气体的浓度至关重要。在本研究中,我们利用定量结构-活性关系(QSAR)方法来预测脂肪族气体化合物的保护行动标准(PAC)。
收集了由美国能源部(DOE)发布的120种脂肪族气体化合物的数据集,并将其组织成样本集,同时绘制了各自的分子结构图。分别构建了梯度提升决策树(GBDT)模型、极端梯度提升(XGBoost)模型、极端随机树(ERT)模型和投票回归器(VR)模型来预测PAC。通过整合包括R2、MAE、RMSE、Qloo2、Qext2等性能参数来评估这些模型的表现。此外,还使用了Shapley加性解释(SHAP)方法来提高VR模型的可解释性,并利用Williams图来描述模型的应用范围。
VR模型表现出优异的性能。具体而言,VR模型在训练集和测试集上的R2值分别为0.902和0.905,相应的RMSE值分别为0.419和0.333;MAE值分别为0.204和0.272;训练集的Qloo2值为0.902,测试集的Qext2值为0.940。ShAP分析量化了各个分子描述符对VR预测的贡献。Williams图显示,GBDT模型、XGBoost模型、ERT模型和VR模型的超过95%的数据点都落在该应用范围之内,从而验证了它们在该应用场景下的预测能力。
本研究利用QSAR方法建立了GBDT、XGBoost、ERT和VR模型来预测PAC。这不仅为补充PAC毒性指数数据库奠定了基础,还为改进PAC毒性指数系统提供了坚实的理论和技术支持。
意外事故后有毒气体的释放对人类健康有重大影响,因此在短期内预测这些气体的浓度至关重要。在本研究中,我们利用定量结构-活性关系(QSAR)方法来预测脂肪族气体化合物的保护行动标准(PAC)。
收集了由美国能源部(DOE)发布的120种脂肪族气体化合物的数据集,并将其组织成样本集,同时绘制了各自的分子结构图。分别构建了梯度提升决策树(GBDT)模型、极端梯度提升(XGBoost)模型、极端随机树(ERT)模型和投票回归器(VR)模型来预测PAC。通过整合包括R2、MAE、RMSE、Qloo2、Qext2等性能参数来评估这些模型的表现。此外,还使用了Shapley加性解释(SHAP)方法来提高VR模型的可解释性,并利用Williams图来描述模型的应用范围。
VR模型表现出优异的性能。具体而言,VR模型在训练集和测试集上的R2值分别为0.902和0.905,相应的RMSE值分别为0.419和0.333;MAE值分别为0.204和0.272;训练集的Qloo2值为0.902,测试集的Qext2值为0.940。ShAP分析量化了各个分子描述符对VR预测的贡献。Williams图显示,GBDT模型、XGBoost模型、ERT模型和VR模型的超过95%的数据点都落在该应用范围之内,从而验证了它们在该应用场景下的预测能力。
本研究利用QSAR方法建立了GBDT、XGBoost、ERT和VR模型来预测PAC。这不仅为补充PAC毒性指数数据库奠定了基础,还为改进PAC毒性指数系统提供了坚实的理论和技术支持。