KidneyTox_v1.0：基于可解释人工智能的小分子肾毒性预测新工具

《Scientific Reports》：KidneyTox_v1.0 enables explainable artificial intelligence prediction of nephrotoxicity in small molecules

【字体：大中小】 时间：2026年01月14日 来源：Scientific Reports 3.9

编辑推荐：

　　本文针对药物研发中肾毒性预测难题，研究团队开发了名为KidneyTox_v1.0的可解释人工智能平台。该研究通过分析565个小分子的化学空间，构建了优化的随机森林分类器模型（测试集准确度0.841），并结合qRASAR方法建立了预测性能良好的模型。平台集成SHAP可视化技术，能够直观展示分子描述符对肾毒性预测的贡献度，为药物早期安全性评价提供了可靠的计算工具。

药物研发过程中，肾毒性（nephrotoxicity）一直是导致候选药物失败的重要原因之一。肾脏作为人体重要的排泄器官，由于其特殊的生理功能——过滤废物、重吸收有用物质以及维持体内环境稳定，使得它特别容易受到各种化学物质及其代谢产物的损伤。传统的肾毒性评价方法主要依赖体外细胞实验和体内动物模型，这些方法不仅耗时耗力，而且成本高昂，更重要的是，它们并不总能准确预测药物在人体中的真实反应。

在当前药物研发领域，如何早期准确预测化合物的肾毒性风险，成为降低药物研发失败率、节约开发成本的关键科学问题。虽然计算毒理学方法特别是人工智能（AI）技术为这一难题提供了新的解决思路，但现有模型往往存在可解释性差、适用范围有限等问题，难以满足实际药物设计的需求。

在这项发表于《Scientific Reports》的研究中，来自意大利萨莱诺大学和美国基恩大学的研究团队开发了一个名为KidneyTox_v1.0的创新平台。该研究团队收集了565个具有明确肾毒性实验数据的小分子化合物（287个有毒，278个无毒），通过系统的化学信息学分析和机器学习建模，建立了一个高精度且可解释的肾毒性预测工具。

研究人员首先对数据集的化学空间进行了全面分析，发现这些化合物在脂水分配系数（LogP）、分子量（MW）、氢键受体（HBA）、氢键供体（HBD）、环系统数量（nRings）和可旋转键数量（nRB）等理化性质上表现出良好的多样性。平均LogP值为1.81，表明大多数分子具有中等亲脂性；平均分子量为416.87，属于中小型分子；平均含有约6个氢键受体和3个氢键供体。这种化学空间的广泛覆盖为构建稳健的预测模型奠定了坚实基础。

通过指纹辅助的骨架多样性分析，研究团队使用Fasda_v1.0工具将化合物划分为5个化学相似性簇群。每个簇群都显示出高度的结构多样性，单例骨架比例均超过70%，其中簇群0的单例比例高达85.7%，簇群4达到89.9%。这种高度的结构多样性确保了模型能够适应广泛的化学结构类型。

在机器学习模型构建方面，研究团队采用了Mordred描述符计算分子特征，经过特征选择后，使用Optuna优化的随机森林分类器（RFC）进行建模。最优模型参数为：n_estimators=60，max_depth=24，min_samples_split=13，min_samples_leaf=2。该模型在训练集上准确度达到94.25%，在独立测试集上准确度为84.1%，精确度、召回率和F1分数均为0.830，显示出优秀的预测性能。

研究的一个重要亮点是引入了可解释人工智能（XAI）技术。通过SHAP（SHapley Additive exPlanations）分析，研究人员能够明确各个分子描述符对预测结果的贡献度。研究发现，BCUT描述符（如BCUTs-1h）、自相关描述符（如AXp-2d）和拓扑描述符（如SpMax_A）等在肾毒性预测中起着关键作用。例如，较高的BCUTs-1h值（反映原子电负性）通常与肾毒性正相关，而较高的SpMax_A值（反映拓扑极化率）则与无毒预测相关。

同时，研究团队还开发了定量读穿结构-活性关系（qRASAR）模型，将相似性和误差度量的描述符与传统QSAR方法结合。在三种核函数（欧几里得、高斯和拉普拉斯）中，基于欧几里得核的简化模型（EUC-Selected）表现最佳，仅使用三个误差描述符（MaxWtSim、MaxNeg和Banerjee-Roy系数）就达到了0.7568的测试准确度，在预测性能和可解释性之间取得了良好平衡。

主要技术方法

研究采用化学信息学与机器学习相结合的策略：使用RDKit工具包计算基本理化描述符；通过Fasda_v1.0平台进行指纹辅助骨架多样性分析；采用Mordred描述符计算分子特征；应用重复随机分层抽样将数据集分为80%训练集和20%测试集；利用Optuna进行随机森林超参数优化；基于SHAP技术实现模型可解释性分析；开发Streamlit网络应用程序构建用户交互界面。

化学空间分析结果

通过对565个化合物的六项分子性质分析，研究发现数据集覆盖了广泛的化学空间。化合物LogP值从-20.60（最强亲水性）到9.16（最强亲脂性），分子量从59.04到4491.95，表明数据集包含了从小分子到较大分子的多样化结构。芳香环数量分析显示，大多数分子含有1-2个芳香环，仅有少数分子含有超过6个芳香环。这些分析为模型的实际应用范围提供了重要参考。

机器学习模型性能

经过50次不同的训练-测试分割验证，最优的随机森林模型在测试集上表现出稳健的预测能力。与另外10次替代分割构建的模型相比（准确度0.673-0.796），选定模型性能最优。适用域分析确定了四个测试集化合物（119、171、200、352）为异常值，这些化合物在关键描述符上表现出与主要数据集明显不同的特征。

描述符解释与机制关联

SHAP分析揭示了分子描述符与肾毒性之间的潜在机制联系。例如，原子电负性相关的描述符（如BCUTs-1h）的高值通常推动预测朝向毒性类别，这可能反映了电负性原子在肾脏中促进反应性代谢物形成或影响肾小管积累的能力。而拓扑极化率（SpMax_A）的高值则常与无毒预测相关，可能与分子柔性和分布特性有关。

qRASAR模型比较

在六种qRASAR分类模型中，基于欧几里得核的简化模型在保持可解释性的同时实现了合理的预测性能。该模型仅使用三个误差描述符，体现了qRASAR方法在特征精简方面的优势，为监管环境下的应用提供了透明且可解释的预测框架。

平台功能实现

开发的KidneyTox_v1.0网络平台允许用户通过输入SMILES字符串或直接绘制分子结构来获取肾毒性预测结果。平台不仅提供二元分类预测（有毒/无毒），还提供适用域分析、SHAP瀑布图可视化以及与数据集中最相似化合物的比较信息，大大增强了结果的可解释性和实用性。

研究结论表明，通过整合化学空间分析、机器学习和可解释AI技术，KidneyTox_v1.0平台为药物研发中的肾毒性早期预测提供了可靠工具。该研究不仅建立了高精度的预测模型，更重要的是通过可解释性分析揭示了分子结构特征与肾毒性之间的潜在关系，为合理药物设计提供了理论指导。平台的开源特性（代码和数据集在GitHub公开）和用户友好界面使其能够广泛应用于药物发现社区，有望在降低药物研发失败率、提高药物安全性方面发挥重要作用。

研究的创新之处在于将先进的机器学习技术与化学解释性深度融合，克服了传统黑盒模型的局限性。未来，随着更多肾毒性数据的积累和模型的持续优化，KidneyTox平台有望成为药物安全性评价领域的重要工具，为设计更安全的药物分子提供科学依据。

热点排行