《Archiv der Pharmazie-Chemistry in Life Sciences》:A Proteochemometric Model for Ligands of the SLC5 Transporter Family
编辑推荐:
本文推荐一篇关于SLC5转运蛋白家族抑制剂选择性研究的蛋白质化学计量学(PCM)模型论文。作者利用最新解析的SGLT2晶体结构(PDB: 7VSI),结合ChEMBL v30数据库的活性数据,开发了能够同时预测配体活性与选择性的机器学习模型。研究采用随机森林(RF)和梯度提升树(XGB)等集成算法,使用摩根指纹(Morgan fingerprints)和Z-scales分别表征配体与靶点特征,模型预测精度高(R2>0.8)。通过特征重要性分析,首次发现hSGLT2的Leu286残基可能是影响选择性的关键位点,并成功预测了empagliflozin对单点突变体结合亲和力的变化。该研究为SLC5家族选择性抑制剂的设计提供了新思路,模型以Jupyter Notebook形式公开,具有较高的理论与应用价值。
SLC5溶质载体家族与药物开发
SLC5溶质载体家族因其在多种疾病进程中的重要功能而成为药物研发的关注焦点。随着SGLT2(SLC5A2)结构与empagliflozin复合物晶体结构(PDB ID: 7VSI)的解析,研究者得以开发针对SLC5抑制剂的蛋白质化学计量学(Proteochemometric, PCM)模型,旨在揭示结合位点中驱动选择性的氨基酸残基。
数据准备与特征工程
研究从UniProt获取了人、小鼠、大鼠中已鉴定的30个SLC5基因,其中12个在ChEMBL v30中有活性数据。通过COBALT多序列比对和AlphaFold2结构叠合,最终选定16个结合位点可变残基用于PCM建模。活性数据经过严格清洗和标准化,剔除重复项、永久带电分子及存在序列空位的靶点(如RnSLC5A5、HsSLC5A7),最终获得2310个数据点,涵盖1734个独特分子和6个靶点(HsSLC5A1、HsSLC5A2、HsSLC5A4、RnSLC5A2、RnSLC5A1、HsSLC5A11)。数据集存在明显偏向,HsSLC5A2和HsSLC5A1的数据点占绝大多数(1276和983个),而其他靶点数据较少。
机器学习模型构建与性能比较
研究比较了支持向量机(SVM)、随机森林(RF)和梯度提升树(XGB)三种算法,配体特征采用物理化学描述符(49个)、摩根圆形指纹(半径2,2048位)和MACCS密钥。靶点特征使用代表氨基酸疏水性、立体和电子性质的Z3-scales编码。70/30的靶点分层划分后,模型性能以R2、均方误差(MSE)和10折交叉验证Q2评估。
结果显示,集成方法(RF和XGB)显著优于SVM。摩根指纹结合RF或XGB的模型表现最佳,测试集R2分别达0.80和0.83。模型对主要靶点(HsSLC5A1、HsSLC5A2)预测准确,但对数据稀有的靶点(如HsSLC5A4)预测波动较大。通过虚拟回归器(DummyRegressor)验证,模型鲁棒性良好(R2≈0)。异常值分析发现,多数强异常值(预测误差>2 pIC50单位)源于训练集中存在的活性悬崖(activity cliffs),如CHEMBL3288757(SGLT1高选择性抑制剂)与其位置异构体CHEMBL3660004(双靶点强效抑制剂)的结构微变导致活性巨大差异,摩根指纹对此类情况捕捉能力最佳。
关键结合位点残基的识别与验证
通过随机森林模型的特征重要性排序(基于杂质减少均值)和残基置换验证,确定了6个对模型性能至关重要的结合位点位置(按重要性降序):460(PDB 7VSI编号,对应COBALT MSA 488)、286(312)、95(106)、287(313)、157(168)、283(309)。其中,位置286(Leu286在hSGLT2中)的Z2-scale(立体性质)影响最为显著。仅使用这6个残基的模型性能(R2=0.80)与全残基模型相当。
生物学相关性方面,位置95(Val95)、157(Val157)、283(Leu283)已通过实验点突变验证(如V95I、V157A、L283M可显著降低empagliflozin对hSGLT2的抑制活性),而位置286(Leu286)为新发现的潜在选择性调控位点,其生物学意义有待实验证实。
模型在选择性预测与突变体应用中的表现
对测试集中278个具有多靶点活性的分子(330个数据点),模型选择性预测(ΔpIC50)表现良好:92%的预测差异在±1 pIC50单位内,R2=0.78。模型倾向于高估活性,这与ChEMBL数据集中低活性数据缺乏有关。作为概念验证,研究利用点突变口袋特征预测了empagliflozin对野生型及突变型hSGLT2(V95I、V157A、L283M)的活性,摩根指纹模型预测趋势与实验值一致(突变体活性降低),显示其用于虚拟突变筛选的潜力。
化学空间与模型应用域分析
UMAP降维显示,训练集与测试集化学空间覆盖良好,主要化学型为芳基取代糖类(A型)和二芳基取代吡唑(B型)。全数据集Tanimoto相似性普遍低于0.4,表明化学多样性足以支持选择性研究。模型适用于上述化学型范围内的配体活性与选择性预测。
结论与应用前景
本研究成功构建了高精度的SLC5家族抑制剂PCM模型,证实机器学习可有效识别调控选择性的关键残基。新发现的Leu286位点为选择性抑制剂设计提供了新靶点。模型能够准确预测跨靶点活性及点突变效应,虽在定量预测突变体活性方面需更多实验数据支持,但其框架已为SLC5家族药物研发提供了可靠的计算工具。所有模型代码以Jupyter Notebook形式公开,便于后续研究应用与拓展。