机器学习辅助虚拟筛选:发现具有TNF-α抑制潜力的小分子药物

《Journal of Molecular Structure》:Identification of Potential TNF-α Inhibitory Drugs through Machine Learning-assisted Virtual Screening

【字体: 时间:2026年03月21日 来源:Journal of Molecular Structure 4.7

编辑推荐:

  针对当前TNF-α抑制性生物制剂存在成本高、免疫原性强等问题,研究人员开展了利用机器学习(ML)辅助虚拟筛选新型小分子TNF-α抑制剂的研究。他们成功筛选出两种化合物(CID10207/CID2361)具有显著抑制活性,并通过分子动力学(MD)模拟及体外细胞实验验证了其结合稳定性与抗炎潜力。该研究为开发下一代靶向TNF-α的抗炎及自身免疫疾病药物提供了新策略。

  
在我们的身体里,免疫系统如同一支训练有素的军队,时刻警惕地防御着外来入侵者。然而,这支军队有时也会“反应过度”或“敌我不分”,攻击自身的健康组织,从而导致一系列难以治愈的炎症和自身免疫性疾病,如类风湿关节炎、银屑病、克罗恩病等。在这些疾病的“风暴眼”中,一个名为肿瘤坏死因子-α(Tumor necrosis factor-α, TNF-α)的细胞因子扮演着关键角色。它本是免疫反应的正常信号分子,但一旦过度表达,就会掀起过度的炎症风暴,驱动疾病的发生与发展。
目前,临床上用来“平息”这场风暴的主要武器是靶向TNF-α的生物制剂,例如阿达木单抗(adalimumab)、英夫利西单抗(infliximab)等。这些药物虽然有效,但自身也带有不少“软肋”:生产成本高昂、需要注射给药、可能引发免疫反应等。因此,科学家们一直在寻找一种更理想的替代方案——能够口服、更稳定、成本更低的小分子TNF-α抑制剂。遗憾的是,尽管研究热度不减,但截至目前,临床上尚无高效的小分子TNF-α抑制剂上市。传统的药物发现方法如同大海捞针,既耗时又耗力。幸运的是,人工智能(AI)的浪潮为药物研发带来了革命性的工具。机器学习(Machine Learning, ML)能够从海量数据中学习规律,快速、精准地预测化合物的活性,极大地加速了“寻针”的进程。
在此背景下,Shuning Diao、Shengzhen Hou、Yuxiang He、Taiying Li、Wenhui Meng和Jinping Zhang等研究人员在《Journal of Molecular Structure》上发表了一项研究,他们巧妙地结合了机器学习的预测能力和传统的计算机模拟技术,开展了一次高效的新型TNF-α小分子抑制剂“大搜寻”。他们的目标很明确:利用人工智能的“火眼金睛”,从成千上万的化合物库中,快速锁定那些最有潜力抑制TNF-α的“种子选手”,并通过实验验证,为下一代抗炎药物的开发铺路。
为了达成这一目标,研究者们采用了一套整合了前沿计算与经典实验技术的“组合拳”。其核心流程是:首先,从ChEMBL数据库获取已知的TNF-α抑制剂数据集,并利用随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)和XGBoost三种机器学习算法,基于分子指纹(如ECFP和MACCS)构建预测模型,以区分化合物的活性。接着,利用表现最佳的模型对包含2910个化合物的中药单体库(TargetMol)进行虚拟筛选,初筛出高活性候选分子。然后,对筛选出的化合物进行分子对接(Molecular Docking),预测其与TNF-α蛋白(PDB ID: 1TNF)的结合模式与亲和力。此后,对排名靠前的化合物进行体外活性测定(Activity Assay),计算其半数抑制浓度(IC50)。最后,对最具潜力的化合物进行分子动力学(Molecular Dynamics, MD)模拟,评估复合物在100纳秒模拟时间内的稳定性(通过RMSD、RMSF、RoG等指标),并计算结合自由能(MM-PBSA)。整个研究的有效性最终通过体外细胞实验(使用HCT116细胞和CCK-8试剂盒)进行了验证。
3.1. 化学空间与活性化合物的分布
研究人员首先对用于训练模型的参考数据集进行了化学空间分析。他们发现,数据集中的化合物大多为分子量在500道尔顿(Da)左右的小分子,其脂水分配系数(LogP)值主要分布在0到5之间。符合类药五规则(Lipinski's Rule of Five)经验的活性化合物,其分子量更接近500 Da,LogP值更频繁地出现在0到3之间。这表明数据集具有一定的多样性和类药性,为构建可靠的机器学习模型奠定了基础。
3.2. 模型性能评估与分析
研究比较了RF、SVM和XGBoost三种模型在ECFP和MACCS两种分子指纹下的表现。评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score)、马修斯相关系数(MCC)和曲线下面积(AUC)。结果显示,基于ECFP指纹的随机森林(RF)模型在多项指标上表现最优,其准确率达到89.9%,AUC值为0.959,被确定为用于后续虚拟筛选的最佳模型。
3.3. 虚拟筛选
利用优化后的RF模型,研究人员对2910个化合物进行了虚拟筛选。首先以0.5为阈值初筛出932个活性化合物,为进一步聚焦,再以0.85为阈值进行二次筛选,最终得到89个高活性候选化合物,用于后续的分子对接验证。
3.4. 分子对接分析
将这89个化合物与TNF-α蛋白进行分子对接,并根据对接评分进行排序。对接评分(Docking Score)越低,表明配体与受体的结合亲和力可能越强。研究选取了评分最高的六个化合物进行深入分析,它们分别是CID5245667、CID442088、CID9817839、CID65752、CID2361和CID10207。其中,CID5245667获得了最佳的对接评分(-10.309 kcal/mol)。对接相互作用分析显示,这些化合物能够与TNF-α活性位点的关键氨基酸(如GLN102、SER99、TYR115、GLU104等)形成氢键和疏水相互作用。尤其值得注意的是,化合物CID10207与活性位点形成了多达7个氢键,显示出极强的极性相互作用潜力。此外,通过将候选化合物与已知的TNF-α抑制剂(如SPD304、BMS-561392)的结合构象进行叠合,发现它们完全重叠在相同的结合口袋中,这从结构上证明了筛选结果的合理性。
3.5. 活性测定
为验证计算预测,研究对上述六个化合物进行了体外TNF-α抑制活性测定,并以阿达木单抗(adalimumab)作为参照。结果发现,在测试的浓度范围内,仅有CID2361(β-萘黄酮)和CID10207(芦荟大黄素)在高浓度下表现出显著的抑制活性,其抑制率曲线呈现剂量依赖性上升。而其他四个化合物在几乎所有测试浓度下的抑制率均低于20%,效果不理想。因此,CID2361和CID10207被确定为通过活性测定的候选化合物。
3.6. MD分析
为了在动态环境下评估CID2361和CID10207与TNF-α复合物的稳定性,研究进行了为期100纳秒的分子动力学模拟。通过分析均方根偏差(RMSD)、均方根波动(RMSF)、回转半径(RoG)和氢键数量等关键参数,发现两个复合物在模拟过程中均能达到相对稳定的构象,但CID10207复合物表现出更好的整体稳定性。其RMSD和RoG值在模拟后期收敛更快、波动更小。同时,CID10207在整个模拟过程中平均保持了更多的氢键(约3个),而CID2361主要依靠疏水相互作用,平均仅维持约1个氢键。这些动态分析结果表明,CID10207与TNF-α的结合可能更加稳定。
结合自由能计算(MM-PBSA)结果也支持这一结论,CID10207的结合自由能(-13.03 ± 0.23 kcal/mol)低于CID2361(-9.50 ± 0.22 kcal/mol),表明前者与靶点的结合在热力学上更有利。
3.7. 细胞实验
最后,研究通过CCK-8细胞实验在细胞水平验证了这两种化合物的抗TNF-α活性。使用HCT116细胞系,实验设置了对照、TNF-α处理以及不同浓度候选化合物与TNF-α共处理等组别。结果显示,与单独TNF-α处理组相比,用CID10207或高浓度(1 μM, 10 μM)的CID2361处理的细胞,其相对存活率显著升高。这表明这两种化合物能够拮抗TNF-α对细胞的促凋亡作用,从而在功能上证实了它们对TNF-α的抑制活性。
研究结论与意义
本研究成功地构建了一套高效的机器学习辅助虚拟筛选流程,并将其应用于发现新型TNF-α小分子抑制剂。通过整合随机森林模型预测、分子对接、活性测定、分子动力学模拟和细胞实验验证,研究团队从2910个化合物中精准定位出两个具有显著抑制潜力的先导化合物:芦荟大黄素(Aloe emodin, CID10207)和β-萘黄酮(Beta-Naphthoflavone, CID2361)。计算模拟表明,两者均能稳定结合于TNF-α的活性位点,且CID10207的结合更为稳定。体外实验进一步证实,两者,尤其是高浓度下,能够有效抑制TNF-α的生物学活性。
这项研究的意义在于,它不仅为炎症和自身免疫性疾病的治疗提供了两个有开发前景的候选药物分子,更重要的是,它展示了一种现代化、高效率的药物发现范式。即利用人工智能技术快速从海量化合物中“淘金”,再通过多层次的计算与实验验证进行“精炼”,从而大幅缩短研发周期、降低研发成本。这为未来针对TNF-α以及其他重要靶点的小分子药物研发提供了可借鉴的技术路线和策略。当然,研究者也指出,未来研究需关注数据偏差、模型过拟合、以及化合物潜在的脱靶效应和毒性等问题。但毋庸置疑,这项工作为开发下一代口服有效、成本更低的抗炎药物点燃了新的希望。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号