《Pharmaceuticals》:A Data-Driven Approach for Interpretable and Efficient Predictive Modeling: A Case Study in SARS-CoV-2 Protease Inhibitor Discovery Through Feature Selection
Branislav Stankovi?,
Sang-Yong Oh and
Du?an Ramljak
编辑推荐:
本研究针对当前SARS-CoV-2主蛋白酶抑制剂发现过程中,传统化学信息学模型在鲁棒性、可解释性与计算效率方面的挑战,提出并验证了一种数据驱动的研究框架。研究人员通过结合FeatureWiz算法与逐步特征选择方法,对分子描述符进行优化筛选,并基于二维描述符与普通最小二乘法回归成功构建了高效的预测模型。结果显示,该方法不仅满足了现有先进模型的所有评价标准,所构建的模型在外部验证中也表现出色,为药物发现提供了兼具高透明度和计算效率的新工具,有助于加速COVID-19及相关疾病的抗病毒疗法开发。
2019年底爆发的SARS-CoV-2引发了一场全球性的COVID-19大流行,尽管疫苗迅速部署,但新发感染、病毒变异以及特定人群对疫苗的安全性和有效性顾虑,凸显了持续开发有效治疗药物的迫切需求。病毒的生命周期依赖多种关键酶,其中3-糜蛋白酶样蛋白酶是一个核心靶点,它由约306个氨基酸组成,在病毒复制和转录中不可或缺,其底物识别口袋在所有冠状病毒中高度保守,是研发广谱抗病毒药物的理想靶标。然而,传统药物发现过程耗时漫长、成本高昂,如何快速、高效地从海量化合库中筛选出具有潜力的候选分子,是药物化学家面临的巨大挑战。
计算化学方法,特别是定量构效关系建模,为此提供了一条捷径。它通过建立化合物分子结构与其生物活性之间的定量关系,能够预测未知化合物的活性,从而大幅加速先导化合物的发现与优化。随着机器学习的兴起,数据驱动的方法能够处理更大规模、更复杂的化学数据集,挖掘出非线性、高维的模式关联。然而,一个优秀的QSAR模型,不仅需要预测准确,还需满足模型的可解释性、鲁棒性以及计算的高效性,以便为药物设计决策提供清晰、可靠且易于实施的洞见。这正是当前许多模型所面临的短板。
为此,一篇发表于《Pharmaceuticals》的研究提出并验证了一个旨在解决上述难题的创新框架。该研究专注于开发一个鲁棒、高度可解释且计算高效的预测模型,并以发现SARS-CoV-2主蛋白酶抑制剂为具体案例进行演示。其核心目标是建立一套透明、可复现的方法论,通过系统评估多种描述符筛选技术,来识别能够满足现代化学信息学模型所有评价标准的最佳方案。研究人员利用来自CHEMBL数据库的分子进行模型训练与测试,并使用一个外部化合物集进行了独立验证,确保了模型的泛化能力。
为开展此项研究,作者们主要应用了以下关键技术方法:首先,从初始包含1613个二维分子描述符的数据集中,结合文献中的两个量子化学描述符,并排除了非数值或缺失值,得到969个描述符用于后续分析。研究核心是特征选择流程,他们系统地比较了包括遗传算法、递归特征消除、顺序特征选择、SelectKBest在内的多种方法,并重点评估了一种组合策略,即先使用FeatureWiz算法进行初步筛选,再采用逐步特征选择法进行优化。模型构建则主要基于透明且高效的普通最小二乘法回归,以二维分子描述符为基础,旨在获得高解释性的线性模型。最后,利用训练集、测试集和独立的外部验证集,对模型的预测性能、稳定性和泛化能力进行了综合评估。
2. 结果与讨论
2.1. 模型评估
研究人员首先在SlogP(辛醇/水分配系数对数值)与分子量的简化的理化性质空间中分析了训练、测试及外部验证集中的分子分布。显示,三个数据集的化合物覆盖了相似的化学空间,外部验证集的覆盖范围略广,这保证了模型能适用于预测新结构类型的化合物活性。
2.2. 模型选择与验证
在描述符选择方面,研究发现3D描述符虽然信息丰富,但计算耗时且易产生误差。相比之下,2D描述符因其计算高效和与化学结构直接关联,在决策场景中更具优势。研究评估了多种特征选择方法,发现遗传算法构建的模型未能通过QUIK规则检验,而递归特征消除、顺序前向选择与SelectKBest等方法构建的模型虽然满足基于指标的评价标准,但只有在使用了FeatureWiz算法与逐步选择相结合的方法后,才得到了最优的模型,并有效缓解了多重共线性问题。引人注目的是,之前研究中报道的两个量子化学描述符并未被选中,表明它们可能在应用于更大数据集时效果有限。最终,研究呈现了三个基于不同相关性阈值(0.99和0.85)筛选出的OLS回归模型,其中模型2包含了模型1中14个描述符里的10个,表明描述符数量对模型性能有重要影响。模型基于二维描述符和OLS回归取得了最佳的整体结果。
结论与重要意义
这项研究成功开发并验证了一个用于药物发现(特别是SARS-CoV-2主蛋白酶抑制剂发现)的鲁棒、可解释且计算高效的预测建模框架。其核心贡献在于,通过严格比较多种特征选择技术,证实了将FeatureWiz算法与逐步特征选择相结合的方法是唯一能满足当前化学信息学模型所有评价标准的方法。研究得出结论,基于二维分子描述符和普通最小二乘法回归的模型在预测性能、解释性和计算效率方面达到了最佳平衡。该框架及其衍生模型,因其固有的透明性和高效性,在决策支持环境中具有显著优势。它们可作为有效、透明的工具,用于生物活性的快速、可靠预测,为抗击COVID-19以及加速其他治疗方案的开发提供了一个经过验证的数据驱动决策基础。此外,该研究的一个重要实践成果是,建议将这些模型整合到高通量筛选流程中,从而进一步提升早期药物发现的效率。这项工作强调了在数据驱动的药物发现中,构建简单、透明模型的重要性,遵循了“奥卡姆剃刀”原则,证明了简约模型在提供可与复杂模型媲美甚至更优的预测性能的同时,更能促进信任、可重复性和监管接受度。