
-
生物通官微
陪你抓住生命科技
跳动的脉搏
量子化学几何优化水平对经典3D描述符和QSAR性能的影响:一项比较研究
《Journal of Cheminformatics》:How quantum-chemical geometry optimization level affects classical 3D descriptors and QSAR performance: a comparative study
【字体: 大 中 小 】 时间:2026年02月24日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究系统评估了八种量子化学几何优化方法对三维分子描述符(Dragon 3D)及抗癌活性QSAR模型的影响。结果表明,高精度DFT方法保持描述符空间一致性,但QSAR性能提升有限(<1-2%),且计算成本增加10-100倍。提出AER框架整合预测性能、计算效率和方法学考量,为实用方法选择提供依据。
准确表示三维(3D)分子结构对于定量结构-活性关系(QSAR)建模至关重要;然而,目前尚不清楚提高用于量子化学几何优化的理论水平是否会对经典构象依赖型3D描述符(如Dragon 3D)以及相应的QSAR性能产生实际意义上的改进。在这里,我们对比了八种常用的量子化学(QM)几何优化方法——从最小基组Hartree–Fock(HF/STO-3G)到基于def2的混合密度泛函理论(DFT)以及复合方法r2SCAN-3c——在三个抗癌活性数据集和十个机器学习分类器上的表现。描述符级别的分析(相对偏差、等级相关性和化学空间相似性)揭示了方法对描述符数值的系统性影响:高精度的基于def2的DFT方法产生的描述符空间具有高度一致性,而一些中等/低级别的设置则引入了较大的变异性,尽管分子排名仍然具有很强的稳健性(Spearman ρ > 0.95)。相比之下,下游的QSAR性能受QM水平的影响较小。在成对的数据集×模型块(n=30)中,平均平衡准确率紧密聚集在0.852–0.871之间。B3LYP/3-21G获得了最高的整体平均平衡准确率(0.8709;95%置信区间0.8565–0.8840),而HF/STO-3G的最低(0.8518;95%置信区间0.8371–0.8661);基于def2的B3LYP方法的准确率略低(约0.855–0.856)。重复测量综合测试表明方法效应在统计上是可检测的(Friedman p=0.006),但效应大小较小(Kendall’s W=0.094),经过Holm校正后的事后Wilcoxon检验仅识别出一个显著的成对差异(B3LYP/3-21G vs. HF/STO-3G,p_Holm=0.025)。因此,观察到的性能变化幅度很小(≤1–2%),与计算成本的10–100倍差异相比可以忽略不计。为了支持实际的方法选择,我们提出了一个两级绝对效率比(AER)框架,将预测性能与效率和方法学考虑相结合。总体而言,这些结果表明QM几何优化水平、经典3D描述符的保真度与QSAR性能之间的关系是非线性的且实际效果较弱,这表明QM水平的提升主要改变了描述符的值,但并未带来相应的或可操作的预测准确率提升。
准确表示三维(3D)分子结构对于定量结构-活性关系(QSAR)建模至关重要;然而,目前尚不清楚提高用于量子化学几何优化的理论水平是否会对经典构象依赖型3D描述符(如Dragon 3D)以及相应的QSAR性能产生实际意义上的改进。在这里,我们对比了八种常用的量子化学(QM)几何优化方法——从最小基组Hartree–Fock(HF/STO-3G)到基于def2的混合密度泛函理论(DFT)以及复合方法r2SCAN-3c——在三个抗癌活性数据集和十个机器学习分类器上的表现。描述符级别的分析(相对偏差、等级相关性和化学空间相似性)揭示了方法对描述符数值的系统性影响:高精度的基于def2的DFT方法产生的描述符空间具有高度一致性,而一些中等/低级别的设置则引入了较大的变异性,尽管分子排名仍然具有很强的稳健性(Spearman ρ > 0.95)。相比之下,下游的QSAR性能受QM水平的影响较小。在成对的数据集×模型块(n=30)中,平均平衡准确率紧密聚集在0.852–0.871之间。B3LYP/3-21G获得了最高的整体平均平衡准确率(0.8709;95%置信区间0.8565–0.8840),而HF/STO-3G的最低(0.8518;95%置信区间0.8371–0.8661);基于def2的B3LYP方法的准确率略低(约0.855–0.856)。重复测量综合测试表明方法效应在统计上是可检测的(Friedman p=0.006),但效应大小较小(Kendall’s W=0.094),经过Holm校正后的事后Wilcoxon检验仅识别出一个显著的成对差异(B3LYP/3-21G vs. HF/STO-3G,p_Holm=0.025)。因此,观察到的性能变化幅度很小(≤1–2%),与计算成本的10–100倍差异相比可以忽略不计。为了支持实际的方法选择,我们提出了一个两级绝对效率比(AER)框架,将预测性能与效率和方法学考虑相结合。总体而言,这些结果表明QM几何优化水平、经典3D描述符的保真度与QSAR性能之间的关系是非线性的且实际效果较弱,这表明QM水平的提升主要改变了描述符的值,但并未带来相应的或可操作的预测准确率提升。