优化抗疟疾药物发现：一种基于集成分类器和过采样策略的鲁棒机器学习框架，用于查尔酮类化合物生物活性的预测

《Scientific African》：Optimizing Antimalarial Discovery: A Robust Machine Learning Framework for Chalcone Bioactivity Prediction Using Ensemble Classifiers and Oversampling Strategies

【字体：大中小】 时间：2026年05月10日 来源：Scientific African 3.3

编辑推荐：

　　**Beatrice Nkiruka Iwuala | Mark Madumelu | Abubakar Babando Aliyu | Racheal Gbekele-Oluwa Ayo | Asmau Nasiru Hamza | James Dama Habila**
**化学系**
**Ahmadu Bello大学**
**扎里亚，尼日利亚**

**摘要**
耐药性恶性疟原虫（Plasmodium falciparum）的迅速出现，迫切需要高效的计算工具来优先评估新型抗疟疾化合物的潜力。本研究提出了一个强大的机器学习框架，用于预测查尔酮（chalcone）衍生物的生物活性，特别解决了定量结构-活性关系（QSAR）建模中数据集不平衡的问题。在包含251种查尔酮的精选数据集上，系统评估了1,440种模型组合，这些组合涵盖了十二种分类算法、十二种分子指纹类型和三种采样策略。结果表明，ExtraTreesClassifier结合KlekotaRothCount分子指纹和过采样策略，能够实现卓越的预测性能（MCC = 1.0；独立测试集准确率 = 100%），显著优于传统方法。特征重要性分析显示，含氮杂环和特定的芳香结构是抗疟活性的主要决定因素。与以往的研究不同，这些发现支持了过采样有助于在小而不平衡的化学数据集中稳定模型性能的观点。这些发现为下一代抗疟疾药物的理性设计提供了经过验证的高精度计算工具。

**引言**
疟疾的全球负担仍然是一个重大的公共卫生紧急问题，2024年估计有2.82亿病例和61万人死亡，主要影响撒哈拉以南非洲地区的人口[21]。耐药性恶性疟原虫菌株的出现和快速传播严重削弱了现有抗疟疗法（包括青蒿素为基础的联合治疗）的效果，因此迫切需要开发具有更强活性和更低耐药性的新疗法[7]。
计算方法，特别是基于机器学习的定量结构-活性关系（QSAR）建模，已成为加速抗疟化合物发现和优化的经济有效且高效的策略[15]。与传统的高通量筛选不同，QSAR模型能够在昂贵的合成和实验验证之前，快速从大型虚拟库中筛选出候选分子，大大减少了早期发现过程所需的时间和资源[12]。机器学习分类方法通过在合成和实验验证之前快速评估化合物的生物活性潜力，彻底改变了药物发现的方式[6]。机器学习分类器已成功应用于多个抗疟靶点类别：深度学习和随机森林模型已被用于识别恶性疟原虫二氢羟基草酸脱氢酶（PfDHODH）的抑制剂，这是血型疟疾的一个验证靶点[12,19]。极端梯度提升（XGBoost）、相关性向量机（RVM）、支持向量机（SVM）、Cubist和人工神经网络（ANN）模型在预测恶性疟原虫蛋白激酶6（PfPK6）抑制剂方面表现出强大的预测能力[4]。
查尔酮衍生物因其α,β-不饱和羰基系统连接两个芳香环而成为抗疟药物发现的宝贵骨架，它们具有多样的生物活性、易于合成且可进行结构修饰[17]。多种查尔酮类似物在体外表现出亚微摩尔级的抗P. falciparum活性[10,18]，其结构简单性使其适合通过基于QSAR的设计进行系统优化[11]。然而，从大型化学库中系统识别活性查尔酮变体在计算和实验上都非常耗时，因此推动了预测计算模型的发展。
QSAR分类建模中一个关键且常被忽视的瓶颈是类别不平衡：生物活性数据集通常包含的非活性化合物远多于活性化合物，因为生物筛选自然会产生大量的阴性结果。如果不加以解决，这种不平衡会使分类器偏向多数类，导致模型整体准确率较高，但对药理上相关的活性少数类的敏感性较低。重新采样策略（包括对少数类进行过采样、对多数类进行欠采样或合成样品生成）被广泛推荐用于缓解这种偏差，但它们对不同分子表示和算法家族的预测稳定性的影响尚未得到严格研究。
选择合适的分子表示（指纹）和分类算法是影响模型预测性能和可解释性的关键决策点[12]。先前比较不同指纹类型的研究表明，基于药效片段的指纹（如Klekota-Roth、Substructure）在生物活性分类方面通常优于简单的拓扑描述符，但尚未有研究针对查尔酮抗疟药物系统地量化这些效果。此外，采样策略对基于查尔酮骨架构建的模型预测稳定性的具体影响也尚未明确。
本研究通过全面评估十二种分类算法与十二种分子指纹在三种采样技术（正常、过采样、欠采样）结合使用的情况，系统地解决了这些知识空白，这些算法和指纹应用于包含251种查尔酮化合物的精选数据集，这些化合物的抗疟活性已通过实验确定。这一全面的评估框架涵盖了1,440种模型组合，有助于识别最佳的算法-指纹组合，并为开发稳健的抗疟查尔酮发现预测模型提供基于证据的建议。

**材料与方法**
**数据集准备和预处理**
使用了包含251种查尔酮衍生物的综合性数据集，这些衍生物的抗疟活性已得到验证[9]，Iwuala等人报告了详细的数据收集和整理过程。二分类基于已发表的抗疟筛选研究中确定的活性阈值，将化合物分为活性化合物（pIC?? ≥ 6.0，占少数，n = 55，21.9%）和非活性化合物（pIC?? < 5.0，占多数，n = 196，78.1%），活性与非活性化合物的比例约为1:3.5[9]。该数据集存在显著的类别不平衡，这是QSAR建模中众所周知的挑战，标准分类器往往偏向多数类，导致对活性少数类的敏感性较低，而在药物发现应用中这一类化合物的成本最高。在生成分子描述符之前，系统检查了数据集的类别分布，并通过删除重复条目、验证化学结构、标准化结构表示和去除中间化合物来确保数据质量[9]。

**数据平衡策略**
为解决这种不平衡问题，在生成任何分子指纹之前，直接对化合物集应用了三种不同的数据平衡方法（正常/不平衡、过采样和欠采样）。首先进行训练集-测试集划分（70%/30%），然后仅将平衡策略应用于训练集，确保独立测试集在整个评估过程中保持其原始的未修改类别分布。随后在平衡的训练集和未修改的测试集上生成分子描述符。

**正常采样（不平衡）**：化合物被随机分配到训练集（70%）和测试集（30%），不改变类别分布，从而保留原始数据结构，但可能引入对多数非活性类的分类偏差。

**过采样**：随机复制少数类（活性）化合物，使其与多数类（非活性）化合物的比例达到1:1，增加训练数据集的大小同时保留所有原始信息，而不引入合成示例。这种方法在保持真实分子数据的同时平衡了类别表示。

**欠采样**：随机去除多数类（非活性）化合物，使其与少数类（活性）化合物的比例达到1:1，减少总训练数据量。这种方法消除了数据冗余，但有可能丢失有关非活性类特征的宝贵信息。

**图1**
下载：高分辨率图像（169KB）
下载：全尺寸图像
图1. 平衡前后的类别分布

**分子描述符生成**
使用PaDEL（Padua Descriptor Extractor Library）软件开发了十二种分子指纹，涵盖了分子结构的多个方面：
1. **结构指纹**：Substructure、MACCS Keys、PubChem
2. **基于计数的指纹**：AtomPairs2DCount、KlekotaRothCount、SubstructureCount和Estate（计数频率信息）
3. **CDK变体**：CDK（标准）、CDK扩展（综合特征）和CDK Graph-only（拓扑特征）
4. **二进制指纹**：AtomPairs2D和KlekotaRoth
每种指纹编码了分子结构的不同方面，二进制表示指示分子特征的存在与否；基于计数的变体捕获特征频率信息，而CDK变体强调拓扑或扩展属性。这种多样性使能够全面评估分子表示对分类性能的影响。

**分类算法**
评估了十二种属于五个主要算法家族的分类算法：
1. **基于树的集成方法（5种）**：ExtraTreesClassifier、RandomForestClassifier、ExtremeGradientBoostingClassifier（XGBC）、LightGradientBoostingMachineClassifier（LightGBM）和GradientBoostingClassifier
2. **概率方法（3种）**：QuadraticDiscriminantAnalysis、GaussianProcessClassifier和GaussianNaiveBayes
3. **基于核的方法（1种）**：Support Vector Classifier（SVC）
4. **基于实例的方法（1种）**：K-Nearest Neighbors（k-NN）
5. **神经网络方法（1种）**：Multi-Layer Perceptron（MLP）
算法的多样性使得可以评估不同数学方法在分子分类中的表现，特别是每种方法在药物发现应用中的优势/劣势。

**模型评估指标**
使用多种互补指标全面评估了分类性能：
- **Matthews相关系数（MCC）**：考虑了真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）的平衡指标；范围从-1（完全不一致）到+1（完全一致）。MCC能够不受类别不平衡的影响提供可靠的性能评估。
- **准确率（Ac）**：正确预测的比例。
- **敏感性（True Positive Rate）**：正确识别为活性的化合物的比例。
- **特异性（True Negative Rate）**：正确识别为非活性化合物的比例。

**评估过程**
在训练集、交叉验证（5折）和独立测试集上系统地进行评估，以评估模型性能、泛化能力和过拟合指标（通过通用差距ΔMCC = MCC_train - MCC_test）[9]。
使用Friedman的非参数检验评估了采样策略对所有指标的影响，并使用Nemenyi事后检验进行成对比较（显著性阈值：p < 0.05）。
为了评估模型性能是否受训练集和测试集化合物结构相似性的影响，使用Bemis-Murcko骨架进行额外验证。所有251种查尔酮使用RDKit分配了Murcko骨架，共得到60个独特的骨架。骨架专门分配给训练集（44个骨架）或测试集（16个骨架），确保两个集合之间没有骨架重叠。在考虑到骨架分配的情况下，重新训练并评估了带有过采样的ExtraTreesClassifier。

**最优模型选择和性能排名**
对于每种算法-指纹-采样组合（共1,440种），计算了综合加权分数以确定最佳表现者：
WeightedScore = 0.3×(MCC_train) + 0.4×(MCC_cv) + 0.3×(MCC_test)
权重平衡了交叉验证性能（40%）和测试泛化能力，训练性能和测试性能各占30%的权重。这种加权方案对过拟合进行惩罚，同时奖励泛化能力强的组合。得分最高的组合（加权分数 > 0.998）被选中进行详细分析和机制解释。

**适用性领域和化学空间可视化**
评估了开发模型的适用性领域（AD），以验证独立测试集化合物是否位于训练集定义的结构空间内，符合OECD原则3。对标准化的KlekotaRothCount指纹矩阵进行了主成分分析（PCA），提取了前三个主成分（PC1、PC2、PC3）以降低维度。使用Python中的Matplotlib库生成了组件得分的散点图，通过绘制前三个组分的成对组合（PC1 vs. PC2、PC1 vs. PC3、PC2 vs. PC3）来可视化化学空间分布。数据点用颜色区分训练集（绿色）和独立测试集（红色），并应用透明度（alpha = 0.2）来可视化点密度和重叠情况。
为了提供超出视觉检查的适用性领域的统计验证，对训练集和测试集的PC1得分分布进行了双样本Kolmogorov-Smirnov（KS）检验和Mann-Whitney U（MW）检验。

**数据可用性和代码可用性**
包括所有代码、训练模型、详细超参数规格、原始结果和补充分析的完整可复制信息在GitHub仓库中公开：
https://github.com/correctchemist/ML-antimalarial-chalcone-prediction.git

**结果**
对三种采样方法的系统评估显示，在分类性能和模型稳定性方面存在显著差异（图2、图3、图4）。热图（图2）显示了不平衡（正常）方法在训练集、交叉验证和测试集上的Matthews相关系数（MCC）值。模型在训练集上的准确率接近1.0，但在交叉验证和测试集上的性能下降。值得注意的是，ExtraTrees、Random Forest和Extreme Gradient Boosting分类器在所有集合中始终表现良好，即使在不平衡数据下也表现出强大的泛化能力。相比之下，Multi-Layer Perceptron、Gaussian Naive Bayes和Quadratic Discriminant Analysis分类器在使用SubstructureCount、PubChem、AtomPairs2D、AtomPairs2DCount、Estate和KlekotaRoth指纹时的表现较差，分数低于0.5，表明这些描述符类型的分类性能接近随机或较差。尽管传统的集成方法相对较好地处理了不平衡问题，但在训练准确率上的接近完美分数与测试性能相比表明可能存在过拟合。这突显了数据平衡的必要性，以避免对非活性类的偏差并提高模型可靠性。
与不平衡数据集相比，这里的模型（图3）在所有三个集合中的表现更加一致和实际。训练期间的准确率较高，约为0.97 - 1.0，并在交叉验证和测试期间保持一致（0.88–0.94），不同指纹和算法之间差异较小。值得注意的是，集成模型在几乎所有指纹类型上再次表现出一致的良好性能，显示出对平衡数据的强适应性。同时，尽管Quadratic Discriminant Analysis有所改进，但仍存在不足，表明它对复杂特征分布较为敏感。过采样通过允许从活跃和不活跃类别中更好地学习，提高了模型对不同指纹和算法的泛化能力，从而提高了可靠性并减少了了对多数类的偏好。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图2. 热图显示了训练集、交叉验证集和测试集不平衡（正常）类别的MCC值。缩写：CV：交叉验证，MCC：马修斯相关系数，MLP：多层感知器，SVC：C支持向量，LBMC：轻梯度提升机，XGB：极端梯度提升，高斯，NB：高斯朴素贝叶斯下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图3. 热图显示了平衡过采样技术下训练集、交叉验证集和测试集的MCC值。这些结果表明，平衡数据集是提高分类模型预测能力和稳定性的关键步骤。应用欠采样后模型的热图（图4）显示出更不稳定的性能，尤其是在多层感知器和二次判别分析分类器上，出现了多次波动和较低的分数。这是丢弃多数类样本的众所周知的局限性；关于不活跃化合物特征的潜在有价值信息因此丢失了。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像图4. 热图显示了平衡欠采样技术下训练集、交叉验证集和测试集的MCC值。过采样在交叉验证稳定性方面表现更优，平均MCC_cv为0.948 ± 0.055，而正常采样为0.863 ± 0.163，欠采样为0.862 ± 0.126（图5）。这种增强稳定性反映了过采样通过增加少数类表示来提供一致训练数据表示的能力。下载：下载高分辨率图像（273KB）下载：下载全尺寸图像图5. 不同采样技术下的交叉验证稳定性分析。正常采样获得了最高的测试准确率（0.962 ± 0.048）和特异性（0.967 ± 0.046），表明在正确分类多数不活跃类别方面表现强劲。然而，正常采样在指纹和算法之间的性能变异性较大，敏感性和MCC指标的标准差接近或超过了平均值（图6）。下载：下载高分辨率图像（388KB）下载：下载全尺寸图像图6. 不同采样技术下的分类指标性能。过采样在各项指标上提供了最佳平衡，实现了有竞争力的准确率（0.956 ± 0.052），同时保持了持续的高敏感性（0.992 ± 0.030），证明能够可靠地识别活性抗疟化合物，这对于药物发现应用至关重要，因为假阴性具有高昂的成本。下载：下载高分辨率图像（388KB）下载：下载全尺寸图像图6. 不同采样技术下的分类指标性能。欠采样始终表现不佳，导致最低的准确率（0.918 ± 0.095）、敏感性（0.986 ± 0.063）和MCC（0.806 ± 0.148）。由于多数类数据的减少，导致大量信息丢失，严重削弱了模型的学习能力和泛化性能。统计分析确认了采样策略效果的显著差异（Friedman's χ2 > 101.94，所有p < 0.001）（表1），Nemenyi事后检验表明欠采样在准确率、特异性和MCC指标上显著劣于正常采样和过采样方法（p < 0.001）。正常采样和过采样策略在统计上没有显著差异（p > 0.05），尽管过采样在交叉验证稳定性方面表现出更优的实际性能特性（表2）。表1. 不同采样策略对分类性能的Friedman卡方分析。指标Chi2 p值空单元格准确率_cv 168.10 3.15E-37敏感性_cv 197.44 1.34E-43特异性_cv 105.50 1.23E-23MCC_cv 181.29 4.30E-40测试准确率 101.94 7.33E-23测试敏感性 28.56 6.29E-07测试特异性 112.01 4.77E-25MCC测试 91.44 1.40E-20表2. Nemenyi事后检验结果，比较不同采样策略在交叉验证和测试集中的性能。指标正常 vs. 欠采样正常 vs. 过采样欠采样 vs. 过采样准确率_cv 8.64E-10 8.29E-110敏感性_cv 4.04E-06 0.0001248 3.89E-08MCC_cv 0.2495 0.00准确率测试 8.78E-14 0.43 15.90E-10测试敏感性 0.26 25 0.3185 0.9924测试特异性 3.33E-16 0.05 21 7.97E-09MCC测试 2.43E-12 0.59 44 1.84E-09分子指纹比较性能分析。对所有算法-采样组合的指纹性能分析发现了分子表示效果上的显著差异（图7）。表现最好的五种指纹的平均MCC_test值为：Substructure（0.891）、KlekotaRoth（0.889）、KlekotaRothCount（0.884）、CDKextended（0.882）和CDK（0.880），共同表明基于药理片段的表示方法在查尔酮分类方面优于简单的二进制或计数方法。下载：下载高分辨率图像（460KB）下载：下载全尺寸图像图7. 不同采样策略下的分子指纹性能。Substructure指纹在正常采样条件下表现出卓越的鲁棒性（MCC = 0.979），同时保持了强大的交叉验证性能（MCC = 0.968）。这种指纹的出色性能反映了其对与抗疟活性相关的特定分子亚结构的明确编码，提供了与化学直觉和已建立的结构-活性关系一致的可解释特征。KlekotaRoth和KlekotaRothCount变体对采样策略优化表现出显著的响应性。在正常采样下，KlekotaRoth的表现较为一般（MCC = 0.852），但过采样将其提高到0.942，这是任何指纹-采样组合中记录的最佳改进之一。这种在过采样下的性能提升表明，这些基于药理片段的表示特别受益于少数类表示的增加，可能是由于它们对微妙结构特征的敏感性。CDK和CDKextended指纹在所有采样技术下表现出一致的鲁棒性，无论采用何种采样策略，其平均MCC值都与总体平均值相差不超过0.03。这种一致性表明基于CDK的分子编码具有内在稳定性，并且与多种算法方法具有广泛的兼容性。表现不佳的指纹包括AtomPairs2D（平均MCC = 0.742）和SubstructureCount（0.794），表明简单的成对原子相互作用和未加权的亚结构计数无法提供足够的分子信息以进行可靠的抗疟分类。这些发现明确了在抗疟分类背景下，基于药理片段或拓扑的指纹相对于简单表示的明显偏好。在测试集和交叉验证集上的排名分析中，Substructure指纹在50.3%的正常采样比较中胜出，而过采样/KlekotaRoth组合在41.1%的外部验证中胜出。交叉验证结果显示过采样的主导地位，基于KlekotaRoth的指纹在93.1%的描述符比较中获胜。算法特定性能分析。分类算法的性能根据算法家族特性及其与采样策略的相互作用而有所不同。基于树的集成方法始终表现最佳，ExtraTreesClassifier实现了平均MCC = 0.926 ± 0.051，其次是RandomForestClassifier（0.918 ± 0.058）和GradientBoostingClassifier（0.894 ± 0.088）。这些集成方法在所有采样技术下都显示出显著的鲁棒性，在正常（平均MCC = 0.923）、过采样（0.918）和欠采样（0.860）条件下均保持高性能（图8）。下载：下载高分辨率图像（431KB）下载：下载全尺寸图像图8. 不同采样策略下的算法性能。这种鲁棒性反映了基于树的集成方法的基本优势：它们通过递归特征划分 inherent 对类别不平衡的抵抗力，减少了对重采样引入的人为数据点的敏感性，以及自然捕获高维分子描述符空间中复杂非线性关系的能力。高斯过程分类器获得了第二高的总体排名（平均MCC = 0.920），在正常采样下表现出卓越的性能（MCC = 0.954），在过采样下也表现不错（MCC = 0.942）。这种概率方法的优点可能源于其通过核函数模拟分子数据中复杂非线性关系的能力，同时为需要预测信心评估的药物发现应用提供了有价值的不确定性估计[16]。支持向量分类器获得了相当的整体性能（平均MCC = 0.899），在正常采样下取得了最佳结果（0.935），并在其他采样策略下保持了稳定性（0.911-0.853）。该算法在高维特征空间中的优势和对抗异常值的鲁棒性使其非常适合分子分类任务，尽管其性能略低于集成方法，表明其在查尔酮分类问题上的适用性可能不够理想。基于实例的k-最近邻算法在正常采样下表现出卓越的性能（MCC = 0.956），但在过采样（0.896）和欠采样（0.816）下性能明显下降。这种算法家族对训练数据分布和人工点的敏感性反映了基于实例方法的根本特性，表明尽管在平衡条件下具有理论优势，但其他采样策略可能会显著降低k-NN的性能。神经网络（多层感知器）分类器在不同采样方法下的性能变化很大，从正常（0.819）到过采样（0.755）再到欠采样（0.563）都有显著下降。这种敏感性很可能反映了神经网络复杂的优化景观以及它们在训练期间对数据分布变化的特别敏感性，突显了在应用深度学习方法进行化学分类任务时适当调整超参数的重要性。图9。使用ExtraTreesClassifier的过采样泛化差距（ΔMCC）与所有指纹。对1,440种算法-指纹-采样组合的全面评估确定了几个表现突出的组合，前五名的组合加权得分超过0.998：1. 过采样 + ExtraTreesClassifier + KlekotaRothCount（得分：0.9997）测试MCC：1.0000，交叉验证MCC：0.9936准确率：100.0%（训练/测试），99.68%（CV）敏感性：100.0%（训练/测试），100.0%（CV）特异性：100.0%（训练/测试），99.35%（CV）泛化差距：0.00642. 过采样 + GaussianProcessClassifier + CDKextended（得分：0.9997）测试MCC：0.9949，交叉验证MCC：0.98483. 过采样 + GaussianProcessClassifier + CDK（得分：0.9994）测试MCC：0.9937，交叉验证MCC：0.98594. 过采样 + GaussianProcessClassifier + KlekotaRoth（得分：0.9990）测试MCC：0.9915，交叉验证MCC：0.99475. 过采样 + QuadraticDiscriminantAnalysis + AtomPairs2DCount（得分：0.9987）测试MCC：0.9918，交叉验证MCC：0.9772ExtraTreesClassifier + KlekotaRothCount + 过采样组合表现出卓越的特性：完美的训练拟合（MCC = 1.0），没有过拟合现象（交叉验证MCC = 0.9936），完美的测试分类（MCC = 1.0），以及接近完美的交叉验证可靠性。关键的是，最小的泛化差距（0.0064）和负的CV-测试差距（-0.0064）表明模型具有出色的稳定性，没有典型的过拟合问题，使其成为后续预测建模和特征重要性分析的最佳选择。为了探讨在随机分割下表现卓越可能是由于训练和测试化合物之间的结构相似性，使用Bemis-Murcko骨架分割进行了重新评估，该分割强制完全分离骨架（60个独特骨架在分区之间没有共享）。在这种更严格的验证中，测试MCC仍然很强，为0.8978（准确率 = 98.6%，敏感性 = 81.8%，特异性 = 100%），泛化差距为0.1022（图10）。这些结果确认了模型在训练骨架空间之外仍具有有意义的预测能力，尽管建议对结构新颖的查尔酮骨架进行前瞻性实验验证。补充S1中提供了与随机分割的比较图。图10. Bemis-Murcko骨架验证。最佳ExtraTreesClassifier + KlekotaRothCount模型的特征重要性分析确定了氮功能是抗疟活性的主要驱动因素，占前20个最具影响力特征的65%（图11，表3）。这一发现与已建立的药物化学观察结果一致，表明含氮杂环和芳香氮原子通过多种机制显著贡献于抗疟效力，包括增强的氢键潜力、改善的水溶性以及与目标酶的有利电静力学相互作用[3,14]。表3. 使用KlekotaRothCount指纹的过采样Extratrees分类器的特征重要性。特征名称SMARTS模式描述KRFPC3143c1ccc2ncccc2c1喹啉骨架（融合苯 + 吡啶环）KRFPC1787[!#1]c1[cH][cH]c(Cl)[cH]c1[!#1]具有特定取代模式的氯化芳香环KRFPC161[!#1][CH]=N[!#1]带有相邻非氢原子的亚胺基团KRFPC4080NN氮原子KRFPC677[!#1][NH][!#1]仲胺KRFPC4113N=Cc1ccccc1芳香亚胺KRFPC383[!#1][CH2][CH2][NH][!#1]在两个碳链上的仲胺KRFPC3013C=NGeneric亚胺KRFPC467[!#1][CH2][NH][!#1]在亚甲基上的仲胺KRFPC3510Cc1cc(C)cc(C)c11,3,5-三甲基苯KRFPC3821Cl氯原子KRFPC3882CN碳-氮单键KRFPC4301NN肼或腙（N–N单键）KRFPC3750CCNEthylamineKRFPC636[!#1][CH2]N=[CH][!#1]取代的腙KRFPC3869Clc1ccccc1氯苯（芳基氯）KRFPC1645[!#1]c1[cH][cH]c[!#1][cH]1带有3个碳原子的苯环附有非氢原子KRFPC2975CC碳KRFPC4005COc1ccccc1O4-甲氧基苯KRFPC2731[!#1]Oc1[cH][cH]c([CH]=N[!#1])[cH][cH]1在定义位置上带有羟基（–OH）和亚胺基（–CH=N–R）的苯环芳香环系统占排名前20个特征的40%，反映了π-π堆叠相互作用和芳香稳定在配体-受体结合中的重要性。氯取代基作为次要活性驱动因素出现，它们在特定分子位置的存在/缺失影响了活性预测。氧含基团的相对缺失表明与其他芳香族元素相比，它们的贡献较小，尽管它们在活性化合物中的存在可能会调节生物 Verfüg性和代谢性质。这种特征重要性排名提供了对查尔酮抗疟活性的结构要求的机制洞察，并为通过引入氮功能和改进芳香环定位来合理设计改进类似物提供了分子基础。化学空间的可视化和模型适用性。图12展示了查尔酮数据集的结构分布。PCA得分图揭示了251种查尔酮衍生物所占的化学空间。训练集化合物（绿色数据点）在所有三个投影维度（PC1、PC2和PC3）上形成了一个明确、连贯的簇。至关重要的是，独立的测试集化合物（红色数据点）在训练集簇的边界内空间分布。测试集中没有显著的异常值位于图表的孤立区域，也没有训练集和测试集人群之间的明显分离。这种高度重叠确认了训练集具有足够的结构多样性，能够充分代表测试集化合物。因此，模型对测试集的预测可以被认为是定义适用性范围内的可靠插值，而不是对未定义化学空间的不可靠外推。绿色圆圈 = 训练集化合物，红色 = 独立测试集化合物。KS检验得出D = 0.091，p = 0.854，MW检验得出p = 0.618，表明训练集和测试集之间的PC分布没有统计学上的显著差异（p > 0.05）。这些结果从统计上确认了独立测试集落在开发模型的适用性范围内（图13）。图13. 训练集和测试集的PC分数的经验累积分布函数（ECDFs）。KS统计量（D）和p值已标注。采样策略的影响。过采样（MCC_cv = 0.948）与正常采样（0.863）相比具有更高的交叉验证稳定性，这在实际应用中代表了开发强大预测模型的巨大优势。过采样在验证折叠中的一致性能反映了少数类尽管常规采样在测试集准确性上略有提升，但这种优势并不显著，同时伴随着显著更高的性能方差（标准差分别为0.174和0.107），表明模型的泛化可靠性降低。欠采样的持续表现不佳与机器学习的既定原则一致，即信息损失的成本超过了减少类别不平衡带来的好处。失去50%的不可用化合物信息会严重削弱模型学习不可用类别模式的能力，导致所有指标的系统性能下降。这些发现支持了在药物发现应用中优先选择过采样的广泛建议，尤其是当需要一致可靠预测而不是特定测试集上微小的准确性提升时[9]。过采样训练模型的优越泛化能力超过了常规采样带来的小幅测试集准确性提升，这一点对于预测训练分布之外的新化合物尤为重要。

**抗疟疾分类的指纹选择**
Substructure、KlekotaRoth和KlekotaRothCount指纹（平均MCC值>0.880）相较于简单替代方案表现更佳，这为基于药理片段的表示方法在抗疟疾化合物分类中的应用提供了明确证据。这些指纹对与药物作用相关的分子子结构的显式编码与化学直觉和已建立的山酮类抗疟疾化合物的结构-活性关系相符。在过采样下KlekotaRoth指纹的显著性能提升（从0.852提高到0.942）表明，当适当加权少数类样本时，这种表示方法具有特别的价值。这种提升可能反映了KlekotaRoth编码的药理特征聚焦性，当通过过采样提供足够的少数类多样性时，其解释性和预测性更强。CKD指纹在不同采样技术下的稳定性（平均值的±0.03范围内）为在优先考虑算法采样独立性的稳健预测流程中采用它们提供了额外的依据。这种稳定性降低了在模型部署过程中意外修改采样策略时导致性能下降的风险。

**算法家族性能与机制意义**
基于树的集成方法（ExtraTreesClassifier、RandomForestClassifier）的卓越性能反映了它们在分子分类方面的根本优势：递归特征空间划分能够构建复杂的决策边界，对分子描述符中常见的特征多共线性具有固有的抵抗力，并且在无需显式修改数据的情况下能够稳健处理类别不平衡[13]。ExtraTreesClassifier相较于RandomForestClassifier的优越性能（0.926 vs 0.918）可能反映了由于随机分割阈值而非最优阈值导致的过拟合减少，这在本研究的相对中等样本量和高维描述符空间中具有潜在优势。高斯过程分类器（GPC）的强劲性能（0.920）为药物发现应用中的概率方法提供了重要验证。GPC的原则性不确定性量化及其灵活的核函数使得能够建模复杂的非线性关系，同时提供预测周围的置信区间，这对于在资源有限的药物发现项目中优先选择化合物进行合成和测试非常宝贵。神经网络方法在不同采样策略下的显著性能下降表明，中等大小的数据集（251个化合物）和结构化分子描述符的特性更倾向于使用简单的集成方法而非深度学习方法。深度学习的优势通常出现在更大的数据集（数千个化合物）和结构化程度较低的数据表示（例如原始分子图或SMILES字符串）中。

**最优模型特征与泛化能力**
ExtraTreesClassifier结合KlekotaRothCount和过采样在训练集和测试集上实现了完美的分类效果，并保持了交叉验证的可靠性（MCC=0.9936），展现了在QSAR建模中罕见的卓越泛化能力。这种完美的训练/测试性能与稳健的交叉验证相结合，表明分子数据中存在真实的预测模式，而不仅仅是测试集划分的特定模式。训练集与交叉验证性能之间的最小泛化差距（0.0064），加上负的CV测试差距（-0.0064），表明模型复杂性与数据结构和样本量相匹配。这种最佳校准既反映了山酮类分类问题中的内在信号，也体现了ExtraTreesClassifier加KlekotaRothCount组合的出色适应性。相比之下，典型的QSAR模型报告的MCC值在0.6-0.8之间，且具有较大的泛化差距，因此本文记录的性能显得尤为突出。通过独立实验测试模型在新合成化合物上的预测结果，可以对外部验证其真正的预测能力，而非仅仅是回顾性数据集中的表面模式。

**机制解释与特征重要性**
氮功能基团（占顶级特征的65%）在驱动抗疟疾活性预测中的主导作用与药物化学文献中的实验结果一致。氮原子通过多种机制促进活性：（1）通过孤对电子增强氢键潜力，（2）与目标酶残基的有利静电相互作用，（3）提高水溶性从而增加细胞生物利用度，（4）可能与目标酶（如PfDHODH）中的氧化还原活性假体基团直接相互作用。芳香系统的次要重要性（占顶级特征的40%）反映了π-π堆叠相互作用与受体结合位点的关键作用，以及通过静电相互作用稳定芳香环。芳香特征相对于含氧基团的相对突出表明，π-π相互作用对目标结合的贡献大于羟基或醚基团的氢键作用，后者主要影响生物利用度和代谢稳定性[2]。氯取代基作为三级活性驱动因素的出现与卤化作用对分子性质的已知影响一致：增加脂溶性促进膜渗透，通过C-Cl键的稳定性增强代谢稳定性，并调节芳香电子密度影响结合相互作用[1,5]。

**结论**
通过对十二种分类算法和十二种分子指纹在三种数据平衡策略下的系统评估，确定ExtraTreesClassifier结合KlekotaRothCount指纹和过采样的方法是预测山酮类衍生物抗疟疾活性的最佳方法。这种组合实现了卓越的分类性能（测试MCC=1.0，交叉验证MCC=0.9936），具有出色的泛化能力和最小的过拟合指标。基于树的集成方法，特别是ExtraTreesClassifier和RandomForestClassifier，在所有算法家族、指纹和采样策略中都表现出持续的优越性。这种性能优势反映了算法在结构化分子描述符分类和稳健处理类别不平衡方面的根本优势。与常规采样和欠采样相比，过采样提供了显著更强的交叉验证稳定性，这证明了其在药物发现应用中作为主要数据平衡策略的合理性。基于药理片段的分子指纹（Substructure、KlekotaRoth、KlekotaRothCount）优于简单表示方法，建立了基于证据的指纹选择标准。特征重要性分析确定了氮功能基团、芳香系统和氯取代基作为抗疟疾活性预测的主要驱动因素，为合理设计改进的山酮类类似物提供了机制上的洞察。最优模型的卓越性能和稳定性支持开发用于预测山酮类抗疟疾效力的计算框架，并有助于针对耐药的恶性疟原虫P. falciparum寄生虫的新化合物的设计。未来研究应通过独立实验测试模型设计的化合物来验证这些计算预测，检验算法在结构多样化的非山酮类骨架上的性能，并研究结合更大数据集（涵盖多个化合物类别）的深度学习方法。将这种分类模型与QSAR回归建模的效力预测和分子对接结合起来，可以为基于结构的抗疟疾药物发现建立全面的计算平台。

**关于手稿准备过程中生成式AI和AI辅助技术的声明**
在准备本工作期间，作者使用了Perplexity Ai来生成图形摘要草稿。使用该工具/服务后，作者根据需要审查和编辑了内容，并对发表文章的内容承担全部责任。

**伦理批准与参与同意**
不适用。

**出版同意**
不适用。

**作者贡献**
BNI和MM：概念化，撰写原始草稿。
AB、RA、ANH和JDH：监督，正式分析。
所有作者：撰写、审阅和编辑最终手稿。

**未引用的参考文献**
[8,20]

热点排行