
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用原子加权向量、类别平衡和机器学习探索抗登革热活性
《Molecular Diversity》:Exploring anti-dengue activity with atomic-weighted vectors, class balancing and machine learning
【字体: 大 中 小 】 时间:2026年05月11日 来源:Molecular Diversity 3.8
编辑推荐:
摘要 登革热是一种由蚊子传播的主要病毒性疾病,目前尚无有效的抗病毒治疗方法。本研究介绍了一个机器学习框架,利用原子加权向量(AWV)描述符和数据平衡技术来预测小分子的抗登革热活性。生成了16个数据集,每个数据集包含2118个分子,这些分子通过MD-LOVIs(基于局部顶点不变
登革热是一种由蚊子传播的主要病毒性疾病,目前尚无有效的抗病毒治疗方法。本研究介绍了一个机器学习框架,利用原子加权向量(AWV)描述符和数据平衡技术来预测小分子的抗登革热活性。生成了16个数据集,每个数据集包含2118个分子,这些分子通过MD-LOVIs(基于局部顶点不变量的分子描述符)进行表征,并使用IMMAN(基于信息论的CheMoMetric分析)进行预处理,同时应用香农熵进行特征选择。为了解决类别不平衡问题(不平衡比=6.66),采用了ADASYN算法。在两种验证方案(十折交叉验证和百分比分割)下,对涵盖六种方法论家族的30个分类器进行了评估,涵盖了平衡和不平衡的数据集。性能通过准确率(ACC)进行评估。非参数统计测试(Friedman、Nemenyi、Wilcoxon)表明数据平衡提高了模型的鲁棒性。基于树结构和基于函数的分类器取得了最佳的预测性能。总体而言,所提出的工作流程为抗登革热化合物的虚拟筛选提供了一种可重复的、数据驱动的方法,并且可以轻松扩展到其他抗病毒药物发现任务中。

登革热是一种由蚊子传播的主要病毒性疾病,目前尚无有效的抗病毒治疗方法。本研究介绍了一个机器学习框架,利用原子加权向量(AWV)描述符和数据平衡技术来预测小分子的抗登革热活性。生成了16个数据集,每个数据集包含2118个分子,这些分子通过MD-LOVIs(基于局部顶点不变量的分子描述符)进行表征,并使用IMMAN(基于信息论的CheMoMetric分析)进行预处理,同时应用香农熵进行特征选择。为了解决类别不平衡问题(不平衡比=6.66),采用了ADASYN算法。在两种验证方案(十折交叉验证和百分比分割)下,对涵盖六种方法论家族的30个分类器进行了评估,涵盖了平衡和不平衡的数据集。性能通过准确率(ACC)进行评估。非参数统计测试(Friedman、Nemenyi、Wilcoxon)表明数据平衡提高了模型的鲁棒性。基于树结构和基于函数的分类器取得了最佳的预测性能。总体而言,所提出的工作流程为抗登革热化合物的虚拟筛选提供了一种可重复的、数据驱动的方法,并且可以轻松扩展到其他抗病毒药物发现任务中。
