
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一个可解释的人工智能框架,集成了机器学习和深度学习模型,用于多物种DNA功能团的分类
《Scientific Reports》:An explainable AI framework integrating machine and deep learning models for multi-species DNA functional group classification
【字体: 大 中 小 】 时间:2026年05月20日 来源:Scientific Reports 3.9
编辑推荐:
摘要在不同物种间对DNA功能基团进行分类对于理解遗传多样性、进化关系和生物功能至关重要。随着基因组数据的日益丰富,人们开始使用机器学习和深度学习方法来识别DNA序列中的功能模式。然而,这些模型的可解释性仍然是验证其生物学相关性的一个挑战。本研究提出了一个可解释的人工智能框架,该框
在不同物种间对DNA功能基团进行分类对于理解遗传多样性、进化关系和生物功能至关重要。随着基因组数据的日益丰富,人们开始使用机器学习和深度学习方法来识别DNA序列中的功能模式。然而,这些模型的可解释性仍然是验证其生物学相关性的一个挑战。本研究提出了一个可解释的人工智能框架,该框架结合了机器学习和深度学习模型来实现多物种DNA功能基团的分类。这些功能基团代表了一组基因家族,包括转录因子和激酶,分类任务是在人类、黑猩猩、狗以及一个包含这三种物种序列的混合数据集上完成的。在训练之前,DNA序列被转换成k-mer以捕捉局部组成模式。通过采用受控的超参数调整策略,逻辑回归模型在所有评估的数据集中始终获得了最高的MCC(匹配度)和F1分数。虽然深度学习架构能够捕捉到更长的基序依赖性,但经典模型在跨物种的泛化能力上表现更为出色。研究人员使用了特征重要性、显著性图、集成梯度、GradientSHAP和注意力热图等技术进行了多层次的XAI(可解释性人工智能)分析。分析结果揭示了共有基序、跨数据集和跨模型的基序模式,并根据基序重叠率和Jaccard相似度评估了模型的稳定性,同时还根据屏蔽模型识别出的基序后性能下降的情况评估了模型的忠实度。