利用加权非并行近端支持向量机的细菌菌株传播生物标志物迁移学习模型

《BMC Bioinformatics》:Transfer learning models for bacterial strain dissemination biomarkers using weighted non-parallel proximal support vector machines

【字体: 时间:2026年02月24日 来源:BMC Bioinformatics 3.3

编辑推荐:

  基因表达整合分析及新型加权非平行支持向量机在 Francisella tularensis 感染研究中的应用,通过肺和脾脏转录组模式整合与 235 个特异性基因识别,构建 ?1-WNPSVM 模型实现疾病状态预测,在转移学习框架下优化高维数据计算效率,达到 97% 平衡准确率,并揭示宿主感染应答的代谢通路差异。

  

摘要

背景

整合来自同质或不同来源的基因组数据集,以识别那些普遍或独特表达的基因,仍然是一个很大程度上未被充分探索的领域。这种整合分析可以揭示在多个数据集之间或在特定条件或队列中共同存在或独有的生物学相关基因。识别这些基因表达谱,并利用它们来分类疾病状态,有助于开发针对难以治疗的医学重要病原体和癌症的有效疫苗、诊断方法和靶向治疗药物。

结果

本研究开发了新的方法,用于整合由弗朗西斯菌(Francisella tularensis)- Schu4株和活疫苗株(Live Vaccine Strain, LVS)感染的肺部和脾脏组织的转录组模式。我们的目标是:(i) 识别与呼吸道感染、疾病严重程度以及细菌向脾脏传播相关的生物学重要基因特征;(ii) 开发一种加权\(\ell _1\)范数非并行支持向量机(\(\ell _1\)-WNPSVM),利用选定的基因来预测疾病状态。\(\ell _1\)-WNPSVM在肺部数据上进行训练,并在脾脏数据上进行了验证,引入了一种迁移学习的形式,以未感染的对照组和Schu4或LVS样本作为类别。目前,直接应用现有的NPSVM类型方法来分析基因表达数据集(其中基因数量远超过样本数量)在计算上是不切实际的,因为这些方法需要大量的内存。本研究解决了这些挑战,并通过将降维和基因选择纳入NPSVM类型框架中,将其推广到类似的模型中。\(\ell _1\)-WNPSVM方法的表现优于传统的机器学习技术,如ANN、XGBoost、AdaBoost、GradBoost、KNN、SVM、朴素贝叶斯、随机森林、逻辑回归和决策树,在不平衡数据上实现了\(97\%\)的平衡准确率。

结论

我们发现了235组仅在肺部和脾脏组织中表达的基因,并利用它们来分类细菌菌株和对照组,从而能够预测疾病状态。通过基因本体分析揭示了潜在的代谢途径。我们的分析表明,信号转导和疾病(癌症)途径在肺部是最活跃的途径,而基因表达(转录)、免疫系统和疾病(癌症)途径在脾脏中活跃。总体而言,这些途径表明宿主对感染有显著的响应,包括细菌在传播过程中与宿主组织的相互作用。

背景

整合来自同质或不同来源的基因组数据集,以识别那些普遍或独特表达的基因,仍然是一个很大程度上未被充分探索的领域。这种整合分析可以揭示在多个数据集之间或在特定条件或队列中共同存在或独有的生物学相关基因。识别这些基因表达谱,并利用它们来分类疾病状态,有助于开发针对难以治疗的医学重要病原体和癌症的有效疫苗、诊断方法和靶向治疗药物。

结果

本研究开发了新的方法,用于整合由弗朗西斯菌(Francisella tularensis)- Schu4株和活疫苗株(Live Vaccine Strain, LVS)感染的肺部和脾脏组织的转录组模式。我们的目标是:(i) 识别与呼吸道感染、疾病严重程度以及细菌向脾脏传播相关的生物学重要基因特征;(ii) 开发一种加权\(\ell _1\)范数非并行支持向量机(\(\ell _1\)-WNPSVM),利用选定的基因来预测疾病状态。\(\ell _1\)-WNPSVM在肺部数据上进行训练,并在脾脏数据上进行了验证,引入了一种迁移学习的形式,以未感染的对照组和Schu4或LVS样本作为类别。目前,直接应用现有的NPSVM类型方法来分析基因表达数据集(其中基因数量远超过样本数量)在计算上是不切实际的,因为这些方法需要大量的内存。本研究解决了这些挑战,并通过将降维和基因选择纳入NPSVM类型框架中,将其推广到类似的模型中。\(\ell _1\)-WNPSVM方法的表现优于传统的机器学习技术,如ANN、XGBoost、AdaBoost、GradBoost、KNN、SVM、朴素贝叶斯、随机森林、逻辑回归和决策树,在不平衡数据上实现了\(97\%\)的平衡准确率。

结论

我们发现了235组仅在肺部和脾脏组织中表达的基因,并利用它们来分类细菌菌株和对照组,从而能够预测疾病状态。通过基因本体分析揭示了潜在的代谢途径。我们的分析表明,信号转导和疾病(癌症)途径在肺部是最活跃的途径,而基因表达(转录)、免疫系统和疾病(癌症)途径在脾脏中活跃。总体而言,这些途径表明宿主对感染有显著的响应,包括细菌在传播过程中与宿主组织的相互作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号