AC-WGAN-GP用于转录组数据增强:在数据稀缺的情况下提升Synechocystis sp. PCC 6803的压力分类性能

《Journal of Microbiological Methods》:AC-WGAN-GP for transcriptomic data augmentation: Enhancing stress classification in Synechocystis sp. PCC 6803 under data scarcity

【字体: 时间:2026年05月04日 来源:Journal of Microbiological Methods 1.9

编辑推荐:

  阿巴斯·卡里米-法德(Abbas Karimi-Fard)| 穆罕默德·卡里米-法德(Mohammad Karimi-Fard)伊朗德黑兰沙希德·贝赫什蒂大学(Shahid Beheshti University)生命科学与生物技术学院细胞与分子生物学系摘要对Synechocys

  
阿巴斯·卡里米-法德(Abbas Karimi-Fard)| 穆罕默德·卡里米-法德(Mohammad Karimi-Fard)
伊朗德黑兰沙希德·贝赫什蒂大学(Shahid Beheshti University)生命科学与生物技术学院细胞与分子生物学系

摘要

Synechocystis PCC 6803在环境压力下的转录组分析往往受到样本量有限、类别不平衡明显以及研究间技术差异的制约,这些因素共同限制了下游机器学习分析的可靠性,尤其是在多类压力分类方面。为了解决这些问题,我们整合了来自12项公开可用的微阵列和RNA-seq研究的80个样本,这些样本涵盖了多种非生物压力条件,并应用了系统的批量效应校正方法来协调跨平台的数据差异。随后,我们训练了一个基于辅助分类器的水森斯坦生成对抗网络(AC-WGAN-GP),以生成具有类别条件的合成基因表达谱。通过分类性能指标、分布真实度测量和流形分析,评估了数据增强对不同合成样本量的影响。批量校正显著减少了由研究方法和平台差异导致的方差,提高了样本在生物条件上的对齐度。合成数据增强对分类器性能的影响并非单调的:适度的增强(每类500个合成样本)带来了最高的准确性提升(从基线的0.750±0.020提高到0.800±0.020;p=0.031),而更大的增强量带来的提升效果逐渐减弱。相比之下,包括水森斯坦距离、詹森-香农散度以及基因间相关性结构保持在内的分布真实度指标随着合成样本量的增加而逐渐改善。降维分析表明,合成样本与主要的转录组流形对齐;适度的增强增强了类别结构,而更高的增强量则提高了样本密度。与SMOTE和传统的条件GAN相比,AC-WGAN-GP表现出更低的相关性失真,并能够计算评估原始数据集中无法评估的严重代表性不足的压力条件。总体而言,这些发现展示了基于水森斯坦的条件生成模型在增强小型、不平衡的微生物转录组数据集方面的方法学实用性,同时也强调了在平衡预测性能与分布真实性时进行任务特定优化的重要性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号