
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用扩散模型在计算机上生成基因表达谱
《BMC Bioinformatics》:In silico generation of gene expression profiles using diffusion models
【字体: 大 中 小 】 时间:2026年06月02日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要 背景 RNA-seq 数据被用于精准医疗(例如癌症预测),深度学习方法有助于分析复杂的基因表达数据。然而,与深度学习的标准数据集相比,转录组数据集的样本数量通常较少。因此,人们正在探索合成数据生成技术来解决这一数据稀缺问题。到目前为止,只有变分自
RNA-seq 数据被用于精准医疗(例如癌症预测),深度学习方法有助于分析复杂的基因表达数据。然而,与深度学习的标准数据集相比,转录组数据集的样本数量通常较少。因此,人们正在探索合成数据生成技术来解决这一数据稀缺问题。到目前为止,只有变分自编码器(VAEs)和生成对抗网络(GANs)等深度生成模型被用于这一目的。鉴于扩散模型(DM)在图像生成方面的最新成功,我们提出了一种基于扩散模型的生成流程,该流程利用了这些生成模型在转录组数据上的强大能力。
本文介绍了两种先进的扩散模型(DDPM 和 DDIM),并展示了它们在转录组领域的应用。由扩散模型生成的 L1000 个标志性基因的数据在 TCGA 和 GTEx 数据集上的预测性能优于传统方法。我们还比较了线性和非线性重建方法来恢复完整的转录组。结果表明,这些重建方法可以提高扩散模型、VAEs 和 GANs 的性能。
总体而言,通过对各种生成模型使用数据质量指标的广泛比较,可以看出扩散模型属于表现最好的方法之一,使其成为有前景的合成转录组数据生成工具。
RNA-seq 数据被用于精准医疗(例如癌症预测),深度学习方法有助于分析复杂的基因表达数据。然而,与深度学习的标准数据集相比,转录组数据集的样本数量通常较少。因此,人们正在探索合成数据生成技术来解决这一数据稀缺问题。到目前为止,只有变分自编码器(VAEs)和生成对抗网络(GANs)等深度生成模型被用于这一目的。鉴于扩散模型(DM)在图像生成方面的最新成功,我们提出了一种基于扩散模型的生成流程,该流程利用了这些生成模型在转录组数据上的强大能力。
本文介绍了两种先进的扩散模型(DDPM 和 DDIM),并展示了它们在转录组领域的应用。由扩散模型生成的 L1000 个标志性基因的数据在 TCGA 和 GTEx 数据集上的预测性能优于传统方法。我们还比较了线性和非线性重建方法来恢复完整的转录组。结果表明,这些重建方法可以提高扩散模型、VAEs 和 GANs 的性能。
总体而言,通过对各种生成模型使用数据质量指标的广泛比较,可以看出扩散模型属于表现最好的方法之一,使其成为有前景的合成转录组数据生成工具。