
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用扩散模型和跨类别标签学习进行多样化图像生成,以用于息肉分类
《Scientific Reports》:Diverse image generation with diffusion models and cross class label learning for polyp classification
【字体: 大 中 小 】 时间:2026年05月20日 来源:Scientific Reports 3.9
编辑推荐:
摘要病理诊断是决定结直肠癌(CRC)最佳治疗方案的关键阶段。结直肠癌的前兆——结肠息肉,从病理学上可以分为两大类:腺瘤性(具有恶性潜能)和增生性(良性)。为了准确分类息肉,人们采用了多种成像技术,如窄带成像(NBI)和白光成像(WLI),这些技术各具优势。然而,现有的分类方法主要
病理诊断是决定结直肠癌(CRC)最佳治疗方案的关键阶段。结直肠癌的前兆——结肠息肉,从病理学上可以分为两大类:腺瘤性(具有恶性潜能)和增生性(良性)。为了准确分类息肉,人们采用了多种成像技术,如窄带成像(NBI)和白光成像(WLI),这些技术各具优势。然而,现有的分类方法主要依赖于单一的成像方式,并且由于数据稀缺而效果有限。近年来,生成式人工智能在解决这类问题方面逐渐受到重视,尤其是通过文本提示和图像来实现各种控制机制。不过,这些机制需要类别标签才能使模型有效响应控制输入。在结肠镜检查领域,这类控制机制很少被探索;特别是文本提示这一方面几乎未被研究过。此外,由于缺乏针对多种图像集的昂贵类别标签,进一步的研究受到了限制。这就提出了一个关键问题:如何利用有限的标注数据,通过文本控制的方式生成多样且具有临床意义的结肠镜图像。因此,在本研究中,我们开发了一个名为PathoPolyp-Diff的新模型,该模型能够生成在病理学特征、成像方式和质量上都具有多样性的文本控制合成图像,从而更有效地增强下游诊断模型的性能。该模型采用两阶段流程:首先,模型学习区分息肉与非息肉的特征;然后专注于病理学特异性特征。在此过程中,我们引入了跨类别标签学习,使模型能够从其他类别中学习特征,从而减轻数据标注的负担。我们通过使用不同的成像方式(NBI/WLI)和文本提示进行息肉分类(腺瘤性/增生性)来验证文本控制合成和跨类别标签学习的有效性。实验结果表明,在一个公开可用的数据集上,结合使用这些合成图像进行数据增强后,平衡准确率提高了7.91%,凸显了我们方法在提升下游分类性能方面的实用性。此外,在视频级别分析中,跨类别标签学习使平衡准确率提高了18.33%。代码可访问地址为:https://github.com/Vanshali/PathoPolyp-Diff。