王英毅|李宇|何颖|熊阳|李一琳|徐英英
南方医科大学生物医学工程学院及广东省医学图像处理重点实验室,中国广州510515
摘要
在多个亚细胞区室中以不同比例分布的多定位蛋白展现出复杂的空间模式,并参与多种细胞过程。现有的基于荧光图像的机器学习方法主要集中在将蛋白质定性分类到离散的亚细胞位置,但缺乏捕捉定量分布的能力,这阻碍了对多定位蛋白的全面分析。这一限制主要源于带有精确定量定位注释的荧光图像的稀缺。为了解决这一问题,我们提出了PLocDiffusion,这是一个条件扩散对抗模型,旨在根据指定的多个亚细胞区室的定量标签生成真实的细胞图像。该模型通过集成基于GAN的框架作为去噪网络来克服扩散的速度限制,同时结合基于小波的模块以降低计算成本,并利用部分标签学习来缓解训练过程中定量注释的有限性。在四个基准数据集上的实验表明,PLocDiffusion在细胞图像生成方面具有更高的保真度,优于现有方法。值得注意的是,将生成的图像纳入蛋白质定量预测显著提高了准确性,并能够检测到单细胞异质性,并揭示蛋白质定量分布与生物功能之间的一致性。PLocDiffusion为精确建模多定位蛋白提供了一个新的框架,拓宽了深度学习在空间蛋白质组学中的应用范围。
引言
长期以来,亚细胞水平上的蛋白质定位研究一直是空间蛋白质组学的关键焦点[1]。目前的主要挑战在于分析多定位蛋白,这些蛋白存在于一个以上的细胞器中[2]。大约一半的人类蛋白质是多定位蛋白,它们的复杂分布模式在细胞功能中起着关键作用。了解一种多定位蛋白在不同亚细胞位置的定量分布对于理解蛋白质运输、功能机制和分子相互作用至关重要。
使用人工智能(AI)模型来量化细胞荧光图像中的蛋白质表达已成为一个重要的研究方向[3]。例如,大规模的荧光图像数据库(如人类蛋白质图谱HPA)提供了数十万张带有蛋白质亚细胞定位注释的各种细胞系的免疫荧光(IF)图像,但这些图像缺乏定量标签[4]。这意味着大多数训练有素的AI模型只能对亚细胞位置进行定性分类,而无法提供多定位蛋白的定量分布。
生成式AI模型为解决定量数据稀缺问题提供了一种新的方法。近年来,几种深度生成模型已被应用于生成所需的细胞图像。这些模型通常基于编码器-解码器架构,如U-Net[5]、变分自编码器(VAE)[6]和条件对抗自编码器(cAAE)[7],旨在捕捉细胞组织与蛋白质荧光分布之间的关系。虽然这些模型能够学习粗略的空间对应关系,但它们通常针对像素级重建或受限的潜在分布进行优化。因此,它们往往难以再现细粒度的荧光强度模式,并且缺乏确保与目标亚细胞定位剖面定量一致性的机制。相比之下,生成对抗网络(GANs)[8]、[9]采用对抗训练,使生成器能够通过接收来自判别器的反馈来学习更详细的结构,从而生成的样本更接近真实数据分布。我们之前开发了一个名为PLocGAN的细胞图像生成模型,该模型将部分标签学习(PLL)纳入条件GAN中以解决缺失的定量标签问题,并证明GANs可以生成真实的蛋白质荧光图像[10]。
最近,去噪扩散概率模型(DDPM)作为生成式AI中的强大替代方案出现[11]。这些模型通过随时间步骤逐步用高斯噪声扰动输入图像,将结构化数据转换为纯噪声。在训练过程中,扩散模型通过预测并移除每一步添加的噪声来学习逆转这一噪声过程,有效地在去噪框架中建模数据分布。与GANs的一次性生成相比,这种迭代逐步生成方法能够更好地保持空间连贯性并减少伪影,使得扩散模型特别适合需要高保真度图像合成的任务。扩散模型在细胞图像生成中的应用仍处于早期阶段。Cross-Zamirski等人引入了一种利用类别标签从明场显微镜合成IF图像的扩散模型,该模型基于成对图像进行训练。尽管有效,但其底层框架仍然基于条件DDPM,导致推理速度慢且在建模定量蛋白质分布方面灵活性不足[12]。
受这些限制的启发,我们设计了一个名为PLocDiffusion的扩散模型,旨在生成具有可控荧光分布模式的细胞图像,从而解决蛋白质定量预测模型训练数据严重短缺的问题。PLocDiffusion专门针对细胞图像进行了定制,使用基于GAN的模型并结合小波分解策略作为去噪网络以减少推理时间和模型参数。此外,还设计了一个细胞结构编码器(CSE)来捕获亚细胞空间特征,并分层注入去噪网络。由于训练数据没有定量分数,因此采用了PLL策略来处理训练过程中的标签缺失问题。本工作的主要贡献总结如下:
- 我们提出了一种名为PLocDiffusion的新生成框架,能够在亚细胞区室对之间合成具有可控定量分布的荧光图像。该方法在多个数据集上显示出比现有方法更高的保真度。
- 通过利用基于GAN的框架,PLocDiffusion有效地建模了多变量高斯分布,显著减少了所需的采样步骤。这克服了传统扩散模型的长推理时间,使其能够实际应用。小波变换作为图像和特征分解的一系列模块实现。图像级分解通过降低图像分辨率来减少计算成本,而特征级分解为多个子频率带则捕获了全局结构模式和细粒度纹理细节,丰富和细化了学习到的表示。
- 与现有的细胞图像生成模型相比,PLocDiffusion在保持满意多样性的同时显示出更高的保真度,并通过将背景细胞结构图像和定量比例标签作为输入,在可控图像合成方面具有优势。
- 实验结果表明,将PLocDiffusion生成的图像纳入蛋白质定量预测模型显著提高了预测性能。此外,定量分析表现出生物学可解释性,如其捕捉单细胞异质性和通过蛋白质功能富集分析揭示显著模式的能力所证明的那样。
PLocDiffusion框架
PLocDiffusion建立在条件扩散框架之上,以实现可控的细胞图像生成,如图1所示。扩散过程被构建为一个马尔可夫链,逐步向蛋白质图像添加高斯噪声