SCPLoc：一种基于弱监督的多实例学习框架，用于单细胞免疫荧光图像中蛋白质的亚细胞定位及异质性分析

《Neurocomputing》：SCPLoc: A Weakly-Supervised Multi-Instance Learning Framework for Protein Subcellular Localization and Heterogeneity Profiling in Single-Cell Immunofluorescence Images

【字体：大中小】 时间：2026年05月04日 来源：Neurocomputing 6.5

编辑推荐：

　　李一琳|王英毅|朱希良|何颖|周倩|徐英英南方医科大学生物医学工程学院，广州，510515，中国摘要蛋白质的亚细胞定位是解析蛋白质功能的关键因素，而在单细胞水平上分析定位的异质性可以为功能阐明提供高分辨率的视角。然而，现有的深度学习方法主要是为多细胞免疫荧光图像开发的，其中图像级

李一琳|王英毅|朱希良|何颖|周倩|徐英英

南方医科大学生物医学工程学院，广州，510515，中国

摘要

蛋白质的亚细胞定位是解析蛋白质功能的关键因素，而在单细胞水平上分析定位的异质性可以为功能阐明提供高分辨率的视角。然而，现有的深度学习方法主要是为多细胞免疫荧光图像开发的，其中图像级别的蛋白质亚细胞位置注释的粗粒度以及类别的长尾分布导致单细胞蛋白质定位的预测准确性和应用受到限制。在这项研究中，我们提出了一种双分支深度学习模型SCPLoc，基于弱监督多实例学习进行单细胞蛋白质定位预测，该模型具有分别用于全局图像级别和局部单细胞预测的分支。为了解决细胞注释不足的问题，我们设计了一种类感知的自适应修剪机制来细化伪标签，通过动态优化信号增强了单细胞监督。此外，还结合了非对称损失函数和一致性正则化策略来减轻注释噪声和类别不平衡的影响，并提高特征鲁棒性。实验结果表明，SCPLoc取得了最先进的性能，在Kaggle 2021基准测试中达到了58.36%的平均精确度，并将跨数据集的波动率降低到了1.4%，从而提高了准确性和鲁棒性。此外，所构建的模型被用于分析两个独立数据集中的单细胞蛋白质定位异质性和功能谱型，为单细胞异质性分析提供了一个精确且通用的计算工具。

引言

蛋白质的亚细胞定位旨在确定每种蛋白质在细胞内的空间分布模式，即蛋白质定位到哪个细胞器或亚细胞结构中。这对于阐明蛋白质的生物学功能至关重要，通过精确确定蛋白质在细胞器或亚细胞结构内的空间分布，为解析疾病机制和发现药物靶点提供了重要的理论基础[1]、[2]、[3]、[4]、[5]。传统技术主要依赖于实验方法，如亚细胞分离和绿色荧光蛋白融合，但这些生化方法存在固有的局限性，包括实验通量低和成本高[1]、[2]。随着高分辨率显微成像技术和人工智能的发展，基于深度学习的亚细胞定位方法已成为蛋白质组学研究中的一个重要范式[1]、[2]、[3]。

现有的深度学习研究主要集中在多细胞图像中识别蛋白质的亚细胞定位[1]、[2]。这是因为目前广泛使用的蛋白质数据库仅在蛋白质或图像级别提供亚细胞位置注释。例如，人类蛋白质图谱（HPA，https://www.proteinatlas.org/）存储了超过十万的蛋白质表达免疫荧光（IF）图像，并通过全面评估每张图像中的所有细胞来注释亚细胞位置[6]。因此，深度学习方法通常直接使用图像级别的注释作为单细胞注释进行训练和测试，未能解决不同细胞类型之间的蛋白质定位模式的差异，而这些差异对于研究蛋白质功能及其与疾病的关联至关重要[2]。

近年来，随着单细胞研究的兴起，单细胞水平上的蛋白质亚细胞定位研究受到了关注[2]。核心挑战在于如何仅使用图像级别的注释从多细胞图像构建可靠的分类模型[2]、[7]、[8]。2021年，HPA团队在Kaggle平台上发起了一场单细胞蛋白质定位识别竞赛[2]，要求基于多细胞IF图像和图像级别注释来识别单细胞定位。直接的方法是使用多实例学习（MIL），通过图像级别标签监督单细胞特征学习。例如，朱等人使用MIL框架并引入了一种基于聚类和启发式的伪标签分配方法，从弱监督中生成单细胞注释[7]；Husain等人提出了混合细胞蛋白质定位器（HCPL），该定位器使用多任务双流网络融合图像级别和细胞级别的特征，有效减少了由弱训练标签引起的假阳性预测[8]。此外，一些研究提出了替代的自监督解决方案。Doron等人[9]在弱标签微调之前利用自蒸馏进行无标签特征学习，而Gupta等人[10]使用多任务预训练来增强特征到弱注释细胞数据的迁移能力。尽管这些方法表现出色，但单细胞分析仍然面临两个关键挑战。首先是弱注释引起的细胞标签噪声，因为图像级别标签与细胞中的真实定位模式之间存在固有的偏差。其次是亚细胞位置类别的长尾分布，这导致模型对尾部类别的识别能力显著下降。这些挑战导致准确性和鲁棒性受到限制，即使是Kaggle 2021竞赛的获胜解决方案在两个独立测试集上的表现也存在明显差异。

在这项研究中，我们提出了SCPLoc，这是一种基于弱监督多实例学习的单细胞蛋白质亚细胞定位模型。该模型采用了一个双流架构，包括两个分支：图像分支负责捕获全局上下文特征并进行全图像预测，而细胞分支构建了一个类感知的自适应修剪（CAT）机制来细化伪标签，以抑制弱细胞级别监督中的噪声干扰并输出细胞级别的亚细胞位置预测。为了解决数据的长尾分布问题，采用了非对称损失（ASL）函数，其中使用了差异化的样本加权策略来平衡正样本和负样本的贡献，有效提高了模型区分困难负样本的能力。此外，为了进一步提高图像特征提取的鲁棒性，SCPLoc中还结合了基于特征空间扰动的一致性正则化（CR）算法。在Kaggle 2021 HPA基准测试中，SCPLoc模型取得了新的最佳性能记录，平均精确度（mAP，补充文本）达到了58.36%，同时将跨测试集的性能波动率从超过2%降低到了1.4%。这表示mAP提高了大约1.2%，并且与现有方法相比，在泛化稳定性方面也有显著提升，显示出明显的性能优势。此外，在HPA v23数据集和CM4AI数据集上的分析实验表明，SCPLoc具有与专家注释基本一致的单细胞异质性识别能力，为后续的蛋白质功能机制研究提供了有用的分析工具。

章节片段

数据集

本研究使用的数据集包括来自HPA v21[6]的图像以及在Kaggle挑战赛中公开发布的图像（https://kaggle.com/competitions/hpa-single-cell-image-classification）[2]。训练集和测试集的详细数据统计如图1a所示。训练集包含104,028张多细胞IF图像，每张图像都附有图像级别的蛋白质亚细胞位置注释。一张IF图像有四个通道，包括绿色

伪标签可以提供准确的监督信息

为了解决单细胞蛋白质定位预测中的弱监督问题，SCPLoc使用CAT来细化获得的伪标签，并利用它们来训练细胞分支，从而减轻标签噪声。为了验证这种方法的有效性，我们在两个独立的测试集上将其与两种常见的细胞标签策略进行了比较（图2a）。第一种策略是将图像级别的标签转移到细胞上并训练细胞分类器，第二种策略是使用

讨论

本文介绍了SCPLoc，这是一种新颖的弱监督多实例学习框架，用于识别单细胞图像中的蛋白质亚细胞定位，并应用于细胞异质性分析。SCPLoc旨在解决标签噪声处理、类别不平衡优化和特征鲁棒性增强等关键挑战。它的创新之处有三个方面。首先，动态阈值伪标签生成机制CAT在弱监督下减轻了标签噪声

资金来源

本研究得到了中国广东省自然科学基金（编号2025A1515012891）的支持。

未引用的参考文献

[11]

CRediT作者贡献声明

李一琳：撰写——原始草稿、可视化、软件、方法论、研究、数据管理。王英毅：软件、项目管理、研究。朱希良：软件、项目管理、数据管理。何颖：撰写——原始草稿、验证、项目管理。周倩：撰写——原始草稿、验证、项目管理。徐英英：撰写——审稿与编辑、监督、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者衷心感谢人类蛋白质图谱项目，使他们能够免费获取广泛且高质量的蛋白质定位数据，以便研究社区使用。

利益冲突声明

作者声明不存在利益冲突。

李一琳于2023年在中国南方医科大学获得生物医学工程学士学位。他目前是南方医科大学的研究生，研究方向是单细胞蛋白质亚细胞定位。

摘要

引言

章节片段

数据集

伪标签可以提供准确的监督信息

讨论

资金来源

未引用的参考文献

CRediT作者贡献声明

利益冲突声明

致谢

利益冲突声明

热点排行