ZA-Net：一种基于视觉-语言预训练模型的通用零标注细胞核分割网络，用于病理图像处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：ZA-Net: A Universal Zero-Annotation Nuclei Segmentation Network for Pathology Images via Vision-Language Pre-trained Model

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　提出零标注核分割框架ZA-Net，结合Vision-Language模型YOLO-World实现粗检测、精修定位和基于伪标签的分割，在MoNuSeg和CPM数据集上Dice分数分别达0.72和0.71，优于SAM和弱监督方法。

孙一文|张然然|陈福强|鲁坤|何淼霞|李启斋|蒲瑶|蔡静|秦文健

中国香港特别行政区香港理工大学健康技术与信息学系

摘要

在病理图像中对细胞核进行分割是癌症诊断和研究中的关键任务。监督学习方法需要大量的手动标注，并且由于主观解释的存在容易出错。尽管弱监督模型利用点标注、边界框和草图等稀疏标签来减少对大量标注的需求，但它们仍然需要大量的标签。视觉-语言预训练模型在自然图像检测领域取得了显著的零样本（zero-shot）成果，然而在H&E图像上的零样本细胞核分割研究仍相对较少。医学图像与用于预训练的源文本-图像对之间存在显著差异，加上检测和分割任务本身的不同，这些都带来了重大挑战。我们的ZA-Net通过引入一个零标注流程来应对这些挑战，该流程结合了卷积神经网络的强大能力和创新的预训练视觉-语言对象检测模型。ZA-Net分为三个阶段：使用零样本技术进行初始的无标注粗略细胞核检测、精细阶段的细胞核检测以提高检测精度，以及利用粗略像素标签进行精确分割的细胞核分割。在MoNuSeg和CPM数据集上的评估显示，ZA-Net的Dice分数分别为0.72和0.71，比无标注的Segment Anything Model高出约0.30，并且与最先进的弱监督方法保持竞争力。

引言

早期癌症诊断在很大程度上依赖于活检样本的病理评估[1]，但在大尺寸全切片图像上进行的手动细胞核勾画工作劳动强度大、耗时且容易出错。传统的图像处理流程（例如颜色阈值分割[2]和图割[3]）可以在一定程度上自动化细胞核分割，但仍需要仔细调整参数，并且对染色和噪声变化敏感。

深度卷积网络，如U-Net[4]、SegNet[5]及其变体[6],[7]，通过直接从数据中学习丰富的外观和边界特征显著改善了细胞核分割。最近结合注意力机制或实例感知解码器的架构进一步细化了细胞核轮廓[8]。然而，这些模型仍然依赖于像素级别的标签，而这些标签的获取成本较高。弱监督方法通过使用点标注、边界框或草图标注[9],[10]来减轻这一负担，并且已经探索了在稀疏监督下的经典弱监督语义分割模式来提高分割质量[11]。尽管如此，这些方法每个数据集仍然需要数万个标注过的细胞核。如图1所示，这些方法从需要像素级标签的完全监督方法到使用稀疏标签进行伪标签生成的弱监督方法都有所涉及，因此无标注的细胞核分割是一个理想的目标。

最近的基础模型，如SAM，通过提示工程实现了无标注分割，但通常需要在推理时进行任务特定的调整或交互式提示[12],[13]。与此同时，基于图像-文本对训练的大规模视觉-语言模型（LS-VLM）展示了强大的零样本能力。它们在图像操作[14]和检测[15]方面取得了成功。YOLO-World通过引入视觉-语言路径聚合网络扩展了YOLO，以支持开放词汇表对象检测[16]。除了明确指定类别词汇表外，最近的研究进一步推动了这一方向，通过无需预定义类别名称的词汇表无关语义分割流程来生成和识别相关类别描述符[17]。然而，将LS-VLM应用于H&E图像的零样本细胞核分割尚未得到探索。

基于LS-VLM的基础，本研究旨在建立一个零样本细胞核分割框架。然而，简单地将VLM应用于这项任务远非易事（如图2所示）。首先，零样本细胞核检测存在明显的领域和语言差距：H&E病理图像在颜色、纹理和尺度上与用于预训练的自然网络图像有很大差异，文本编码器对组织学概念的先验知识有限。因此，像“细胞核”或“肿瘤细胞”这样的简单提示可能具有歧义，可能导致细胞核与其他深色染色结构的混淆，从而导致检测不准确或缺失。其次，检测和分割之间存在很大差距。检测器生成的边界框本质上较为粗糙，通常包含周围的背景组织和邻近的细胞核，其矩形形状与真实的细胞核轮廓不对齐，因此不适合作为像素级细胞核掩膜的直接监督。

在这项研究中，我们引入了ZA-Net，这是一个通用的零标注细胞核分割流程，完全消除了训练过程中对手动标签的需求（见图1）。ZA-Net包括三个阶段。首先，使用大规模图像-文本数据预训练的视觉-语言对象检测器（YOLO-World）以零样本方式生成粗略的细胞核候选框。其次，精细阶段检测模块将这些框转换为点级监督，并使用高斯置信度和精确学习策略来细化细胞核定位，从而缓解了严重的前景-背景不平衡问题。最后，使用Voronoi划分和k-means聚类将细化的点标签转换为两种互补类型的粗略像素标签，然后用这些标签训练分割网络以预测准确的细胞核掩膜。

本研究的主要贡献如下：首先，我们提出了ZA-Net，这是一个通用的零标注细胞核分割框架，它通过从粗略到精细的策略，结合自定义文本提示、精细阶段检测和基于伪标签的分割模块，使H&E数据集能够在零标注成本下得到利用。其次，我们在两个公开的细胞核分割基准测试上对ZA-Net进行了广泛评估。与无标注的Segment Anything Model（SAM）相比，ZA-Net的Dice分数提高了约30%，并在跨数据集泛化能力上比弱监督方法提高了2.5%。

方法

如图3所示，ZA-Net包括：(a) 使用YOLO-World进行无标注的粗略检测，(b) 将框转换为中心点并进一步细化的精细检测，以及(c) 通过Voronoi和k-means将细化后的检测结果转换为像素掩膜的分割，整个过程都不需要手动标签。

数据集

我们在两个公开的H&E染色病理学数据集上评估了所提出的无标注细胞核分割方法：多器官细胞核分割（MoNuSeg）数据集[22]和计算精准医学（CPM）数据集[23]。

•
MoNuSeg：包含来自癌症基因组图谱（TCGA）的44张1000×1000像素的图像，放大倍数为40倍。我们遵循官方划分，其中30张用于模型开发，14张用于测试。这30张开发图像进一步分为23张用于训练和7张用于

文本提示的效果

由于ZA-Net依赖于视觉-语言检测器，其性能取决于文本提示。因此，我们在CPM数据集上比较了三种提示。如表4所示，通用提示“细胞核”给出的检测和分割分数最低。引入“苏木精染色的细胞核”这一信息后，检测精度（66.76%→72.99%）和分割Dice分数（61.63%→64.83%）都有所提高

结论

在这项工作中，我们提出了ZA-Net，这是一个无标注的细胞核分割框架，它结合了视觉-语言检测器和基于CNN的细化及分割技术。通过将零样本检测结果转换为点级监督和粗略像素标签，ZA-Net无需任何手动标注即可学习到准确的细胞核掩膜。在MoNuSeg和CPM数据集上的实验表明，ZA-Net的性能显著优于无标注的SAM基线，并且在跨数据集泛化能力上与最先进的弱监督方法相当

生成式AI和AI辅助技术在写作过程中的声明

在准备这项工作时，作者使用了ChatGPT来润色语言。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

CRediT作者贡献声明

孙一文：可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。张然然：写作——审阅与编辑、监督、形式分析。陈福强：形式分析、数据管理。鲁坤：写作——审阅与编辑、数据管理。何淼霞：写作——审阅与编辑、数据管理。李启斋：写作——审阅与编辑。蒲瑶：软件。蔡静：监督、项目管理。秦文健：写作——审阅与编辑，

利益冲突声明

无。

致谢

这项工作部分得到了中国国家重点研发计划（2023YFF0723400）、国家自然科学基金（编号62271475）、深港肿瘤成像智能计算分析联合实验室（E3G111）、广东省青年人才计划（2024TQ08A386）和CAS青年创新促进协会（2022365）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号