FMaMIL：一种基于空间-频率协同机制的多实例学习方法，用于弱监督下的病理病变分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：FMaMIL: Synergistic Spatial-Frequency Mamba Multi-Instance Learning for Weakly Supervised Pathology Lesion Segmentation

【字体：大中小】 时间：2026年03月07日 来源：Pattern Recognition 7.6

编辑推荐：

　　病理切片图像病灶分割需解决像素级标注成本高的问题。多重实例学习（MIL）利用图像级标签，但Transformer方法处理大图像时计算复杂度高，忽略细粒度纹理。为此，FMaMIL框架结合Mamba模型与频率域编码模块，提升效率与感知。

程航北|董晓荣|沈佳|史光泽|刘学宇|张建安|马雪涛|魏明强|王连生|陈俊新|吴永飞

太原理工大学计算机科学与技术学院（数据科学学院），中国山西省太原市030024

摘要

在组织病理学图像中，准确的病变分割对于诊断量化至关重要，然而这一过程受到像素级注释高昂成本的严重阻碍。虽然多实例学习（MIL）仅使用图像级标签提供了一种解决方案，但现有的基于Transformer的方法在处理千兆像素的全切片图像（WSIs）时面临计算复杂度高的问题，常常忽略了细粒度的纹理线索。为打破这一“效率与感知”的瓶颈，我们提出了FMaMIL，这是一个新颖的两阶段框架，它将空间域的Mamba模型与可学习的频域编码相结合。在第一阶段，我们引入了一个轻量级的基于Mamba的编码器来以线性复杂度捕获长距离依赖关系。为了恢复序列建模中丢失的空间信息，我们采用了双向扫描策略，并结合了LFDE模块，该模块用基于频谱的纹理细节丰富了空间特征。在第二阶段，我们通过一种基于CAM的伪标签细化策略来处理初始CAM中的固有噪声，该策略结合了软标签监督和自我校正机制以确保模型的稳健收敛。在公共和私有数据集上的广泛实验表明，FMaMIL取得了先进的性能，在某些场景中甚至可以与完全监督的方法相媲美。代码可在以下链接获取：https://github.com/chenghangbei0702/FMaMIL

引言

在数字医学中，超高分辨率的全切片图像（WSIs）已成为疾病诊断的主要模式，因为它们包含了丰富的诊断信息[1]。然而，在这些高分辨率且结构复杂的图像中检测异常组织区域仍然具有挑战性。这些区域通常具有微妙且分散的特征，这阻碍了自动化分析。传统的监督分割方法依赖于医学专家提供的精确像素级注释，这一过程既费时又昂贵[2]。此外，注释的主观性导致同一病变的标记存在差异，从而降低了模型的泛化能力[3]。为了解决这些问题，临床实践中容易获得的患者级粗略注释已成为弱监督病变分割的有希望的资源，减少了对外部专家注释的依赖[4]。

与点或边界框等空间先验不同，患者级标签仅提供分类信息而不包含定位信息。这种缺乏明确指导的情况迫使模型在复杂背景下自主识别区分性特征，从而增加了像素级分割的难度[5]。由于GPU内存的限制，传统的弱监督分割（WSS）无法直接处理千兆像素的WSIs。因此，多实例学习（MIL）已成为标准方法[6]。在MIL中，WSI被视为一个“包”中的未标记实例；如果包中包含任何病变区域，则该包被标记为阳性。通过关注实例级特征提取而不是整个WSI，该框架有效地规避了硬件内存的限制。

传统的MIL方法使用预训练模型将实例编码为低维特征，并将它们聚合成包级表示。这种方法假设实例是独立同分布（i.i.d.）的，这导致损失函数主要通过突出的阳性实例进行传播，如图1(a)所示。相比之下，病理学家会同时考虑局部上下文和区域间关系。最近的研究将WSI分析重新定义为长序列建模任务[7]，使用Transformer（图1(b)）来捕获实例间关联和全局上下文。然而，这种转变引入了一个新的“效率与感知”瓶颈：这些模型在扩展到超长序列时面临平方级别的计算复杂度O(N²)，同时忽略了频域中隐藏的细粒度纹理和频谱线索。为了解决这个问题，引入了Mamba模型作为Transformer的更高效替代方案[8]，它在不牺牲全局感受野的情况下实现了线性复杂度。这对于WSIs特别有价值，因为WSIs的空间相关性较弱，阳性区域分布稀疏。虽然Mamba已经与MIL结合使用，但以往的工作主要集中在图像分类上，而非分割[7]。此外，大多数方法关注空间域特征，忽视了频域信息的潜力[9]。频域表示在噪声较大或背景复杂的图像中有效捕获纹理和边缘细节[10]。整合多级空间和频域特征对于改进WSI分割具有巨大潜力。

基于这一动机，我们提出了FMaMIL，这是一个协同工作的Mamba-MIL框架，旨在弥合弱监督病变分割中线性时间效率和多维特征感知之间的差距。通过利用Mamba在长距离依赖关系建模方面的线性复杂度优势，FMaMIL捕获了复杂的实例间关联，并引入了可学习的频域编码（LFDE）模块，用基于频谱的纹理和边缘细节丰富了空间特征。为了减轻图像级监督的固有噪声，我们进一步开发了一种基于CAM的伪标签细化策略，并结合了自我校正机制，通过分阶段的粗到细训练范式提取精确的分割掩码。我们在一个私有数据集和三个公共组织病理学数据集上对FMaMIL进行了广泛评估。实验结果表明，我们的方法在图像级分割方面始终达到最佳性能。值得注意的是，FMaMIL表现出强大的跨域泛化能力，即使在面对显著的数据域变化时也能保持高保真的病变定位，从而验证了其在多种数字病理学应用中的有效性。

本文的主要贡献总结如下：

•
我们提出了FMaMIL，这是第一个专门为WSS设计的框架，采用Mamba作为核心。与之前的MIL分类模型不同，FMaMIL利用线性复杂度的状态空间建模来弥合WSIs中全局上下文提取和像素级感知之间的差距。
•
我们引入了一个可学习的频域编码（LFDE）模块，并结合了双向扫描策略。传统方法使用固定滤波器，而我们的LFDE能够自适应地提取多尺度频谱特征，以捕获在空间域中难以区分的细微病变纹理和边缘。
•
我们开发了一种基于CAM的伪标签细化（PLR）策略，并结合了自我校正机制。这种方法迭代地减轻了标签噪声和二值化伪影。

本文的结构如下：第2节回顾了相关文献，强调了该领域的主要挑战和局限性。第3节描述了所提出的方法，包括其设计和关键技术组件。第4节展示了在三个数据集上的实验结果，并附有消融研究。第5节讨论了模型的优点和局限性。最后，第6节总结了本文并提出了未来的研究方向。

章节片段

弱监督医学图像分割

弱监督医学图像分割依赖于点、边界框和图像级注释，其中图像级注释在临床应用中最容易获取，因此占主导地位。现有方法分为单阶段和两阶段方法[11]。单阶段方法直接使用图像级标签进行端到端训练，优化在线类激活图（CAM）的生成。两阶段方法仍然是标准方法，将图像级标签转换为CAM以生成

提出的方法

在本节中，我们首先介绍了相关背景，然后详细描述了所提出的框架。具体来说，我们研究了关键组件，包括FMamba模块的设计、可学习的频域编码、多实例分类头以及Cam-Seg模型及其技术细节。

数据集描述

FMaMIL在一个私有数据集和三个公共数据集上进行了评估，涵盖了不同的器官和染色协议。表2提供了全面的数据集统计信息。

1) 肾小球病变（私有数据集）：该数据集来自SPPH和SHSXMU，分别包含281个和30个PAS染色的肾脏活检样本。经过预处理后，我们获得了1,593个含有K-W结节的肾小球（阳性）和1,660个不含K-W结节的肾小球（阴性）。注释由三位病理学家共同验证，其中398个

讨论

本研究提出了FMaMIL，这是一个弱监督框架，它将图像级注释和高精度病变分割相结合。遵循“分类-然后分割”的范式，该方法从弱标签中提取诊断线索以指导像素级推断。其核心创新在于双域FMamba模块，它整合了空间依赖性和频域结构，克服了仅依赖空间建模的局限性。如表13所示，

结论

本文提出了一种两阶段的弱监督病变分割框架FMaMIL，专为病理图像设计。该框架仅使用图像级注释就实现了准确的病变定位和分割。通过有效整合频域和空间域信息，并利用Mamba的长序列建模能力，该框架在MIL范式下捕获了实例间的关联

CRediT作者贡献声明

程航北：撰写——原始草稿，研究，形式分析，概念化。董晓荣：研究，形式分析，数据管理。沈佳：形式分析，数据管理。史光泽：数据管理。刘学宇：验证，方法论，形式分析。张建安：撰写——审阅与编辑，监督，概念化。马雪涛：资源，研究。魏明强：监督，方法论，概念化。王连生：撰写——审阅与编辑，

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。我们声明与提交的工作无关的任何商业或关联利益

致谢

本研究得到了中国国家自然科学基金（项目编号62572339和61901292）、山西省自然科学基金（项目编号202303021211082）以及山西省研究生科学研究与创新项目（项目编号RC2400005593）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言